🛢️ 🐊 🐺 Redes convolucionais temporárias - revolucionando o mundo das séries temporais 🌯 👴🏽 👩🏻‍🤝‍👨🏿

A tradução do artigo foi preparada na véspera do início do curso “Deep Learning. Básico " .

Neste artigo, falaremos sobre as soluções TCN inovadoras mais recentes. Para começar, usando o exemplo de um detector de movimento, vamos considerar a arquitetura das Redes Convolucionais Temporais e suas vantagens sobre as abordagens tradicionais, como Redes Neurais Convolucionais (CNN) e Redes Neurais Recorrentes (RNN). Em seguida, falaremos sobre exemplos recentes de aplicativos TCN, incluindo previsão de tráfego aprimorada, localizador e detector de som e previsão probabilística.

Uma breve visão geral do TCN

O trabalho fundamental de Lea et al. (2016) foi pioneiro no uso de redes convolucionais temporais para segmentar ações baseadas em vídeo. Normalmente, o processo é dividido em duas etapas: primeiro, o cálculo de recursos de baixo nível usando (na maioria das vezes) CNN, que codifica informações espaço-temporais, e em segundo lugar, a entrada de recursos de baixo nível no classificador, que recebe informações temporais de alto nível usando (na maioria das vezes ) RNN. A principal desvantagem dessa abordagem é a necessidade de dois modelos separados. TCN oferece uma abordagem unificada para cobrir ambos os níveis de informação de uma maneira hierárquica.

A figura abaixo mostra a estrutura do codificador-decodificador, informações sobre a arquitetura podem ser encontradas nos dois primeiros links no final do artigo. As questões mais críticas são resolvidas da seguinte maneira: O TCN pode ter uma série de qualquer comprimento e obter o mesmo comprimento na saída. A convolução casual é usada onde há uma arquitetura de rede unidimensional totalmente convolucional. A característica principal é que o valor de saída no momento t é reduzido apenas com os itens que ocorreram no momento anterior.

O burburinho em torno do TCN foi tão longe quanto a Nature, com uma publicação recente de Jan et al. (2020) sobre o uso do TCN na previsão do tempo. Em seu trabalho, os autores realizaram um experimento comparando TCN e LSTM. Um dos resultados foi a conclusão de que a TCN faz um bom trabalho de previsão de séries temporais.

As seções a seguir apresentam a implementação e extensão do TCN clássico.

Melhor previsão de tráfego

Os serviços de compartilhamento de viagens e navegação online podem melhorar a previsão do tráfego e melhorar a experiência na estrada. Reduzir o congestionamento do tráfego, reduzir a poluição e dirigir com segurança e rapidez são apenas alguns dos objetivos que podem ser alcançados melhorando a previsão do tráfego. Como esse problema é baseado em dados em tempo real, os dados de tráfego acumulados devem ser usados. Por esta razão, Dai et al. (2020) recentemente introduziram uma Rede Convolucional de Grafo Espacial-Temporal Híbrido (H-STGCN). A ideia básica é aproveitar a taxa de densidade de fluxo deslizante linear por partes e converter o volume de tráfego futuro em seu equivalente de tempo de tráfego.Uma das abordagens mais interessantes que eles usaram em seu trabalho é a convolução de grafos para obter a dependência do tempo. A matriz de adjacência composta captura as características inerentes da aproximação de tráfego (consulte o artigo de Lee de 2017 para obter mais informações). A arquitetura a seguir fornece quatro módulos para descrever todo o processo de previsão.

Localização e detecção de eventos de som

A área de localização e detecção de áudio (SELF) continua a crescer. Na navegação autônoma, a compreensão do ambiente desempenha um grande papel. Girjis et al. (2020) propôs recentemente uma nova arquitetura de evento de áudio SELF-TCN. Um grupo de pesquisadores afirma que seu framework supera as soluções atuais nesta área, reduzindo o tempo de treinamento. Em sua SELDnet (a arquitetura é mostrada abaixo), o áudio multicanal amostrado em 44,1 kHz extrai a magnitude da fase e do espectro usando a transformada de Fourier de curto prazo e os extrai como recursos de entrada separados. Em seguida, blocos convolucionais e blocos recorrentes (GRUs bidirecionais) são conectados e, em seguida, vem um bloco totalmente conectado. Ao sair da SELDnet, você pode obter a detecção de eventos de áudio e a direção de onde o áudio veio.

E para superar a solução existente, os autores introduziram o SELD-TCN:

Como as convoluções estendidas permitem que a rede processe diferentes entradas, uma rede mais profunda pode ser necessária (que será afetada por gradientes instáveis durante a retropropagação do erro). Os autores do estudo conseguiram resolver esse problema adaptando a arquitetura WaveNet (Dario et al., 2017). Eles mostraram que camadas recorrentes não são necessárias para tarefas SELD e foram capazes de determinar os tempos de início e término de eventos de som ativos.

Previsão probabilística

Uma nova estrutura desenvolvida por Chen et al. (2020) pode ser aplicada para estimar a densidade de probabilidade. A previsão de série temporal melhora muitos cenários de decisão de negócios (por exemplo, gerenciamento de recursos). A previsão probabilística permite extrair informações de dados históricos e minimizar a incerteza de eventos futuros. Quando a tarefa de previsão é prever milhões de séries temporais relacionadas (como no negócio de varejo), é necessário trabalho proibitivo e recursos de computação para estimar os parâmetros. Para resolver essas dificuldades, os autores propuseram um sistema de estimativa e previsão de densidade baseado em CNN. Sua estrutura pode aprender a correlação oculta entre as séries. A novidade científica em seu trabalho está em sua proposta TCN profunda, representada em sua arquitetura:

A implementação de módulos codificadores-decodificadores pode auxiliar no desenvolvimento de aplicações em larga escala.

Conclusão

Neste artigo, revisamos os trabalhos mais recentes relacionados a redes convolucionais temporais, que são superiores de uma forma ou de outra às abordagens clássicas da CNN e RNN na resolução de problemas de séries temporais.

Fontes

Lea, Colin, et al. "Redes convolucionais temporais: uma abordagem unificada para a segmentação de ações." Conferência Europeia sobre Visão Computacional. Springer, Cham, 2016.
Lea, Colin, et al. "Redes convolucionais temporais para segmentação e detecção de ações." anais da Conferência IEEE sobre Visão Computacional e Reconhecimento de Padrões. 2017.
Yan, Jining, et al. "Redes convolucionais temporais para previsão antecipada de enSo." Relatórios científicos 10.1 (2020): 1-15.
Li, Yaguang, et al. “Diffusion convolutional recurrent neural network: Data-driven traffic forecasting.” arXiv preprint arXiv:1707.01926 (2017).
Rethage, Dario, Jordi Pons, and Xavier Serra. “A wavenet for speech denoising.” 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
Chen, Yitian, et al. “Probabilistic forecasting with temporal convolutional neural network.” Neurocomputing (2020).
Guirguis, Karim, et al. “SELD-TCN: Sound Event Localization & Detection via Temporal Convolutional Networks.” arXiv preprint arXiv:2003.01609 (2020).

:

Deep Learning – ?

Redes convolucionais temporárias - revolucionando o mundo das séries temporais