Neste artigo, falaremos sobre as soluções TCN inovadoras mais recentes. Para começar, usando o exemplo de um detector de movimento, vamos considerar a arquitetura das Redes Convolucionais Temporais e suas vantagens sobre as abordagens tradicionais, como Redes Neurais Convolucionais (CNN) e Redes Neurais Recorrentes (RNN). Em seguida, falaremos sobre exemplos recentes de aplicativos TCN, incluindo previsão de tráfego aprimorada, localizador e detector de som e previsão probabilística.
Uma breve visão geral do TCN
O trabalho fundamental de Lea et al. (2016) foi pioneiro no uso de redes convolucionais temporais para segmentar ações baseadas em vídeo. Normalmente, o processo é dividido em duas etapas: primeiro, o cálculo de recursos de baixo nível usando (na maioria das vezes) CNN, que codifica informações espaço-temporais, e em segundo lugar, a entrada de recursos de baixo nível no classificador, que recebe informações temporais de alto nível usando (na maioria das vezes ) RNN. A principal desvantagem dessa abordagem é a necessidade de dois modelos separados. TCN oferece uma abordagem unificada para cobrir ambos os níveis de informação de uma maneira hierárquica.
A figura abaixo mostra a estrutura do codificador-decodificador, informações sobre a arquitetura podem ser encontradas nos dois primeiros links no final do artigo. As questões mais críticas são resolvidas da seguinte maneira: O TCN pode ter uma série de qualquer comprimento e obter o mesmo comprimento na saída. A convolução casual é usada onde há uma arquitetura de rede unidimensional totalmente convolucional. A característica principal é que o valor de saída no momento t é reduzido apenas com os itens que ocorreram no momento anterior.
O burburinho em torno do TCN foi tão longe quanto a Nature, com uma publicação recente de Jan et al. (2020) sobre o uso do TCN na previsão do tempo. Em seu trabalho, os autores realizaram um experimento comparando TCN e LSTM. Um dos resultados foi a conclusão de que a TCN faz um bom trabalho de previsão de séries temporais.
As seções a seguir apresentam a implementação e extensão do TCN clássico.
Melhor previsão de tráfego
Os serviços de compartilhamento de viagens e navegação online podem melhorar a previsão do tráfego e melhorar a experiência na estrada. Reduzir o congestionamento do tráfego, reduzir a poluição e dirigir com segurança e rapidez são apenas alguns dos objetivos que podem ser alcançados melhorando a previsão do tráfego. Como esse problema é baseado em dados em tempo real, os dados de tráfego acumulados devem ser usados. Por esta razão, Dai et al. (2020) recentemente introduziram uma Rede Convolucional de Grafo Espacial-Temporal Híbrido (H-STGCN). A ideia básica é aproveitar a taxa de densidade de fluxo deslizante linear por partes e converter o volume de tráfego futuro em seu equivalente de tempo de tráfego.Uma das abordagens mais interessantes que eles usaram em seu trabalho é a convolução de grafos para obter a dependência do tempo. A matriz de adjacência composta captura as características inerentes da aproximação de tráfego (consulte o artigo de Lee de 2017 para obter mais informações). A arquitetura a seguir fornece quatro módulos para descrever todo o processo de previsão.
Localização e detecção de eventos de som
A área de localização e detecção de áudio (SELF) continua a crescer. Na navegação autônoma, a compreensão do ambiente desempenha um grande papel. Girjis et al. (2020) propôs recentemente uma nova arquitetura de evento de áudio SELF-TCN. Um grupo de pesquisadores afirma que seu framework supera as soluções atuais nesta área, reduzindo o tempo de treinamento. Em sua SELDnet (a arquitetura é mostrada abaixo), o áudio multicanal amostrado em 44,1 kHz extrai a magnitude da fase e do espectro usando a transformada de Fourier de curto prazo e os extrai como recursos de entrada separados. Em seguida, blocos convolucionais e blocos recorrentes (GRUs bidirecionais) são conectados e, em seguida, vem um bloco totalmente conectado. Ao sair da SELDnet, você pode obter a detecção de eventos de áudio e a direção de onde o áudio veio.
E para superar a solução existente, os autores introduziram o SELD-TCN:
Como as convoluções estendidas permitem que a rede processe diferentes entradas, uma rede mais profunda pode ser necessária (que será afetada por gradientes instáveis durante a retropropagação do erro). Os autores do estudo conseguiram resolver esse problema adaptando a arquitetura WaveNet (Dario et al., 2017). Eles mostraram que camadas recorrentes não são necessárias para tarefas SELD e foram capazes de determinar os tempos de início e término de eventos de som ativos.
Previsão probabilística
Uma nova estrutura desenvolvida por Chen et al. (2020) pode ser aplicada para estimar a densidade de probabilidade. A previsão de série temporal melhora muitos cenários de decisão de negócios (por exemplo, gerenciamento de recursos). A previsão probabilística permite extrair informações de dados históricos e minimizar a incerteza de eventos futuros. Quando a tarefa de previsão é prever milhões de séries temporais relacionadas (como no negócio de varejo), é necessário trabalho proibitivo e recursos de computação para estimar os parâmetros. Para resolver essas dificuldades, os autores propuseram um sistema de estimativa e previsão de densidade baseado em CNN. Sua estrutura pode aprender a correlação oculta entre as séries. A novidade científica em seu trabalho está em sua proposta TCN profunda, representada em sua arquitetura:
A implementação de módulos codificadores-decodificadores pode auxiliar no desenvolvimento de aplicações em larga escala.
Conclusão
Neste artigo, revisamos os trabalhos mais recentes relacionados a redes convolucionais temporais, que são superiores de uma forma ou de outra às abordagens clássicas da CNN e RNN na resolução de problemas de séries temporais.
Fontes
- Lea, Colin, et al. "Redes convolucionais temporais: uma abordagem unificada para a segmentação de ações." Conferência Europeia sobre Visão Computacional. Springer, Cham, 2016.
- Lea, Colin, et al. "Redes convolucionais temporais para segmentação e detecção de ações." anais da Conferência IEEE sobre Visão Computacional e Reconhecimento de Padrões. 2017.
- Yan, Jining, et al. "Redes convolucionais temporais para previsão antecipada de enSo." Relatórios científicos 10.1 (2020): 1-15.
- Li, Yaguang, et al. “Diffusion convolutional recurrent neural network: Data-driven traffic forecasting.” arXiv preprint arXiv:1707.01926 (2017).
- Rethage, Dario, Jordi Pons, and Xavier Serra. “A wavenet for speech denoising.” 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
- Chen, Yitian, et al. “Probabilistic forecasting with temporal convolutional neural network.” Neurocomputing (2020).
- Guirguis, Karim, et al. “SELD-TCN: Sound Event Localization & Detection via Temporal Convolutional Networks.” arXiv preprint arXiv:2003.01609 (2020).