Mario Miskullo é Professor Assistente do Departamento de Engenharia Elétrica e de Computação da George Washington University. Mario é o líder do subgrupo da equipe de computação neuromórfica do OPEN Lab liderada pelo Prof. Dr. Volcker J. Sorger. Mario obteve seu mestrado em Engenharia Elétrica e da Computação na Politécnica de Torino enquanto trabalhava como pesquisador em Harvard / MIT. Ele defendeu sua tese de doutorado em optoeletrônica na Universidade de Gênova no Instituto Italiano de Tecnologia, enquanto trabalhava como assistente de pesquisa na Fundição Molecular do Laboratório Nacional. Lawrence em Berkeley. Seus interesses se estendem à ciência e engenharia, incluindo nano-óptica e interações de matéria leve, metassuperfícies, óptica de Fourier e computação neuromórfica fotônica.
Os autores sugerem que, como resultado dessa abordagem, o desempenho de processamento de fluxos de dados ópticos pode ser 2 a 3 ordens de magnitude maior do que o de uma GPU. Os autores também acreditam que os processadores fotônicos podem funcionar excepcionalmente bem em periféricos em redes 5G.
— , (OPEN) . , .
, , - . — , , PMAC/s . , (PECASE), AFOSR , . - , OSA , OSA , SPIE . - IEEE, OSA SPIE.
Na abordagem investigada, o núcleo do tensor de fótons realiza multiplicações de matrizes em paralelo, melhorando assim a velocidade e eficiência do aprendizado profundo. As redes neurais aprendem como executar decisões não controladas e construir uma classificação de dados invisíveis. Depois que uma rede neural é treinada para trabalhar com dados, ela pode inferir para reconhecer e classificar objetos, padrões e encontrar uma assinatura nos dados.
O processador fotônico TPU armazena e processa dados em paralelo usando uma conexão eletro-ótica que pode ler e gravar memória óptica com eficiência, enquanto o TPU fotônico interage com outras arquiteturas.
“Descobrimos que as plataformas fotônicas com memória óptica embutida podem realizar as mesmas operações que os processadores tensores. Ao mesmo tempo, eles consomem menos energia e são muito mais produtivos. Eles podem ser usados para fazer cálculos na velocidade da luz ”, disse Mario Miskullo, um dos desenvolvedores.
A maioria das redes neurais desvenda várias camadas de neurônios interconectados para imitar o funcionamento do cérebro humano. Uma maneira eficiente de representar essas redes é uma função composta que multiplica matrizes e vetores. Essa visualização permite que operações paralelas sejam realizadas por meio de arquiteturas especializadas em operações vetorizadas, como multiplicação de matrizes.
Fonte: Artigo de Mario Miskullo e Volker Sorger.
(a) O núcleo tensor fotônico (PTC) consiste em 16 fibras, que por sua natureza e independentemente executam a multiplicação linha por linha e o acúmulo ponto a ponto.
(b) . WDM, (, -) . J- . , , (MRR), ( ), , , MAC.
Quanto mais difícil a tarefa e maiores os requisitos de precisão das previsões, mais complexa se torna a rede. Essas redes exigem grandes quantidades de dados para serem computadas e mais potência para processar esses dados. Processadores digitais modernos adequados para aprendizado profundo, como unidades de processamento gráfico (GPUs) ou unidades de processamento de tensor (TPUs), são limitados na execução de operações complexas de alta precisão devido à potência necessária para fazê-lo. E também por causa da lenta transferência de dados eletrônicos entre o processador e a memória.
Os desenvolvedores e autores do artigo mostraram que o desempenho de uma TPU pode ser 2 a 3 ordens de magnitude maior do que o de uma TPU elétrica. Os fótons são ideais para redes de computação e operações nó a nó que executam tarefas inteligentes de alta capacidade na borda de redes como 5G. Os sinais de dados de câmeras de vigilância, sensores ópticos e outras fontes podem já estar na forma de fótons.
“Os processadores fotônicos dedicados podem economizar enormes quantidades de energia, reduzindo os tempos de resposta e processamento”, acrescentou Miskullo. Para o usuário final, isso significa que, neste caso, os dados são processados muito mais rápido porque a maioria deles é pré-processada, o que significa que apenas alguns dos dados podem ser enviados para a nuvem ou data center.
Uma nova abordagem para transmissão de dados ópticos e elétricos
Este artigo apresenta um exemplo de escolha de uma rota ótica para executar tarefas de aprendizado de máquina. Na maioria das redes neurais (NNs), que expõem várias camadas de neurônios / nós interconectados, cada neurônio e camada, bem como as conexões da própria rede, são importantes para a tarefa na qual a rede foi treinada. Na camada conectada em consideração, as redes neurais são altamente dependentes de operações matemáticas de matriz vetorial, nas quais grandes matrizes de dados de entrada e pesos são multiplicadas de acordo com o processo de aprendizagem. Redes neurais profundas de multicamadas complexas requerem largura de banda significativa e baixa latência para satisfazer as operações necessárias para realizar uma grande multiplicação de matrizes sem sacrificar a eficiência e a velocidade.
Como você multiplica essas matrizes com eficiência? Em processadores de uso geral, as operações de matriz são executadas sequencialmente, exigindo acesso constante à memória cache, o que cria um gargalo na arquitetura de von Neumann. Arquiteturas especializadas, como GPUs e TPUs, ajudam a mitigar esses gargalos, permitindo alguns modelos de aprendizado de máquina poderosos.
GPUs e TPUs são especialmente úteis sobre CPUs. Mas quando são usados para treinar redes neurais profundas, realizando inferência para grandes conjuntos de dados bidimensionais, como imagens, eles podem consumir muita energia e exigir um tempo de computação mais longo (mais de dezenas de milissegundos). A multiplicação de matrizes para tarefas de inferência menos complexas ainda sofre de problemas de latência, principalmente devido a restrições de acesso a várias hierarquias de memória e latência para cada instrução na GPU.
Os autores do artigo sugerem que, neste contexto, é necessário estudar e reinventar os paradigmas operacionais das modernas plataformas de computação lógica em que a álgebra matricial se baseia no acesso à memória persistente. A este respeito, a natureza de onda da luz e as operações inerentes associadas, como interferência e difração, podem desempenhar um papel importante no aumento do rendimento computacional, reduzindo o consumo de energia de plataformas neuromórficas.
Os desenvolvedores antecipam que as tecnologias futuras devem executar tarefas computacionais no domínio de suas entradas variáveis com o tempo usando suas próprias operações físicas. Deste ponto de vista, os fótons são ideais para cálculos de redes distribuídas, realizando tarefas inteligentes em big data na borda da rede (por exemplo, 5G), onde os sinais de dados já podem existir na forma de fótons (por exemplo, uma câmera de segurança, sensor óptico, etc.) .), pré-filtrando e ajustando de forma inteligente a quantidade de tráfego de dados que pode ser direcionada para centros de dados e sistemas em nuvem.
É aqui que eles quebram uma nova abordagem usando um Kernel de Tensor Fotônico (PTC) capaz de realizar multiplicação e acumulação de matrizes 4x4 com um kernel treinado em uma etapa (ou seja, não iterativamente); em outras palavras, após o treinamento, os pesos da rede neural são armazenados em uma memória fotônica multinível de 4 bits, implementada diretamente no chip, sem a necessidade de circuitos eletro-ópticos adicionais ou memória dinâmica de acesso aleatório (DRAM). As memórias fotônicas têm circuitos nanofotônicos de baixa perda e mudança de fase baseados em condutores G2Sb2Se5 depositados em um guia de onda planarizado que pode ser atualizado por comutação eletrotérmica, portanto, capaz de ser lido totalmente opticamente.A comutação eletrotérmica é realizada usando eletrodos de aquecimento de tungstênio que interagem com um sensor de memória de mudança de fase (PCM).
Mesa. Comparação do desempenho de kernels tensores.
Fonte: Artigo de Mario Miskullo e Volker Sorger.
O Photonic Tensor Core (PTC) alimentado eletronicamente (coluna da esquerda) fornece um aumento de 2-8x na taxa de transferência em comparação com o T4 e A100 da Nvidia, e para dados ópticos (como uma câmera), a ampliação é de cerca de 60x (área microcircuito é limitado a um cristal (~ 800 mm2).
Testes mostraram que o desempenho dos chips fotônicos é duas a três vezes maior do que o do mercado hoje. A velocidade de processamento de dados neles pode chegar a dois petaflops por segundo, enquanto consomem cerca de 80 watts de energia, dos quais 95% serão gastos na manutenção do chip, e apenas 5% em cálculos.
Os autores do artigo enfatizam que este trabalho representa a primeira abordagem para a implementação de um processador tensor de fótons que armazena dados e os processa em paralelo. Esse processador pode escalar o número de operações de multiplicação-acumulação (MAC) em várias ordens de magnitude, enquanto ao mesmo tempo reduz significativamente o consumo de energia e a latência em comparação com os aceleradores de hardware existentes, além de fornecer análises em tempo real.
Ao contrário da eletrônica digital, que depende de portas, na fotônica integrada, multiplicação-acumulação e muitas outras operações algébricas lineares podem ser realizadas de forma não iterativa, aproveitando o paralelismo inerente fornecido pela natureza eletromagnética dos sinais de matéria leve. A esse respeito, a fotônica integrada é uma plataforma ideal para exibir operações complexas específicas em hardware.