Em um artigo publicado recentemente na Physical Review Research, demonstramos como o aprendizado profundo simplifica a solução de equações mecânicas quânticas fundamentais para sistemas reais. Ao mesmo tempo, nĂŁo apenas uma questĂŁo cientĂfica fundamental Ă© resolvida, mas tambĂ©m se abrem perspectivas para a utilização prática dos resultados obtidos no futuro.
Os pesquisadores serĂŁo capazes de criar protĂłtipos de novos materiais e compostos in silico antes de tentar sintetizá-los em laboratĂłrio. TambĂ©m postou o cĂłdigodeste estudo; assim, as equipes de fĂsica e quĂmica computacional podem desenvolver seu trabalho e aplicá-lo a uma variedade de problemas. Como parte do estudo, uma nova arquitetura de rede neural, Fermionic Neural Network ou FermiNet, foi desenvolvida, que Ă© adequada para simular o estado quântico de grandes coleções de elĂ©trons - e todas as ligações quĂmicas sĂŁo baseadas em elĂ©trons. FermiNet demonstrou pela primeira vez como usar o aprendizado profundo para calcular a energia de átomos e molĂ©culas do zero. O modelo resultante revelou-se preciso o suficiente para aplicação prática e, na Ă©poca da publicação do artigo original (outubro de 2020), continuava sendo o mĂ©todo de rede neural mais preciso usado na indĂşstria. É assumidoque os mĂ©todos e ferramentas associados podem ser Ăşteis na solução de problemas fundamentais nas ciĂŞncias naturais. Os autores da FermiNet já estĂŁo usando em seus trabalhos sobre a convolução de proteĂnas , a dinâmica de compostos vĂtreos , a cromodinâmica quântica em uma rede e em muitos outros projetos ajudando a traduzir esses desenvolvimentos em prática.
Uma breve história da mecânica quântica
Ao mencionar "mecânica quântica", Ă© provável que vocĂŞ confunda o interlocutor com este tĂłpico como nenhum outro. Imediatamente lembro-me de imagens como o gato de Schrödinger, que paradoxalmente pode estar vivo e morto ao mesmo tempo, assim como partĂculas elementares que sĂŁo corpĂşsculos e ondas. Em um sistema quântico, uma partĂcula como um elĂ©tron nĂŁo tem uma localização especĂfica, ao contrário da situação na fĂsica clássica. Na fĂsica quântica, a posição de um elĂ©tron Ă© descrita por uma nuvem de probabilidades - isto Ă©, Ă© espalhada por todos aqueles pontos, em cada um dos quais um elĂ©tron pode aparecer. Por causa desse absurdo estado de coisas, Richard Feynman achou possĂvel afirmar: "Acho que posso dizer com segurança que ninguĂ©m entende a mecânica quântica."
Apesar de toda essa estranheza assustadora, a essĂŞncia da teoria pode ser expressa em apenas algumas equações simples. A mais famosa delas, a equação de Schrödinger, descreve o comportamento de partĂculas em uma escala quântica da mesma forma que as equações de Newton descrevem o comportamento de corpos em escalas macroscĂłpicas mais familiares. Embora a interpretação desta equação obrigue qualquer pessoa a agarrar a cabeça, seu componente matemático Ă© muito mais fácil de usar, devido ao qual nasceu o famoso "cale a boca e conte" do famoso professor, com o qual eles lutaram contra as incĂ´modas questões filosĂłficas dos alunos.
Essas equações sĂŁo suficientes para descrever o comportamento de toda matĂ©ria familiar a nĂłs no nĂvel dos átomos e nĂşcleos. Um componente ilĂłgico da mecânica quântica está por trás de todos os tipos de fenĂ´menos exĂłticos: supercondutividade, superfluidez, laser e semicondutores sĂŁo possĂveis apenas devido aos efeitos quânticos. Mas mesmo algo tĂŁo modesto como uma ligação covalente - o componente básico de toda a quĂmica - Ă© o resultado de interações quânticas de elĂ©trons. Quando essas regras foram finalmente elaboradas na dĂ©cada de 1920, os cientistas perceberam que, pela primeira vez, foi criada uma teoria que detalhava o trabalho de toda a quĂmica. Em princĂpio, as equações quânticas poderiam simplesmente ser adaptadas para diferentes molĂ©culas, resolvidas levando-se em consideração a energia do sistema e, entĂŁo, determinando quais molĂ©culas serĂŁo estáveis ​​e quais reações ocorrerĂŁo espontaneamente. Mas,quando foi feita uma tentativa de sentar e calcular as soluções para essas equações, descobriu-se que isso Ă© viável para o átomo mais simples (hidrogĂŞnio) e praticamente nĂŁo para qualquer outro. Todos os outros cálculos se revelaram muito complicados.
O otimismo vertiginoso daqueles dias foi lindamente resumido por Paul Dirac:
Portanto, as leis fĂsicas básicas necessárias para uma teoria matemática que descreveria a maior parte da fĂsica e toda a quĂmica já sĂŁo conhecidas. O problema Ă© que, na prática, a aplicação dessas leis fornece equações muito complexas, que somos objetivamente incapazes de resolver. Portanto, parece desejável desenvolver mĂ©todos aproximados para a aplicação prática da mecânica quântica.
1929
Muitos aceitaram o chamado de Dirac, e logo os fĂsicos começaram a desenvolver mĂ©todos matemáticos que tornariam possĂvel aproximar o comportamento das ligações moleculares e outros fenĂ´menos quĂmicos em um nĂvel qualitativo. Tudo começou com uma descrição aproximada do comportamento dos elĂ©trons - essa informação Ă© estudada em um curso introdutĂłrio Ă quĂmica. Com essa descrição, cada elĂ©tron Ă© trazido para seu prĂłprio orbital, o que permite calcular a probabilidade de um elĂ©tron ser encontrado em um ponto especĂfico nas proximidades de um nĂşcleo atĂ´mico. Nesse caso, a forma de cada orbital depende da forma mĂ©dia de todos os outros orbitais. Visto que em tal descrição de acordo com o modelo de "campo autoconsistente", Ă© assumido que cada elĂ©tron está ligado a apenas um orbital, esta imagem transmite de forma incompleta as propriedades reais dos elĂ©trons. Ainda assim Ă© o suficientepara determinar a energia total da molĂ©cula com um erro de apenas cerca de 0,5%.
Figura 1 - orbitais atĂ´micos. uma superfĂcie Ă© uma área na qual um elĂ©tron provavelmente está localizado. na regiĂŁo azul a função de onda Ă© positiva e na violeta Ă© negativa.
Infelizmente para o quĂmico praticante, um erro de 0,5% Ă© muito grande para ser tolerado. A energia das ligações moleculares Ă© apenas uma pequena fração da energia total de um sistema, e a previsĂŁo correta de se uma molĂ©cula será estável pode muitas vezes depender de apenas 0,001% da energia total do sistema, ou cerca de 0,2% da energia de "correlação" restante.
Por exemplo, enquanto a energia total dos elĂ©trons em uma molĂ©cula de butadieno Ă© Ă© quase 100.000 quilocalorias por mol, a diferença de energia entre as várias configurações possĂveis da molĂ©cula Ă© de apenas 1 quilocaloria por mol. Ou seja, se for necessário prever corretamente a forma natural da molĂ©cula de butadieno, o mesmo nĂvel de precisĂŁo Ă© necessário para medir a largura de um campo de futebol com uma precisĂŁo de um milĂmetro.
Com a proliferação da computação eletrĂ´nica logo apĂłs a Segunda Guerra Mundial, os cientistas desenvolveram uma sĂ©rie de mĂ©todos computacionais que nĂŁo podiam ser descritos como campos autoconsistentes. Esses mĂ©todos sĂŁo indicados por um conjunto inimaginável de abreviações que cobrem todo o alfabeto, mas cada um desses mĂ©todos contĂ©m algum tipo de compensação entre precisĂŁo e eficiĂŞncia. Em um extremo estĂŁo os mĂ©todos que sĂŁo, de fato, precisos, mas em escala pior do que exponencialmente conforme o nĂşmero de elĂ©trons aumenta - portanto, eles nĂŁo sĂŁo adequados para trabalhar com a maioria, mas com as menores molĂ©culas. No outro extremo, existem mĂ©todos que escalam linearmente, mas nĂŁo sĂŁo muito precisos. Esses mĂ©todos computacionais tiveram um impacto tremendo na quĂmica prática - o PrĂŞmio Nobel de QuĂmica de 1998 foi concedido aos autores de muitos desses algoritmos.
Apesar da amplitude das ferramentas de mecânica quântica computacional existentes, o problema de representar informações de forma eficiente exigiu o desenvolvimento de um novo mĂ©todo. NĂŁo Ă© por acaso que apenas dezenas de milhares de elĂ©trons estĂŁo envolvidos nos maiores cálculos quĂmicos quânticos modernos (estamos falando dos mĂ©todos mais aproximados), enquanto os mĂ©todos clássicos de cálculos quĂmicos, por exemplo, a dinâmica molecular, permitem lidar com milhões de átomos. NĂŁo Ă© difĂcil descrever o estado de um sistema clássico - vocĂŞ sĂł precisa rastrear a posição e o momento de cada partĂcula. Imaginar o estado de um sistema quântico Ă© um desafio muito maior. Temos que atribuir um valor probabilĂstico a cada configuração possĂvel das posições dos elĂ©trons. Esta informação Ă© codificada em uma função de onda,permitindo que vocĂŞ atribua um nĂşmero positivo ou negativo para cada configuração de elĂ©tron, e a função de onda quadrada dá a probabilidade com a qual o sistema pode ser encontrado em tal configuração. O espaço de todas as configurações possĂveis Ă© colossal - se vocĂŞ tentasse imaginá-lo como uma grade com 100 pontos em cada dimensĂŁo, entĂŁo o nĂşmero de configurações possĂveis de elĂ©trons para um átomo de silĂcio seria maior do que o nĂşmero de átomos no universo!
É aqui que as redes neurais profundas sĂŁo Ăşteis. Nos Ăşltimos anos, enormes avanços foram feitos na representação de distribuições de probabilidade complexas com alta dimensionalidade usando redes neurais. Sabe-se agora como treinar efetivamente tais redes com a expectativa de sua escalabilidade. Sugerimos que como essas redes já provaram sua agilidade em treinar funções com várias dimensões na resolução de problemas da área de inteligĂŞncia artificial, talvez funcionem para representar funções de ondas quânticas. NĂŁo fomos os primeiros a ter tais pensamentos - outros pesquisadores, em particular, Giuseppe Carleo e Matthias Troyerdemonstrou como o aprendizado profundo moderno Ă© aplicável Ă solução de problemas quânticos idealizados. QuerĂamos usar redes neurais para resolver problemas mais realistas em quĂmica e fĂsica de estado sĂłlido, o que significava que precisávamos levar os elĂ©trons em consideração em nossos cálculos.
Há apenas uma advertĂŞncia ao trabalhar com elĂ©trons. Os elĂ©trons devem obedecer ao princĂpio de exclusĂŁo de Pauli, ou seja, dois elĂ©trons nĂŁo podem estar simultaneamente no mesmo lugar. O fato Ă© que os elĂ©trons sĂŁo partĂculas elementares dentre os fĂ©rmions que constituem a maioria dos primeiros tijolos da matĂ©ria, em particular prĂłtons, nĂŞutrons, quarks, neutrinos, etc. A função de onda deles deve ser anti-simĂ©trica - se vocĂŞ trocar dois elĂ©trons, a função de onda Ă© multiplicada por -1. Assim, há uma probabilidade zero de que dois elĂ©trons fiquem um sobre o outro, uma vez que a probabilidade disso (e a função de onda correspondente) Ă© igual a zero.
Portanto, foi necessário desenvolver uma rede neural de um novo tipo, que seria anti-simĂ©trica em relação Ă entrada que entrava. NĂłs a batizamos de Rede Neural FermiĂ´nica ou FermiNet. Na maioria dos mĂ©todos de quĂmica quântica, a antissimetria Ă© introduzida usando uma função chamada determinante. O determinante Ă© uma matriz que possui a seguinte propriedade: se vocĂŞ trocar duas de suas linhas, a saĂda Ă© multiplicada por -1, exatamente como a função de onda dos fĂ©rmions. VocĂŞ pode pegar um monte de funções de um elĂ©tron, calculá-las para cada elĂ©tron em seu sistema e, em seguida, ajustar todos os resultados em uma matriz. Nesse caso, o determinante da matriz será uma função de onda verdadeiramente anti-simĂ©trica. A principal limitação dessa abordagem Ă© que a função resultante - chamada de Determinante Slater - nĂŁo Ă© amplamente aplicável.As funções de onda de sistemas reais sĂŁo geralmente muito mais complexas. Normalmente, grandes combinações lineares de determinantes de Slater - Ă s vezes milhões ou mais - sĂŁo usadas para corrigir esse problema e, em seguida, algumas correções simples sĂŁo feitas com base em pares de elĂ©trons. Mesmo assim, o sistema pode nĂŁo ser preciso o suficiente para calcular as energias.
2 – . – , 1. 1 2 , , -1. .
Redes neurais profundas são freqüentemente muito superiores em eficiência a combinações lineares de funções básicas ao representar funções complexas. No FermiNet, essa superioridade é alcançada pela introdução de cada uma das funções no determinante, a função de todos os elétrons. Este método é muito mais poderoso do que usar funções de um e dois elétrons. FermiNet fornece um fluxo de informações separado para cada elétron. Sem levar em conta quaisquer interações entre esses fluxos, a rede não seria mais expressiva do que o determinante usual de Slater. Para fazer mais, calculamos a média das informações coletadas de todos os fluxos em cada uma das camadas da rede e passamos essas informações para cada um dos fluxos para a próxima camada. Por conseguinte, tais fluxos têm propriedades de simetria adequadas para criar uma função anti-simétrica.
As informações sobre cada uma das camadas das redes neurais de grafos são agregadas de maneira semelhante . Ao contrário dos determinantes de Slater, as redes FermiNet são aproximadores de função universal , pelo menos enquanto as camadas das redes neurais permanecerem largas o suficiente. Isso significa que, se pudermos treinar essas redes corretamente, elas podem produzir uma solução quase exata para a equação de Schrödinger.
3 – FermiNet. (, ) . FermiNet , , , . , - -1.
Customizamos a rede FermiNet, minimizando a energia do sistema. Para fazer isso com precisĂŁo, precisarĂamos calcular a função de onda em todas as configurações eletrĂ´nicas possĂveis, portanto, terĂamos que fazer isso aproximadamente. Portanto, pegamos uma amostra aleatĂłria de configurações de elĂ©trons, calculamos a energia localmente para cada variante de ordenação de elĂ©trons e minimizamos essa energia, nĂŁo a verdadeira. Esse mĂ©todo Ă© chamado de "Monte Carlo" porque Ă© um pouco como as ações de um jogador de cassino que joga os dados repetidamente. Como a função de onda quadrada permite observar alguma configuração de partĂculas em qualquer local, Ă© mais conveniente gerar amostras da prĂłpria função de onda - em essĂŞncia, simular o ato de observar partĂculas.
Embora a maioria das redes neurais seja treinada em alguns dados externos, em nosso caso a própria rede neural gera a entrada que vai para o treinamento. A situação é um pouco como se arrancar de um pântano pelos cabelos, e significa que não precisamos de nenhum dado de treinamento além das posições dos núcleos atômicos em torno dos quais os elétrons dançam. A ideia básica, conhecida como Método Variational Quantum Monte Carlo (ou VMC, para abreviar), existe na ciência desde 1960 e é geralmente considerada uma maneira barata, mas não muito precisa de calcular a energia de um sistema. Ao substituir funções de onda simples baseadas em determinantes de Slater por funções do FermiNet, conseguimos melhorar radicalmente a precisão dessa abordagem em todos os sistemas que consideramos.
4 – , FermiNet, .
Para ter certeza de que o FermiNet Ă© realmente uma inovação em sua área de assunto, começamos examinando sistemas simples e bem estudados, por exemplo, átomos da primeira linha da tabela periĂłdica (de hidrogĂŞnio a neon). Esses sĂŁo sistemas pequenos - 10 elĂ©trons ou menos - entĂŁo eles se prestam Ă pesquisa usando os mĂ©todos mais precisos (mas exponencialmente mais complexos). O FermiNet supera em muito os cálculos VMC comparáveis ​​e muitas vezes pode reduzir o erro pela metade ou mais em comparação com cálculos exponencialmente escaláveis. Em sistemas maiores, os mĂ©todos que se tornam mais complexos exponencialmente tornam-se inaplicáveis, entĂŁo usamos o mĂ©todo do cluster acoplado como referĂŞncia. Este mĂ©todo funciona bem em molĂ©culas com configurações estáveis, mas desliza quando as ligações sĂŁo esticadas ou danificadas,e tais fatores sĂŁo crĂticos para a compreensĂŁo das reações quĂmicas. Embora tenha uma escala muito melhor do que exponencialmente, o mĂ©todo de agrupamento conectado usado neste estudo ainda funciona da melhor forma possĂvel com molĂ©culas de tamanho mĂ©dio. Aplicamos FermiNet a molĂ©culas cada vez maiores, de hidreto de lĂtio a biciclobutano - foi o maior sistema que vimos, com 30 elĂ©trons. Nas menores molĂ©culas, FermiNet capturou uma diferença surpreendente de 99,8% entre a energia dos aglomerados ligados e a energia derivada de um Ăşnico determinante de Slater. No caso do biciclobutano, o FermiNet ainda capturou 97% ou mais dessa energia de correlação - uma grande conquista para uma abordagem supostamente "barata, mas imprecisa".Embora tenha uma escala muito melhor do que exponencialmente, o mĂ©todo de agrupamento conectado usado neste estudo ainda funciona da melhor forma possĂvel com molĂ©culas de tamanho mĂ©dio. Aplicamos FermiNet a molĂ©culas cada vez maiores, de hidreto de lĂtio a biciclobutano - foi o maior sistema que vimos, com 30 elĂ©trons. Nas menores molĂ©culas, FermiNet capturou uma diferença surpreendente de 99,8% entre a energia dos aglomerados ligados e a energia derivada de um Ăşnico determinante de Slater. No caso do biciclobutano, o FermiNet ainda capturou 97% ou mais dessa energia de correlação - uma grande conquista para uma abordagem supostamente "barata, mas imprecisa".Embora tenha uma escala muito melhor do que exponencialmente, o mĂ©todo de agrupamento conectado usado neste estudo ainda funciona da melhor forma possĂvel com molĂ©culas de tamanho mĂ©dio. Aplicamos FermiNet a molĂ©culas cada vez maiores, de hidreto de lĂtio a biciclobutano - foi o maior sistema que vimos, com 30 elĂ©trons. Nas menores molĂ©culas, FermiNet capturou uma diferença surpreendente de 99,8% entre a energia dos aglomerados ligados e a energia derivada de um Ăşnico determinante de Slater. No caso do biciclobutano, o FermiNet ainda capturou 97% ou mais dessa energia de correlação - uma grande conquista para uma abordagem supostamente "barata, mas imprecisa".que foi aplicado no estudo descrito, todos trabalham igualmente no máximo com molĂ©culas de tamanho mĂ©dio. Aplicamos FermiNet a molĂ©culas cada vez maiores, de hidreto de lĂtio a biciclobutano - foi o maior sistema que vimos, com 30 elĂ©trons. Nas menores molĂ©culas, FermiNet capturou uma diferença surpreendente de 99,8% entre a energia dos aglomerados ligados e a energia derivada de um Ăşnico determinante de Slater. No caso do biciclobutano, o FermiNet ainda capturou 97% ou mais dessa energia de correlação - uma grande conquista para uma abordagem supostamente "barata, mas imprecisa".que foi aplicado no estudo descrito, todos trabalham igualmente no máximo com molĂ©culas de tamanho mĂ©dio. Aplicamos FermiNet a molĂ©culas cada vez maiores, de hidreto de lĂtio a biciclobutano - foi o maior sistema que vimos, com 30 elĂ©trons. Nas menores molĂ©culas, FermiNet capturou uma diferença surpreendente de 99,8% entre a energia dos aglomerados ligados e a energia derivada de um Ăşnico determinante de Slater. No caso do biciclobutano, o FermiNet ainda capturou 97% ou mais dessa energia de correlação - uma grande conquista para uma abordagem supostamente "barata, mas imprecisa".do hidreto de lĂtio ao biciclobutano - foi o maior sistema que consideramos, tem 30 elĂ©trons. Nas menores molĂ©culas, FermiNet capturou uma diferença surpreendente de 99,8% entre a energia dos aglomerados ligados e a energia derivada de um Ăşnico determinante de Slater. No caso do biciclobutano, o FermiNet ainda capturou 97% ou mais dessa energia de correlação - uma grande conquista para uma abordagem supostamente "barata, mas imprecisa".do hidreto de lĂtio ao biciclobutano - foi o maior sistema que consideramos, tem 30 elĂ©trons. Nas menores molĂ©culas, FermiNet capturou uma diferença surpreendente de 99,8% entre a energia dos aglomerados ligados e a energia derivada de um Ăşnico determinante de Slater. No caso do biciclobutano, o FermiNet ainda capturou 97% ou mais dessa energia de correlação - uma grande conquista para uma abordagem supostamente "barata, mas imprecisa".mas imprecisa ".mas imprecisa ".
A Figura 5 Ă© uma representação gráfica da fração da energia de correlação que FermiNet captura corretamente ao trabalhar com molĂ©culas. A barra roxa marca 99% da energia de correlação. Da esquerda para a direita: hidreto de lĂtio, nitrogĂŞnio, etileno, ozĂ´nio, etanol e biciclobutano.
Embora os mĂ©todos de agrupamento acoplado funcionem bem com molĂ©culas estáveis, a verdadeira "vanguarda" da quĂmica computacional tem a ver com a compreensĂŁo de como as molĂ©culas se esticam, torcem e se quebram. Ao resolver esses problemas, os mĂ©todos de cluster conectado geralmente falham, entĂŁo vocĂŞ deve comparar o resultado com o máximo de amostras de controle possĂvel para ter certeza de que a resposta Ă© consistente. No âmbito do experimento descrito, dois sistemas de controle alongado foram considerados - uma molĂ©cula de nitrogĂŞnio (N 2) e uma cadeia de hidrogĂŞnio de 10 átomos (H 10 ). Na molĂ©cula de nitrogĂŞnio, a ligação Ă© especialmente complexa, pois nela participam 3 elĂ©trons de cada átomo.
A cadeia de hidrogĂŞnio, por sua vez, Ă© interessante para entender quais propriedades os elĂ©trons apresentam nos materiais , por exemplo, para prever se um determinado material conduzirá eletricidade ou nĂŁo. Em ambos os sistemas, o mĂ©todo de agrupamento conectado funcionou bem no equilĂbrio, mas apresentou dificuldades quando as ligações foram esticadas. Os mĂ©todos VMC tradicionais nĂŁo tiveram um bom desempenho em toda a gama de exemplos. Mas o FermiNet revelou-se um dos melhores mĂ©todos de todos investigados, independentemente do comprimento do link.
ConclusĂŁo
Acreditamos que o FermiNet Ă© o inĂcio de grandes avanços na sĂntese de mĂ©todos de aprendizado profundo e quĂmica quântica computacional. A maioria dos sistemas com os quais FermiNet foi revisado atĂ© agora sĂŁo bem compreendidos e compreendidos. Mas assim como os primeiros bons resultados usando aprendizado profundo em outros domĂnios estimularam uma onda de pesquisas adicionais e rápido progresso, esperançosamente o mesmo acontecerá com o FermiNet, e ideias para novas e ainda melhores arquiteturas de rede neural surgirĂŁo. Já depois que o trabalho descrito foi postado no arXiv, outros gruposcompartilharam suas abordagens para aplicar o aprendizado profundo para resolver problemas que envolvem muitos elĂ©trons. AlĂ©m disso, acabamos de nos aprofundar na fĂsica quântica computacional e planejamos usar o FermiNet para resolver problemas complexos no campo da ciĂŞncia dos materiais e fĂsica do estado sĂłlido.
O artigo cientĂfico está aqui , e o cĂłdigo pode ser visto aqui . Os autores gostariam de agradecer a Jim Kinwin, Adam Kine e Dominic Barlow por sua ajuda na preparação dos desenhos.