A crise de reprodutibilidade na pesquisa de inteligência artificial

A pesquisa de IA é dominada por gigantes da tecnologia, mas a linha entre as descobertas reais e a publicidade de produtos comerciais está gradualmente se confundindo. Alguns cientistas acham que é hora de parar com isso.







No mês passado, a revista Nature publicou uma revisão abusiva assinada por 31 cientistas. Eles não gostaram do estudo do Google Health publicado anteriormente no mesmo jornal. Nele, o Google descreveu os resultados bem-sucedidos de um teste de inteligência artificial (IA) que procurou sinais de câncer de mama em fotografias médicas. Os críticos argumentam que a equipe do Google forneceu tão poucas informações sobre o código e o progresso do teste que o estudo mais parecia uma descrição promocional de uma tecnologia proprietária fechada.



“Não aguentávamos mais”, diz Benjamin Haibe-Caines, revisor líder que estuda genômica computacional na Universidade de Toronto. "E não é sobre este estudo em particular - temos observado uma tendência semelhante por muitos anos consecutivos e isso está realmente nos incomodando."



Haibe-Kains e colegas estão entre um número crescente de cientistas que resistem à aparente falta de transparência na pesquisa de IA. “Depois de ver esse trabalho do Google, percebemos que este é apenas mais um exemplo de uma série de publicações entusiásticas em um jornal altamente respeitado que nada tem a ver com ciência”, diz ele. - Isso é mais uma propaganda de tecnologia bacana. Não podemos fazer nada sobre isso. "



A ciência é baseada na confiança, incluindo a divulgação dos detalhes de como a pesquisa é conduzida com detalhes suficientes para que outros possam replicar e validar suas descobertas. É assim que a ciência se corrige e desarraiga resultados não confirmados. A reprodutibilidade permite que outros baseiem seu trabalho nesses resultados, o que ajuda a fazer avançar o campo do conhecimento. A ciência que não pode ser reproduzida encontra-se à margem da história.



Pelo menos em teoria. Na prática, poucos estudos são totalmente reproduzíveis, pois a maioria dos pesquisadores está mais interessada em obter novos resultados do que repetir os antigos. No entanto, em campos como biologia, física, ciência da computação, os pesquisadores esperam que os autores forneçam informações suficientes para compartilhar de modo que esses experimentos possam ser repetidos - mesmo que isso raramente seja feito.



Novato ambicioso



A IA é repreendida por vários motivos. Primeiro, é um iniciante. Tornou-se uma ciência experimental nos últimos dez anos, diz Joel Pigno, um cientista da computação do Facebook AI Research e da McGill University, co-autor da denúncia. “No início era uma área puramente teórica, mas agora estamos fazendo cada vez mais experimentos”, diz ela. "E nosso compromisso com uma metodologia rigorosa está aquém da ambição de nossos experimentos."



Este não é apenas um problema acadêmico. A falta de transparência torna impossível testar adequadamente novos modelos e tecnologias de IA quanto à confiabilidade, ausência de distorção e segurança. A IA está se movendo rapidamente dos laboratórios de pesquisa para o mundo real, afetando diretamente a vida das pessoas. No entanto, os modelos de aprendizado de máquina (ML) que funcionam bem no laboratório podem falhar no mundo real, podendo levar a consequências perigosas. A reprodução dos resultados de experimentos de diferentes pesquisadores em diferentes condições revelará possíveis problemas mais rapidamente, o que tornará a IA mais confiável para todos.



A IA já sofre do problema da "caixa preta": às vezes é impossível dizer como ou porque um modelo de ML produz exatamente esse resultado. A falta de transparência na pesquisa só piora as coisas. Modelos grandes requerem o maior número possível de observadores para que mais pessoas experimentem e entendam seu trabalho. É assim que você pode tornar o uso da IA ​​na saúde mais seguro, na ordem pública mais justa, nos chats mais educados.



A reprodutibilidade normal da IA ​​é prejudicada pela falta de três coisas: código, dados e hardware. O estado de 2020 da IA"Uma análise anual verificada pelos investidores Nathan Benaich e Ian Hogarth, descobriu que apenas 15% das pesquisas de IA compartilham código. Os pesquisadores da indústria são mais propensos a se comportar mal do que os cientistas universitários. Em particular, as empresas OpenAI são destacadas no relatório. e DeepMind, que têm menos probabilidade de compartilhar seu código.



A falta de ferramentas necessárias para a reprodutibilidade é sentida de forma mais aguda quando se trata dos dois pilares da IA ​​- dados e hardware. Os dados costumam ser mantidos em mãos privadas - por exemplo, os dados que o Facebook coleta sobre seus usuários - ou são confidenciais, como é o caso dos registros médicos. Os gigantes da tecnologia estão conduzindo cada vez mais pesquisas em enormes e extremamente caros clusters de computadores aos quais poucas universidades ou pequenas empresas têm acesso.



Por exemplo, treinar um gerador de linguagem GPT-3, de acordo com algumas estimativas, OpenAI custou US $ 10- $ 12 milhões - e isso só se levarmos em conta o modelo mais recente, sem levar em conta o custo de desenvolvimento e treinamento de protótipos. “Então, esse número provavelmente poderia ser aumentado em uma ou duas ordens de magnitude”, diz Benayh, fundador da empresa de capital de risco Air Street Capital, que investe em startups de IA. Uma pequena porcentagem das grandes empresas de tecnologia pode pagar por isso, diz ele: "Ninguém mais pode investir tão grandes orçamentos em tais experimentos."





Pergunta hipotética: algumas pessoas têm acesso ao GPT-3 e outras não. O que acontece quando vemos um novo trabalho emergindo onde pessoas fora do projeto OpenAI usam GPT-3 para obter resultados de ponta?

E o principal problema é: a OpenAI escolhe ganhar e perder pesquisadores?




A velocidade do progresso é estonteante. Milhares de trabalhos são publicados todos os anos. Porém, se você não sabe em quem confiar, é muito difícil promover o desenvolvimento dessa área. A replicação permite que outros pesquisadores verifiquem se os autores não combinaram manualmente os melhores resultados e se as novas tecnologias realmente funcionam conforme descrito. “Está cada vez mais difícil distinguir os resultados confiáveis ​​dos demais”, diz Piño.



O que pode ser feito aqui? Como muitos outros pesquisadores de IA, Pigno divide seu tempo entre a universidade e os laboratórios corporativos. Nos últimos anos, ela influenciou ativamente o sistema de publicação de pesquisas em IA. Por exemplo, no ano passado ela ajudou a promover a lista de itens que os pesquisadores devem garantir na submissão de um artigo para uma das maiores conferências de IA, NeurIPS. Inclui código, descrição detalhada de experimentos.



A reprodutibilidade é valiosa por si só



Pinho também ajudou a lançar vários concursos de reprodutibilidade em que pesquisadores tentam replicar os resultados de pesquisadores publicados. Os participantes selecionam artigos aceitos em conferências e competem entre si realizando experiências com base nas informações fornecidas. É verdade que eles recebem apenas reconhecimento como recompensa.



A falta de motivação não promove a disseminação de tais práticas em todos os campos de pesquisa, não apenas na IA. A reprodução é necessária, mas não é incentivada de forma alguma. Uma solução para este problema é envolver os alunos neste trabalho. Nos últimos dois anos, Rosemary Ke, Ph.D. de Mila, um instituto de pesquisa de Montreal fundado por Yoshua Benjio, organizou uma competição de reprodutibilidade, no âmbito do qual os alunos tentam reproduzir as pesquisas submetidas ao NeurIPS no âmbito da formação. Algumas das tentativas bem-sucedidas são revisadas por pares e publicadas no ReScience.



"Replicar o trabalho de outra pessoa do zero exige muito esforço", diz Ke. “O Concurso de Reprodutibilidade recompensa esse esforço e homenageia as pessoas que fazem um bom trabalho.” Ke e outros falam sobre essas tentativas de conferências de IA, organizando workshops para incentivar os pesquisadores a adicionar transparência ao seu trabalho. Este ano, Pinho e Ke expandiram a competição para incluir as sete maiores conferências de IA, incluindo ICML e ICLR.



Outro projeto de promoção da transparência é chamado de Papers with Code. Foi organizado pelo pesquisador de IA, Robert Stoinik, quando ele trabalhava na Universidade de Cambridge. Agora ele e Pinho trabalham juntos no Facebook. O projeto foi lançado pela primeira vez como um site independente, onde os pesquisadores podiam vincular seus trabalhos a seus códigos. Este ano, o projeto fez parceria com o popular servidor de pré-impressão arXiv. Desde outubro, todos os trabalhos de aprendizado de máquina publicados no arXiv contam com a seção Papers with Code, de onde existe um link para o código que os autores do trabalho estão prontos para publicar. O objetivo do projeto é tornar a distribuição desse código a norma.



Essas tentativas afetam alguma coisa? Pigno descobriu que no ano passado, quando a lista de pré-requisitos foi lançada, o número de artigos submetidos a códigos submetidos à conferência NeurIPS cresceu de 50% para 75%. Milhares de revisores dizem que usaram o código para avaliar os envios. O número de participantes na competição de reprodutibilidade está crescendo.



O diabo está nos detalhes



Mas isso é apenas o começo. Haibe-Kains aponta que o código sozinho muitas vezes não é suficiente para repetir um experimento. Para construir modelos de IA, você precisa fazer muitas pequenas mudanças - adicione um parâmetro ali, valor aqui. Qualquer um deles pode fazer com que um modelo funcional não funcione. Sem metadados que descrevam como os modelos são treinados e ajustados, o código pode ser inútil. “O diabo realmente está nas pequenas coisas”, diz ele.



Também nem sempre está claro qual código distribuir. Muitos laboratórios usam programas especiais para executar modelos. Às vezes, é um software proprietário proprietário. Às vezes, também é difícil dizer que código compartilhar, diz Haibe-Kains.



Pinho não está particularmente preocupado com esses obstáculos. “Há muito a se esperar da distribuição do código”, diz ela. Compartilhar dados é mais difícil, mas existem soluções. Se os pesquisadores não conseguirem compartilhar os dados, eles podem fornecer orientação sobre como coletar um conjunto de dados adequado por conta própria. Ou você pode providenciar para que um pequeno número de revisores acessem os dados e validem os resultados para todos os outros, diz Haibe-Kains.



O maior problema é com o hardware. DeepMind afirma que grandes projetos como AlphaGo ou GPT-3, nos quais os grandes laboratórios gastam dinheiro, irão beneficiar a todos no final. Inacessível para outros pesquisadores nos estágios iniciais, a IA, que requer enorme poder de computação, freqüentemente se torna mais eficiente e acessível durante o desenvolvimento. “AlphaGo Zero ultrapassou seu predecessor, AlphaGo, usando muito menos poder de computação”, disse Koray Kavukchuoglu, vice-presidente de pesquisa da DeepMind.



Em tese, isso significa que mesmo que o estudo seja reproduzido tardiamente, ainda será possível. Kavukchuoglu observa que Jean-Carlo Pascutto, um programador belga da Mozilla que escreve programas de xadrez e go em seu tempo livre, foi capaz de replicar uma variante do AlphaGo Zero chamada Leela Zero usando algoritmos descritos nos artigos da DeepMind. Pinho também acredita que estudos emblemáticos como AlphaGo e GPT-3 são raros. Ela diz que a maioria das pesquisas de IA funciona em computadores disponíveis para o laboratório médio. E esse problema não é exclusivo da IA. Pinho e Benayhom apontam para a física de partículas, em que alguns experimentos só podem ser realizados em equipamentos caros, como o Large Hadron Collider.



No entanto, experimentos de física são realizados no LHC por vários laboratórios juntos. E grandes experimentos de IA são geralmente realizados em equipamentos pertencentes e controlados por empresas privadas. Mas Pinho diz que isso também está mudando. Por exemplo, a Compute Canada está montando clusters de computação para permitir que as universidades conduzam grandes experimentos de IA. Algumas empresas, incluindo o Facebook, dão às universidades acesso limitado aos seus equipamentos. “A situação não está totalmente resolvida”, diz ela. "Mas algumas portas estão começando a se abrir."





, . . Google, , Nature , , Google - .

: , , ( ). . .




Dúvidas de Khaibe-Kains. Quando ele pediu à equipe do Google Health para compartilhar o código de sua IA de diagnóstico de câncer, ele foi informado de que o código ainda precisava de mais testes. A equipe reitera essa mesma desculpa em uma resposta formal às críticas de Haibe-Kains, também publicadas na Nature. “Vamos submeter nossos programas a testes rigorosos antes de serem usados ​​em um ambiente clínico, trabalhando com pacientes, prestadores de serviços e reguladores para fazer tudo funcionar com eficiência e segurança.” Os pesquisadores também afirmaram que não têm permissão para compartilhar todos os dados médicos que usam.



Não vai funcionar assim, diz Khaibe-Kains. "Se eles querem fazer disso um produto comercial, entendo por que não querem divulgar todas as informações." No entanto, ele acredita que se você publicar em uma revista científica ou em uma conferência, é seu dever publicar código que outros possam executar. Às vezes é possível lançar uma versão treinada para nós com menos dados, ou usando hardware menos caro. Os resultados podem ser piores, mas as pessoas podem mexer neles. “A linha entre a fabricação de produtos comerciais e a pesquisa está constantemente se confundindo”, diz Haibe-Kains. "Acho que essa área de especialização acabará falhando."



Hábitos de pesquisa são difíceis de abandonar



Se as empresas são criticadas por publicar trabalhos, por que se preocupar com isso? Parte disso, é claro, tem a ver com relações públicas. No entanto, isso é principalmente necessário porque os melhores laboratórios comerciais estão cheios de pesquisadores universitários. Até certo ponto, a cultura de lugares como Facebook AI Research, DeepMind e OpenAI é moldada por hábitos acadêmicos tradicionais. Além disso, as empresas de tecnologia se beneficiam da participação na comunidade de pesquisa mais ampla. Todos os grandes projetos de IA em laboratórios privados se baseiam em uma variedade de resultados de pesquisas publicadas. E poucos pesquisadores de IA usaram ferramentas de ML de código aberto como o PyTorch do Facebook ou o TensorFlow do Google.



Quanto mais pesquisas são feitas em empresas gigantes da tecnologia, mais trade-offs terão de ser feitos entre os requisitos de negócios e de pesquisa. A questão é como os pesquisadores resolverão esses problemas. Haibe-Kains gostaria que periódicos como a Nature dividissem suas publicações em fluxos separados - pesquisa replicável e demonstração de avanços tecnológicos.



Pinho está mais otimista com o futuro. “Eu não estaria trabalhando no Facebook se não fosse por uma abordagem aberta de pesquisa”, diz ela.



Outros laboratórios corporativos também estão pressionando por um compromisso com a abertura. “O trabalho científico requer estudo cuidadoso e reprodutibilidade por parte de outros pesquisadores”, diz Kavukchuoglu. "Esta é uma parte crítica de nossa abordagem de pesquisa na DeepMind."



“O OpenAI se tornou algo muito diferente de um laboratório tradicional”, disse Kayla Wood, porta-voz da empresa. "Naturalmente, surgem perguntas para ela." Ela observa que a OpenAI está trabalhando com mais de 80 organizações comerciais e acadêmicas por meio da iniciativa Partnership on AI para pensar sobre normas de longo prazo para a publicação de pesquisas.



Pinho acha que há algo nisso. Ela acredita que as empresas de IA estão demonstrando uma terceira maneira de fazer pesquisa, em algum lugar entre os dois fluxos Haibe-Kains. Ela compara os resultados inteligentes de laboratórios privados de IA com empresas farmacêuticas - as últimas investindo bilhões no desenvolvimento de medicamentos e mantendo a maioria dos resultados para si mesmas.



O impacto a longo prazo das práticas adotadas por Pinho e outros ainda está para ser visto. Os hábitos mudarão permanentemente? Como isso afetará o uso de IA fora da pesquisa? Depende muito da direção em que a IA está indo. A tendência para modelos e conjuntos de dados maiores - que é seguido, por exemplo, pelo OpenAI - apoiará uma situação em que opções avançadas de IA não estejam disponíveis para a maioria dos pesquisadores. Por outro lado, novas tecnologias, como compressão de modelo e aprendizado de poucos instantes, podem quebrar essa tendência e permitir que mais pesquisadores trabalhem com IAs menores e mais eficientes.



De qualquer forma, as grandes empresas continuarão a dominar a pesquisa de IA. E se for feito da maneira certa, não há nada de errado com isso, diz Pigno: “A IA está mudando a forma como os laboratórios de pesquisa funcionam”. A chave é garantir que o público em geral tenha a chance de participar da pesquisa. Porque a fé na IA, da qual depende tanto, começa na vanguarda.



All Articles