Voidgap GPT-3: o gerador de linguagem OpenAI não tem ideia do que está falando

Testes mostram que a IA popular ainda é pouco versada na realidade







Desde que a OpenAI descreveu pela primeira vez seu novo sistema de inteligência artificial de geração de texto (AI) GPT-3 em maio, centenas de veículos de notícias, incluindo o MIT Technology Review , escreveram vários artigos sobre o sistema e seus recursos. Seus pontos fortes e potenciais são discutidos ativamente no Twitter. O New York Times publicou um longo artigo sobre o assunto. A OpenAI deve começar a cobrar das empresas este ano pelo acesso ao GPT-3, na esperança de que seu sistema logo se torne a espinha dorsal de uma ampla gama de produtos e serviços de IA.



O GPT-3 pode ser considerado um passo importante em direção à IA de uso geral (ION) - aquele que permitiria a uma máquina, como uma pessoa, raciocinar logicamente em uma ampla gama, sem ter que aprender novamente a cada nova tarefa? A folha de dados da OpenAI cobre esse problema de maneira bastante esparsa, mas para muitas pessoas os recursos desse sistema parecem um avanço significativo.



Mas duvidamos disso. À primeira vista, o GPT-3 tem uma capacidade impressionante de produzir texto semelhante ao humano. Não temos dúvidas de que ele pode ser usado para entregar textos surreais para diversão. Outras aplicações comerciais podem aparecer. Mas a precisão não é seu forte. Indo mais fundo revela que algo está faltando: embora sua produção seja gramaticalmente correta e impressionante de um ponto de vista idiomático, sua compreensão do mundo às vezes está seriamente em desacordo com a realidade, então você nunca pode confiar no que ela diz.



Abaixo estão alguns exemplos de falta de compreensão da IA, todos previstos em uma crítica inicial do GPT-3 por um dos autores deste material.



Em primeiro lugar, é importante notar que a OpenAI ainda não dá aos pesquisadores acesso ao GPT-3, apesar do nome da empresa [ open AI - "open AI" / approx. trad. ] e o status sem fins lucrativos da organização de supervisão. Em vez disso, a OpenAI simplesmente ignora nossas solicitações constantes, embora tenha dado à imprensa acesso ao produto. Felizmente, nosso colega Douglas Summers-Stay, que obteve acesso ao sistema, graciosamente concordou em realizar alguns experimentos para nós.



A proximidade conspícua do OpenAI parece-nos uma séria violação da ética científica e uma distorção dos objetivos da organização sem fins lucrativos associada a este projeto. Essa decisão nos forçou a limitar nossos experimentos a um conjunto relativamente pequeno de exemplos, e tivemos menos tempo para pesquisar do que desejávamos. Conclui-se que o sistema pode ter problemas mais sérios que não tivemos oportunidade de discernir. Mas mesmo com uma pequena amostra, pode-se ver imediatamente os grandes problemas do GPT-3 em todas as áreas de raciocínio e compreensão.



Nos exemplos dados, nosso texto é fornecido em fonte regular e a forma como o sistema o complementa está em negrito. Os comentários estão em itálico. Uma lista completa de experimentos pode ser encontrada aqui .



Raciocínio sobre tópicos biológicos



, . . , , . . .



.


, GPT-3 , – , , , , Ocean Spray , Cran-Grape.





. . , , . , .


. ( – ) , . , , - . , . , , . , [table saw] – [saw], [table] – , ( ), .





, . , , . . , . , . , , .


« », , GPT-3 , . , . , , .





, . ? .


GPT-3 . GPT-3.





, . : « ». « », — . « . ». « », — .


GPT-3 , , . , « » ( « »). 1972 . 50 , .





, , . , . , . , 145 .




No início, o GPT-3 prediz incorretamente as consequências de misturar limonada com um cigarro, e depois geralmente cai em um absurdo incoerente.



O triste é que isso não é novidade. O predecessor GPT-3 (GPT-2) tinha os mesmos pontos fracos. Como um autor escreveu em fevereiro: “Na melhor das hipóteses, um sistema como a amplamente discutida rede neural GPT-2, que gera histórias e assim por diante com base em determinados fragmentos de frases, pode dizer algo que parece refletir um entendimento profundo. Mas não importa quão convincentes muitos exemplos de seu trabalho pareçam, na verdade, todas essas representações são muito efêmeras. O conhecimento acumulado por redes neurais modernas permanece fragmentário e minimalista. Talvez útil, definitivamente impressionante, mas nunca confiável. "



Desde então, pouca coisa mudou. Adicionar novos dados cem vezes maiores do que os anteriores ajudou, mas não muito. Os pesquisadores gastaram milhões de dólares em tempo de computador para treinar o sistema, jogaram 31 pessoas nele, emitiram uma quantidade surpreendente de dióxido de carbono na atmosfera devido à eletricidade consumida - mas as falhas fundamentais do GPT não foram embora. O sistema não tem confiabilidade, a compreensão da causalidade é fraca e a ilogicidade surge constantemente. O GPT-2 tinha problemas com raciocínio em biologia, física, psicologia e interações sociais, bem como uma tendência a ser ilógico e inconsistente. O GPT-3 tem a mesma coisa.



Aumentar a quantidade de dados se aproxima melhor da linguagem, mas não nos dá inteligência em que possamos confiar.



Os defensores da crença na IA certamente apontarão que muitas vezes é possível reformular essas tarefas de tal forma que o sistema GPT-3 encontre a solução certa. Você pode, por exemplo, obter a resposta correta para o problema com os sucos de cranberry e uva do GPT-3 se der a seguinte construção como entrada:

Nas perguntas a seguir, algumas ações têm consequências graves e outras são seguras. Sua tarefa é determinar as consequências do uso de várias misturas e seus perigos.



1. Você se serve de um copo de suco de cranberry, mas, distraidamente, adiciona uma colher de chá de suco de uva a ele. Ele parece bem. Você tenta cheirar, mas está com um resfriado forte, então não sente o cheiro. Você está com muita sede. Você bebe.



A) Esta é uma mistura perigosa.

B) Esta é uma mistura segura.



Resposta correta:


GPT-3 continua corretamente este texto respondendo: B) Esta é uma mistura segura.



O problema é que você não sabe com antecedência quais palavras lhe darão a resposta certa e quais não. Qualquer indício de sucesso é bom para o otimista. Os otimistas argumentarão que, como em algumas formulações o GPT-3 dá a resposta certa, o sistema tem o conhecimento e a capacidade de raciocínio necessários - ele apenas se confunde com a linguagem. No entanto, o problema não está na sintaxe da GPT-3 (tudo está em ordem aqui), mas na semântica: o sistema é capaz de produzir palavras e frases em inglês, mas é difícil imaginar seu significado e não representa sua conexão com o mundo exterior de forma alguma.



Para entender por que isso acontece, é útil pensar sobre o que esses sistemas fazem. Eles não obtêm conhecimento sobre o mundo - eles obtêm conhecimento sobre o texto e como as pessoas usam algumas palavras em conjunto com outras. Ela faz algo como copiar e colar em massa, juntando variações do texto que viu, em vez de se aprofundar nos conceitos por trás dele.



No exemplo do suco de cranberry, o GPT-3 continua o texto com a frase “você está morto”, porque tal frase geralmente segue frases como “... então você não cheira. Você está com muita sede. Então você bebe”. Uma pessoa realmente inteligente faria algo completamente diferente: tiraria uma conclusão sobre a segurança potencial de misturar suco de cranberry com suco de uva.



GPT-3 tem apenas uma compreensão limitada de como as palavras se relacionam umas com as outras. Ela não tira nenhuma conclusão sobre um mundo próspero e vivo com essas palavras. Ela não conclui que o suco de uva é uma bebida (embora ela possa encontrar correlações verbais para apoiar isso). Ela não tira conclusões sobre as normas sociais que impedem as pessoas de comparecerem a audiências de sunga. Ela só aprende correlações de palavras, nada mais. O sonho de um empirista é obter uma compreensão detalhada do mundo com base nos dados de seus sentidos, mas o GPT-3 não fará isso, mesmo com meio terabyte de dados de entrada.



Enquanto escrevíamos este artigo, nosso colega metafórico Summers-Stay escreveu para um de nós: “O GPT é estranho porque não se importa em obter a resposta certa para uma pergunta feita. Ela se parece mais com um ator improvisador, entregando-se completamente à sua arte, não saindo da imagem, mas nunca saindo de casa, e tendo recebido todas as informações sobre o mundo nos livros. Como um ator assim, quando ela não sabe de algo, ela apenas finge saber. Você não vai confiar no conselho médico de um ator improvisador que faz o papel de um médico. "



Além disso, você não deve confiar nos conselhos do GPT-3 sobre como misturar bebidas ou reorganizar a mobília, sua explicação da história para orientar seu filho ou ajudar a encontrar sua roupa. Ela pode resolver um problema de matemática corretamente ou não. Ele distribui todo tipo de besteira lindamente, mas mesmo com 175 bilhões de parâmetros e 450 gigabytes de dados de entrada, não pode ser considerado um interpretador confiável do mundo.



All Articles