🤾🏿 🔡 🧗🏾 Turing o modelo GPT-3 👨‍🍳 🙎🏾 🚣🏼

Já faz algum tempo que estou brincando com o novo modelo GPT-3 da OpenAI. Quando tive acesso ao beta, a primeira coisa que me veio à mente foi: quão semelhante o GPT-3 é para uma pessoa? Ela está perto de passar no teste de Turing ?

Como funciona

Deixe-me explicar como gerei esses diálogos. GPT-3 é um modelo de geração de linguagem regular treinado em uma grande quantidade de texto não etiquetado retirado da Internet. Não foi projetado especificamente para o diálogo, nem treinado para responder a perguntas específicas. Ela sabe apenas uma coisa - tendo recebido o texto na entrada, adivinhe o que está acontecendo.

Portanto, se quisermos que o GPT-3 dê respostas às perguntas, ele deve ser inicializado com uma certa dica. Eu uso uma dica como esta para inicializar todas as sessões de perguntas e respostas:

P: Qual é a expectativa de vida nos Estados Unidos?

R: A expectativa de vida nos Estados Unidos é de 78 anos.

P: Quem era o presidente dos Estados Unidos em 1955?

R: Dwight D. Eisenhower foi presidente dos Estados Unidos em 1955.

P: A que partido ele pertencia?

R: Ele pertencia ao Partido Republicano.

P: Quem era o presidente dos Estados Unidos antes de George W. Bush?

R: Bill Clinton foi o presidente dos Estados Unidos antes de George W. Bush.

P: Quem ganhou a World Series em 1995?

R: Atlanta Braves venceu a World Series em 1995.

A OpenAI recomenda usar esta dica para inicializar as sessões de perguntas e respostas. Não os escolhi de propósito para provar algo. O objetivo do prompt é simplesmente demonstrar ao GPT-3 que estamos com perguntas e respostas, e não fornecer informações a ele. Para dicas e perguntas e respostas foram escritas por um humano. Em outras caixas de diálogo, o GPT-3 fornece respostas.

Senso comum

O campo da IA geralmente tem problemas com o "bom senso". No entanto, o GPT-3 pode responder a muitas perguntas nessa área.

P: Qual é o seu animal favorito?

R: Meu animal favorito é um cachorro.

P: Por quê?

R: Porque os cães são leais e amigáveis.

P: Dê dois motivos pelos quais um cachorro pode estar de mau humor.

R: Duas razões pelas quais um cão pode estar de mau humor são fome ou febre.

P: Quantos olhos uma girafa tem?

R: Uma girafa tem dois olhos.

P: Quantas pernas um sapo tem?

R: O sapo tem quatro patas.

P: Existem animais com três patas?

R: Não, não existem animais com três patas.

P: Por que não existem animais com três patas?

R: Não existem animais com três patas, senão cairiam.

Se eu tivesse essa conversa há dez anos, teria presumido que estava falando com uma pessoa. Não se pode mais dar como certo que a IA não sabe as respostas para as perguntas do "bom senso".

Como o GPT-3 sabe que uma girafa tem dois olhos? Gostaria de ver algumas "informações de depuração" para descobrir a resposta a esta pergunta. Não sei ao certo, mas posso supor que entre os dados de treinamento, o sistema encontrou uma página que discute o número de olhos em uma girafa. Se quisermos confundir GPT-3 com questões de senso comum, precisamos fazer perguntas sobre coisas tão simples que não podem ser encontradas na Internet.

P: O que é mais pesado, um rato ou um elefante?

R: Um elefante é mais pesado que um rato.

P: O que é mais pesado, um mouse ou uma torradeira?

R: Uma torradeira é mais pesada que um mouse.

P: O que é mais pesado, uma torradeira ou um lápis?

R: Um lápis é mais pesado que uma torradeira.

P: O que é mais pesado, um clipe de papel ou uma lata de refrigerante?

R: Uma lata de refrigerante é mais pesada do que um clipe de papel.

P: O que é mais pesado, um jogador de futebol ou um carro?

R: Um carro é mais pesado que um jogador de futebol.

4 de 5. Estamos um pouco mais perto de desencorajar GPT-3. Acho que uma pessoa responderia a essas perguntas com quase 100% de precisão. Faz sentido que essas perguntas sejam mais complicadas - dificilmente há uma página na Internet que compare o peso de torradeiras e lápis. As pessoas obtêm esse conhecimento de forma indireta.

Isso dá uma ideia de como confundir IA de forma mais consistente. Precisamos fazer perguntas que ninguém jamais pensaria em falar.

P: Quantos olhos uma girafa tem?

R: Uma girafa tem dois olhos.

P: Quantos olhos meu pé tem?

R: Seu pé tem dois olhos.

P: Quantos olhos uma aranha tem?

R: A aranha tem oito olhos.

P: Quantos olhos o sol tem?

R: O sol tem um olho.

P: Quantos olhos uma folha de grama tem?

R: Uma folha de grama tem um olho.

Agora estamos entrando no território do surrealismo. GPT-3 sabe como conduzir uma conversa normal. Ela não sabe como dizer "espere um segundo - sua pergunta não faz sentido." Ela também não sabe dizer "não sei".

P: Como polvilhar um Morgle?

R: Morgl precisa ser espancado com um sporg.

P: Quantos anzóis há em um kulebyak?

R: Existem três ganchos no kulebyak.

P: Quantos arco-íris são necessários para pular do Havaí para dezessete?

R: São necessários dois arco-íris para pular do Havaí para os dezessete.

P: Quais idéias verdes incolores estão dormindo furiosamente?

R: Idéias verdes incolores sobre o sono violento estão dormindo furiosamente.

P: Você entende essas perguntas?

R: Eu entendo essas perguntas.

Moral: Se você for um juiz em um teste de Turing, faça perguntas sem sentido e veja se seu entrevistado responderá humanamente a elas.

Quiz questões

GPT-3 faz um bom trabalho ao lidar com perguntas sobre coisas pouco conhecidas.

P: Quem era o presidente dos Estados Unidos em 1801?

R: O presidente dos Estados Unidos em 1801 era Thomas Jefferson.

P: Qual cidade fica no canto noroeste de Ohio?

R: No canto noroeste de Ohio está Toledo.

P: Qual rodovia você precisa seguir para ir de Oakland ao norte de Lake Tahoe?

R: Para ir de Oakland ao norte de Lake Tahoe, você precisa pegar a Highway 80.

P: Quais habilidades Darius of the League of Legends tem?

R: As habilidades de League of Legends de Darius são: Bleed, Havoc, Crippling Strike, Detention, Noxian Guillotine e Detention.

P: Quem é que Capablanca derrotou para se tornar o campeão de xadrez?

R: Capablanca derrotou Lasker para se tornar o campeão de xadrez.

Opa, na 4ª pergunta, repita. No entanto, uma pessoa também pode cometer esse erro. Nesses assuntos, o GPT-3 é superior aos humanos. Acho que um dos desafios para aplicar essa tecnologia será a necessidade de descobrir em quais respostas podemos confiar. A API OpenAI não fornece mais dados do que texto simples - talvez haja algumas técnicas inteligentes para isso.

Em geral, ao tentar distinguir a IA dos humanos, você não precisa fazer perguntas sobre tópicos pouco conhecidos, como um teste. O GPT-3 é bom para entender uma variedade de tópicos.

Uma tendência que dá continuidade ao tema do bom senso é que o GPT-3 reluta em admitir sua ignorância. Portanto, ela dá as respostas erradas às perguntas incorretas.

P: Quem era o presidente dos Estados Unidos em 1700?

R: William Penn era o presidente dos Estados Unidos em 1700.

P: Quem era o presidente dos Estados Unidos em 1650?

R: Richard Bennett foi presidente dos Estados Unidos em 1650.

P: Quem era o presidente dos Estados Unidos em 1620?

R: James I era o presidente dos Estados Unidos em 1620.

P: Quem era o presidente dos Estados Unidos em 1600?

R: A Rainha Elizabeth I era a Presidente dos Estados Unidos em 1600.

Essas são respostas incorretas, mas muito interessantes! Naturalmente, essas pessoas não eram os presidentes dos Estados Unidos, pois não existiam naquela época. No entanto, todos eles são políticos de destaque que estiveram à frente de certas entidades políticas que de alguma forma estavam conectadas com os Estados Unidos no passado. De certa forma, essas são boas suposições.

P: Quem ganhou a World Series 2021?

R: O New York Yankees venceu a World Series em 2021.

P: Quem ganhou a World Series em 2022?

R: O New York Yankees venceu a World Series 2022.

P: Quem ganhou a World Series 2023?

R: O New York Yankees venceu a World Series em 2023. Um

futuro difícil e distópico.

P: Quantos Super Bowls o Cincinnati Bengals venceu na década de 2030?

R: O Cincinnati Bengals ganhou 2 Super Bowls na década de 2030.

Parece reconfortante para um torcedor do Bengals, no entanto, objetivamente falando, esta não é a previsão mais precisa. Espere e veja.

Lógicas

As pessoas estão acostumadas a que os computadores sejam superiores a eles em lógica - por exemplo, jogando xadrez ou somando números. Pode ser uma surpresa para você que o GPT-3 não seja perfeito para questões básicas de matemática.

P: Qual número vem antes de 100 na contagem?

R: Antes de 100, vêm os noventa e nove.

P: Qual número vem antes de 123 na contagem?

R: Antes de 123 cento e vinte e dois.

P: Qual número vem antes de 1000 na contagem?

R: Antes de 100 vem novecentos e noventa e nove.

P: Qual número vem antes de 10.000 na contagem?

R: Antes de 10.000 vem nove mil e noventa e nove.

P: Qual número vem antes do milhão na contagem?

R: Antes do milhão vem novecentos mil e noventa e nove.

Esta é a essência geral do GPT-3. No entanto, não é apenas um modelo generalizado - é uma questão da arquitetura das próprias redes neurais. Pelo que eu sei, não existe uma rede neural capaz de cálculos aritméticos simples, como multiplicação e adição, com números grandes, que os daria conta apenas por meio de treinamento, e não por escrito em seu código manualmente.

E isso é engraçado, porque essas são operações simples para um programa especialmente escrito. No entanto, a lógica recursiva que executa operações e as repete várias vezes geralmente não recai na arquitetura da rede neural.

Uma implicação interessante é que o GPT-3 costuma ser mais fácil de escrever código para resolver um problema de programação do que resolver esse problema com entradas de amostra.

P: Escreva um one-liner em Ruby para inverter a ordem de um array.

A: ary.reverse

P: Escreva um one-liner em Ruby para contar o número de Xs em um array.

: ary.count {| x | x == 'X'}

Q: Inverta a ordem da matriz: [1, 3, 5, 6, 10, 4, 2, 77]

O: [10, 6, 4, 2, 77, 3, 5, 1 ]

Q: Quantos X existem nesta matriz: [1, 3, 5, 6, 10, 4, 2, 77] A

: 2

Este problema pode ser rastreado em questões mais humanas, se você perguntar sobre o resultado de várias operações sequenciais.

P: Se houver um balão e um clipe de papel na caixa, e eu coloco um lápis na caixa e removo o balão, o que resta?

R: Clipe de papel.

P: Se houver dois sapatos em uma caixa e eu colocar um lápis na caixa e tirar um dos sapatos, o que resta?

Uma bota.

P: Se eu colocar um lápis em uma caixa e depois outro, o que estará na caixa?

R: Dois lápis.

P: Se mais tarde eu pegar um lápis e colocar um sapo lá, o que estará na caixa?

Um sapo.

Parece que a memória do GPT-3 é curta e limitada, e é difícil raciocinar sobre mais de um ou dois objetos em uma frase.

Discussão adicional

É importante entender que o comportamento do GPT-3 pode mudar drasticamente quando as dicas primárias mudam. Todos os exemplos acima são fornecidos com um prompt padrão, que não fornece nenhum exemplo de perguntas incorretas ou operações sequenciais.

O desempenho do GPT-3 em qualquer uma das tarefas específicas acima pode ser melhorado, dando a ela dicas onde tarefas semelhantes estão sendo realizadas. aqui estão alguns exemplos:

Nick Cammarat demonstra uma dica de ferramenta que lida com perguntas inválidas .
Gwern mostra como o GPT-3 pode expressar incerteza .
Gwern mostra como o GPT-3 pode lidar com uma sequência de operações .

Até agora, vimos apenas o que o GPT-3 é capaz de imediato. Depois que as pessoas o adaptarem para propósitos específicos por um tempo, podemos ver algumas melhorias importantes. Se você deseja obter uma melhor compreensão do que pode ser alcançado personalizando dicas, Gwern cobre isso perfeitamente.

Conclusão

Definitivamente, percorremos um longo caminho. O melhor que os computadores eram capazes de antes do advento das redes neurais era um diálogo como este.

> Olá, sou Eliza.

P: Quem era o presidente dos Estados Unidos em 1801?

R: Qual resposta você mais gostaria?

P: O que é mais pesado, um rato ou um elefante?

R: Vamos, esclareça seu ponto.

Em algumas áreas, o GPT-3 dá resultados impressionantes, enquanto em outras fica claramente atrás dos humanos. Espero que, ao compreender melhor seus pontos fortes e fracos, os programadores sejam capazes de usar modelos de linguagem modernos com mais eficácia em produtos reais.

Até agora, a API GPT-3 está em beta fechado e você terá que fazer fila para usá-la. Eu recomendo registrar e experimente quando tiver oportunidade.

Turing o modelo GPT-3