- Os textos gerados pelo sistema de diálogo correspondem ao “senso comum”.
- As respostas do sistema correspondem ao contexto do diálogo e às expectativas da pessoa.
- Compreender os objetivos, as intenções das declarações de uma pessoa no diálogo.
A compreensão do sentido não pode ser atribuída integralmente ao tema da compreensão do contexto do diálogo, uma vez que o sentido da fala do interlocutor pode ser interpretado de diferentes maneiras, e não está claro a qual interpretação o estado de compreensão deve corresponder. Os “erros” na opinião do interlocutor (pessoa) podem ser interpretados como uma compreensão diferente do significado da expressão pelo sistema? Em maior medida, compreender o significado se refere à compreensão das intenções e objetivos da afirmação, e este é um tópico separado na teoria da mente. O “bom senso” como critério de compreensão pode ser interpretado de forma mais precisa. De um modo geral, essa é a correspondência da resposta à imagem do mundo, que é verificável. E hoje este é o melhor critério para entender o contexto do diálogo por agentes artificiais como bots de diálogo. Mas até agora, os bots não tiveram sucesso nisso.
Análise de abordagens
A resposta relevante é o critério mais simples para o bot entender o interlocutor (pessoa). Mas este critério é fácil de "falsificar", o que foi demonstrado mais de uma vez pelos participantes do Prêmio Loebner. Isso é obtido colocando um grande número de modelos de resposta variável nas "intenções" reconhecidas pela rede neural. É difícil chamar isso de compreensão. Mas o sucesso de tais bots também é modesto - eles reconhecem intenções mistas extremamente mal. Uma pergunta fora dos modelos e o sistema falha. É fácil verificar isso em bots como Alice do Yandex e Siri da Apple. Podemos dizer que o conhecimento do mundo para tais sistemas é fragmentário.
Outra forma é construir ontologias abrangendo todo o conhecimento sobre o mundo para ter respostas às perguntas. Isso é realizado por meio da capacidade de identificar uma pergunta no ramo da ontologia e construir a resposta correta com base no conhecimento embutido nela. Ontologias afirmam cobrir toda a imagem do mundo com ontologia. Essa abordagem tem sido usada por projetos como CYC e ABBYY Compreno. Agora podemos afirmar que este método de resolver o problema de "compreensão" falhou. Décadas de construção manual de tais ontologias por engenheiros de desenvolvimento não permitiram construir nem mesmo uma que não falhasse nem nas simples perguntas das crianças. Os problemas das ontologias estão principalmente associados à metaforicidade da linguagem e da homonímia, que não podem ser consistentemente estabelecidas em uma estrutura "lógica" semelhante a uma árvore de ontologias. As mesmas tentativas incluem os projetos FrameNet (Fillmore),que consiste na construção de cenários baseados em um quadro semântico para refletir os fatos do mundo. Mas pelos mesmos motivos, o projeto não pôde ser desenvolvido.Pode-se dizer que tais sistemas não são capazes de perceber a parcimônia da linguagem como a capacidade de descrever um grande número de conceitos por meio do mecanismo da metáfora com um vocabulário limitado.
Desde 2010, mais ênfase foi dada às redes neurais, mas elas são limitadas, pois podem fazer suposições apenas dentro da estrutura da imagem do mundo que estava presente no conjunto de treinamento. Redes como a GPT-3 (fevereiro de 2019) no projeto OpenAI, construída na arquitetura Transformer (uma rede generativa treinada em bilhões de palavras em termos de texto), geram textos "humanos" gramaticalmente corretos que são completamente sem sentido, o que indica um completo mal-entendido por eles " bom senso ”, como no exemplo abaixo.
Exemplo:
Você: Quantos olhos tem um lobo?
GPT-3: um lobo tem quatro olhos.
Tu: Por que quatro?
GPT-3: Dois são para ver no escuro com.
Tu: Por que dois?
GPT-3: O lobo precisa ver se a comida está pronta.
Tu: E quantos olhos tem um humano?
GPT-3: um humano tem dois olhos e dois ouvidos para ouvir.
Tu: E quantos olhos tem uma folha de grama?
GPT-3: uma folha de grama tem um olho e um ouvido para ver e ouvir.
Você: Por que um?
GPT-3: Para garantir que não seja pisado.
Podemos dizer que tais sistemas podem gerar um enunciado sobre qualquer questão, mesmo não encontrada em textos educacionais, mas não podem ser garantidos a construção de fatos de “senso comum” correspondentes à imagem do mundo.
Existem abordagens combinadas como o COMET, fundado por Yejin Choi (1), em que uma base de conhecimento "escrita à mão" dos fatos do mundo Atômico foi usada para retreinar o modelo de linguagem pré-treinado GPT-2. Como resultado, a rede começou a gerar fatos significativamente mais plausíveis que estão ausentes no conjunto de treinamento Atomic e GPT. Mas o sucesso de tal projeto também é modesto até agora, uma vez que não há resposta garantida.
De interesse são os sistemas DeepMind, que, além de uma rede neural, possuem uma memória externa de fatos (ou experiência), o que lhes permite aprender as "regras do jogo" sem um professor, simplesmente sendo ativos no ambiente e registrando seu resultado. E assim aprender, mesmo jogando uns com os outros, o que possibilitou vencer jogadores humanos até em jogos como Go. Este agora é considerado o mainstream na construção de agentes que "entendem o mundo" do jogo. Mas a arquitetura de tal sistema de autoaprendizagem não permite que ele seja dimensionado para uma realidade mais complexa do que um jogo de pedras pretas e brancas ou um jogo de computador primitivo Atari. A forma de ensinar claramente tem um limite tecnológico de complexidade.Podemos dizer que tais sistemas criam uma "imagem do mundo", não usando o conhecimento para construir novos conhecimentos a fim de economizar recursos do sistema. Portanto, eles precisam de muitos recursos para aprender, mesmo em ambientes pobres.
Resumo
O que, então, pode ser chamado de “compreensão” de sistemas artificiais de um ponto de vista pragmático? A resposta comum é que o agente deve ter conhecimento. Ao mesmo tempo, como mostra a experiência, é impossível construir um conhecimento abrangente. Outra resposta pode ser a consistência nas respostas do sistema. Mas, como podemos ver, os sistemas treinados em grandes textos não diferem em logicidade nas declarações que geram.
A compreensão por um sistema de IA significa sua capacidade de DELIVER hipóteses plausíveis sobre a imagem do mundo a partir do conhecimento fragmentário de fatos deste mundo. E para economizar dinheiro, o sistema deve ser capaz de usar uma linguagem limitada para descrever um número infinito de fatos, o que é conseguido por mecanismos como a metáfora. No momento, entretanto, esse mecanismo não é conhecido o suficiente para ser incorporado ao código do programa. Os conceitos de metáfora disponíveis não são algoritmicamente específicos, como metáfora conceitual ou combinações. A matemática ainda não se aplica a eles, mas o trabalho do autor é feito nessa direção.
Segundo o autor, esse preenchimento é o principal critério para a capacidade de compreensão de um sistema artificial. Quando a "imagem do mundo" é limitada, por exemplo, no xadrez, podemos estabelecer explicitamente algoritmos para a produção de conhecimento, ou seja, movimentos possíveis, para que o xadrez possa se orientar em qualquer arranjo de peças nunca antes encontrado. Mas como fazer isso no mundo real, onde existem muitas ordens de grandeza a mais regras, ainda não se sabe o que constitui a principal direção da pesquisa do autor.
Bibliografia
1. Common Sense Comes Closer to Computers, Quantamagazin, 30 de abril de 2020