
Assim, a tarefa: criar um algoritmo para verificar o "Ditado total". Ao que parece, o que poderia ser mais fácil? Existem respostas corretas, existem textos dos participantes: pegue e faça. Todo mundo sabe como comparar as linhas. E então começa o interessante.
Vírgulas tão diferentes; ou ponto e vírgula?
A linguagem natural é algo complexo, frequentemente com mais de uma interpretação. Mesmo numa tarefa como a verificação de um ditado (onde, à primeira vista, existe a única solução correta), deve-se levar em conta desde o início que, além do autor, podem haver outras opções corretas. Além disso, os organizadores da competição até pensaram nisso: eles têm várias grafias aceitáveis. Pelo menos às vezes. O importante aqui é que dificilmente os compiladores serão capazes de indicar todas as opções corretas, então os participantes da competição, talvez, devam pensar em um modelo pré-treinado em um grande corpus de textos que não estão diretamente relacionados ao ditado. No final, dependendo do entendimento do contexto, uma pessoa pode colocar vírgula ou não colocar ponto e vírgula; em alguns casos, tudo é possível: usar dois pontos, travessão (ou mesmo parênteses).
O fato de ser um ditado e não um ensaio que precisa ser avaliado não é um bug, mas um recurso. Os sistemas de classificação automática de ensaios são muito populares nos Estados Unidos. 21 estados usam soluções automatizadas de revisão de ensaios para o GRE. Apenas recentemente foi descoberto que esses sistemas dão notas altas para textos mais volumosos que usam vocabulário mais complexo (mesmo que o texto em si não tenha sentido). Como você descobriu? Os alunos do MIT desenvolveram um programa especial Basic Automatic BS Essay Language (BABEL) Generator, que gerava sequências de palavras complexas automaticamente. Os sistemas automatizados avaliaram muito esses "ensaios". É um prazer testar sistemas modernos baseados em aprendizado de máquina. Outro exemplo igualmente quente: o ex-professor do MIT Les Perelmanofereceu o sistema e-rater da ETS, que produz e avalia os exames GRE e TOEFL, para verificar a redação de 5.000 palavras de Noam Chomsky. O programa encontrou 62 erros gramaticais inexistentes e 9 vírgulas ausentes. Conclusão - os algoritmos ainda não funcionam bem com significado. Porque nós mesmos podemos definir muito mal o que é. A criação de um algoritmo que verifica o ditado tem um sentido aplicado, mas essa tarefa não é tão simples quanto parece. E o ponto aqui não é apenas a ambigüidade da resposta correta, sobre a qual eu disse aqui, mas também que o ditado é ditado por uma pessoa.
A personalidade do ditador
O ditado é um processo complexo. A forma como o “ditador” lê o texto - como os organizadores do ditado total chamam brincando aqueles que ajudam a executá-lo - pode influenciar a qualidade final do trabalho. Um sistema de revisão ideal correlacionaria os resultados dos redatores com a qualidade do ditado usando texto para fala. Além disso, soluções semelhantes já estão sendo utilizadas na educação. Por exemplo, Third Space LearningÉ um sistema criado por cientistas da University College London. O sistema utiliza reconhecimento de fala, analisa como o professor conduz a aula e, com base nessas informações, faz recomendações para melhorar o processo de aprendizagem. Por exemplo, se um professor falar muito rápido ou muito devagar, baixo ou alto, o sistema enviará a ele uma notificação automática. A propósito, com base na voz do aluno, o algoritmo pode determinar que ele está perdendo o interesse e entediado. Diferentes ditadores podem influenciar os resultados finais do ditado para diferentes participantes. Existe uma injustiça que pode ser removida por quê? Certo! Ditador de Inteligência Artificial! Arrependam-se, nossos dias estão contados. Ok, sério, online você pode simplesmente dar a todos a mesma trilha sonora ou colocar uma avaliação da qualidade do "Ditador" no algoritmo, não importa o quão sedicioso pareça. Essa,que foram ditados com mais rapidez e menos clareza, podem contar com pontos adicionais "quanto à nocividade". De qualquer forma, se tivermos voz para texto, outra ideia vem à mente.
Robô e homem: quem escreverá melhor o ditado?
Se fizermos reconhecimento de som na transmissão, então nem é preciso dizer que devemos criar um participante virtual no ditado. Seria legal comparar os sucessos da IA e dos humanos, especialmente porque experimentos semelhantes em diferentes disciplinas educacionais já estão sendo ativamente realizados no mundo. Então, na China em 2017, a AI passou no exame estatal "gaokao" na cidade de Chengdu - algo como o Exame Estatal Unificado Russo. Ele marcou 105 pontos em 150 possíveis - ou seja, passou nas disciplinas com um sólido "três". Vale ressaltar que, como no problema do “Ditado Total”, o mais difícil para o algoritmo foi entender o idioma - no caso, o chinês. Na Rússia, o Sberbank no ano passado realizoucompetições para desenvolver algoritmos para passar em testes no idioma russo. O Exame de Estado Unificado consistia em testes e um ensaio sobre um determinado tópico. Os testes para robôs foram compilados com um nível de complexidade aumentado e consistiam em três etapas: a conclusão direta da tarefa, destacando os exemplos de acordo com as regras e o texto dados, e também o registro correto da resposta.
Voltemos da discussão sobre “o que mais pode ser feito”, de fato, para o problema do ditado.
Mapa de erro
Entre outras coisas, os organizadores da competição pedem um mapa de erros. Ferramentas como um mapa de calor mostram onde e com que frequência as pessoas cometem erros; é lógico que mais freqüentemente cometam erros em lugares difíceis. Nesse sentido, além da discrepância com as opções de referência, você pode usar um mapa de calor com base nas discrepâncias de outros usuários. Essa validação coletiva dos resultados de cada um é fácil de implementar, mas pode melhorar significativamente a qualidade da verificação.
Estatísticas parcialmente semelhantes "Total Dictation" já estão sendo coletadas, mas isso é feito manualmente com a ajuda de voluntários. Por exemplo, graças ao seu trabalhoaprendemos que a maioria dos usuários se engana nas palavras "devagar", "demais", "planejado". Mas coletar esses dados de forma rápida e eficiente se torna mais difícil, quanto mais participantes no ditado. Diversas plataformas educacionais já estão usando ferramentas semelhantes. Por exemplo, um dos aplicativos populares para aprender línguas estrangeiras usa essas tecnologias para otimizar e personalizar as aulas. Para fazer isso, eles desenvolveram um modelo cuja tarefa é analisar as combinações de frequência de erros de milhões de usuários. Isso ajuda a prever a rapidez com que um usuário pode esquecer uma palavra específica. A complexidade do tema em estudo também é levada em consideração.
Em geral, como diz meu pai: “Todas as tarefas são divididas em besteira e surdo. Besteira são tarefas que já foram resolvidas, ou ainda não começaram a ser resolvidas. Surdos são tarefas que você está resolvendo no momento. " Mesmo em torno do problema de validação de texto, o aprendizado de máquina permite que você faça muitas perguntas e crie um monte de add-ons que podem mudar qualitativamente a experiência do usuário final. Saberemos o que farão os participantes do World AI & Data Challenge até o final do ano.