
Para resolver rapidamente os problemas do usuário sem intervenção humana, um chatbot eficaz requer uma grande quantidade de dados de treinamento. No entanto, o principal gargalo no desenvolvimento do chatbot é obter dados de conversação realistas e orientados para a tarefa para treinar esses sistemas usando técnicas de aprendizado de máquina. Compilamos uma lista dos melhores conjuntos de dados de conversa de chats, divididos em perguntas e respostas, dados de atendimento ao cliente. dados interativos e multilíngues.
Conjunto de dados de perguntas e respostas para chatbots de treinamento
Link . Este corpus inclui artigos da Wikipedia, perguntas factuais geradas manualmente e respostas geradas manualmente a essas perguntas para uso em pesquisas científicas.
WikiQA corpus . Um conjunto disponível publicamente de pares de perguntas e frases coletados e anotados para explorar as respostas às perguntas de domínio aberto. Para refletir a verdadeira necessidade de informações de usuários comuns, eles usaram os logs de consulta do Bing como fonte de perguntas. Cada pergunta está vinculada a uma página da Wikipedia que potencialmente tem uma resposta.
Dados de linguagem do Yahoo . Esta página apresenta conjuntos de dados QC escolhidos a dedo do Yahoo Respostas do Yahoo.
Coleção de controle de qualidade TREC (coleção de recuperação de texto): TREC responde a perguntas desde 1999. A cada sequência de perguntas e respostas, o problema era definido de forma que os sistemas recebessem pequenos fragmentos de texto contendo a resposta às questões de domínio aberto com possíveis respostas apenas "sim" ou "não".
Conjunto de dados de suporte do Ubuntu
O Ubuntu Conversations Corpus consiste em quase um milhão de conversas de duas pessoas extraídas dos logs de chat do Ubuntu usados para obter suporte técnico em vários problemas relacionados ao Ubuntu. O conjunto contém 930.000 diálogos e mais de 100.000.000 de palavras.
Kit de Estratégia de Relacionamento com o Atendimento ao Cliente : Colete dados de atendimento ao cliente relacionados a viagens de quatro fontes. Registros de conversas de três serviços ao cliente comercial IVA e fóruns de companhias aéreas no TripAdvisor.com durante agosto de 2016.
Suporte ao cliente do Twitter . Este conjunto de dados no Kaggle inclui mais de 3.000.000 tweets e respostas das maiores marcas no Twitter.
Conjunto de dados de diálogo de treinamento do chatbot
Logs de bate-papo do IRC do grupo de interesse da Web semântica . Este registro de bate-papo IRC gerado automaticamente está disponível em RDF que é mantido diariamente desde 2004, incluindo carimbos de data / hora e apelidos.
Cornell Corps of Film Dialogues . Este corpus contém uma grande coleção de metadados ricos em diálogos ficcionais de roteiros de filmes: há 220.579 diálogos entre 10.292 pares de heróis de cinema com 9.035 personagens de 617 filmes.
Conjunto de dados ConvAI2 . Este conjunto de dados contém mais de 2.000 conversas para o concurso PersonaChat , onde as pessoas que trabalham na plataforma de crowdsourcing Yandex.Toloka conversaram com bots das equipes participantes.
Santa Barbara. Falado Inglês Americano Corpus: Este conjunto de dados inclui aproximadamente 249.000 palavras em transcrição, áudio e carimbos de data / hora no nível de unidades de entonação individuais.
NPS chat corpus . Este corpus é composto por 10.567 mensagens provenientes de aproximadamente 500.000 mensagens recolhidas em várias salas de chat online de acordo com os termos de serviço.
Diálogos orientados para objetivos em Maluuba . Um conjunto de dados de conversas em que a conversa se concentra na conclusão de uma tarefa ou na tomada de uma decisão, como encontrar voos e hotéis. Contém informações abrangentes que cobrem mais de 250 hotéis, voos e destinos.
Conjunto de dados de vários domínios do Mágico de Oz (MultiWOZ)... Uma coleção totalmente marcada de conversas escritas abrangendo vários domínios e tópicos. O conjunto contém 10.000 diálogos e pelo menos uma ordem de magnitude a mais do que todos os corpora anotados anteriores, que se concentram na resolução de problemas.
Conjunto de dados para treinamento de bots multilíngues
NUS Corpus . Este corpus foi criado para normalizar textos de redes sociais e traduzi-los. Ele é criado com a seleção aleatória de 2.000 mensagens do corpus de SMS em inglês da NUS e, em seguida, traduzido para o chinês formal.
Conjunto de dados EXCITEMENT . Disponíveis em inglês e italiano, esses kits contêm críticas negativas de clientes, nas quais os clientes indicam motivos de insatisfação com a empresa.
Ainda não consegue encontrar os dados que procura? A Lionbridge AI fornece dados personalizados para treinar um chatbot com aprendizado de máquina em 300 idiomas para tornar suas conversas mais interativas e oferecer suporte aos clientes em todo o mundo. E se você quiser se aprimorar em aprendizado de máquina, venha para nosso curso avançado.por ML e não se esqueça do código promocional HABR , que acrescenta 10% ao desconto do banner.

- Curso de Aprendizado de Máquina
- Curso avançado "Machine Learning Pro + Deep Learning"
- Curso "Matemática e Aprendizado de Máquina para Ciência de Dados"
Mais cursos
Artigos recomendados
- Quanto ganha o cientista de dados: uma visão geral de salários e empregos em 2020
- Quanto ganha o analista de dados: uma visão geral de salários e empregos em 2020
- Como se tornar um cientista de dados sem cursos online
- 450 cursos gratuitos da Ivy League
- Como aprender o aprendizado de máquina 5 dias por semana durante 9 meses consecutivos
- Aprendizado de máquina e visão computacional na indústria de mineração
- Aprendizado de máquina e visão computacional em plantas de beneficiamento