Pré-treinamento mais eficiente de modelos de PNL com ELECTRA

Desenvolvimentos recentes em modelos de pré-aprendizagem de linguagem levaram a avanços significativos em Processamento de Linguagem Natural (PNL), dando origem a modelos altamente eficientes como BERT , RoBERTa , XLNet , ALBERT , T5 e muitos mais. Esses métodos, que têm arquiteturas diferentes, no entanto, são unidos pela ideia de usar grandes quantidades de dados de texto não rotulados para criar um modelo geral de compreensão de linguagem natural, que é então treinado e ajustado para resolver problemas específicos aplicados, como análise de sentimento ou construção de sistemas de perguntas e respostas.



Os métodos de pré-treinamento existentes caem principalmente em duas categorias:



  • Modelos de linguagem (LM), como GPT , que processa texto na entrada da esquerda para a direita, prevendo a próxima palavra em um contexto previamente definido;
  • Modelos de linguagem mascarada (MLM), como BERT, RoBERTa e ALBERT, que tentam prever as palavras mascaradas do texto fonte.


A vantagem do MLM é que ele funciona bidirecionalmente, ou seja, "Ver" o texto em cada lado do token previsto, em contraste com os LMs, que estão voltados para apenas uma direção. No entanto, MLM (e modelos como XLNet) também têm desvantagens decorrentes de sua tarefa de pré-treinamento: em vez de prever cada palavra da sequência de entrada, eles prevêem apenas uma pequena parte mascarada - apenas cerca de 15%, o que reduz a quantidade de informações recebidas de uma frase.



imagem3



. () . : (, GPT), . : (, BERT), , .



«ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators» , BERT’, . ELECTRA – , (Efficiently Learning an Encoder that Classifies Token Replacements Accurately) — , , . , ELECTRA , RoBERTa XLNet GLUE, , , ¼ , - SQuAD. ELECTRA , : 1 GPU , (accuracy), GPT, 30 . ELECTRA TensorFlow .





ELECTRA – (replaced token detection, RTD), ( MLM) ( LM). - (generative adversarial network, GAN), ELECTRA «» «» . , , «[MASK]» ( BERT’), RTD , . , , «cooked» «ate». , , . (.. ) , , . , , (15% BERT). RTD , MLM – ELECTRA «» , , .. . , RTD , .. , .



imagem 4



.



, . , , ELECTRA ( BERT- ), . , , , GAN, , , - GAN . . , ( ELECTRA) NLP . .



imagem1



. MLM , ELECTRA.





ELECTRA c NLP , , , RoBERTa XLNet 25% , .



imagem2



x , ( FLOPs), y – GLUE. ELECTRA , NLP . , GLUE, T5, , .. ( 10 , RoBERTa).



, ELECTRA-Small, , GPU 4 . , , TPU , ELECTRA-Small GPT, 1/30 .



, , ELECTRA , ELECTRA-Large ( RoBERTa 10% T5). - SQuAD 2.0 (. ) RoBERTa, XLNet ALBERT GLUE. T5-11b GLUE, ELECTRA 30 10% , T5.



imagem 5



ELECTRA-Large SQuAD 2.0 ( ).



ELECTRA



O código do pré-treinamento e do ajuste fino da ELECTRA em tarefas de PNL aplicadas, como classificação de texto, tarefas de perguntas e respostas e marcação de sequência, foi publicado em acesso aberto . O código suporta o treinamento rápido de um pequeno modelo ELECTRA em uma única GPU. Os pesos de modelos pré-treinados como ELECTRA-Large, ELECTRA-Base e ELECTRA-Small também são publicados. Embora o ELECTRA esteja disponível apenas em inglês, no futuro, os desenvolvedores planejam pré-treinar o modelo em outros idiomas.



Autores






All Articles