
A análise de sentimento se tornou uma ferramenta poderosa para o processamento em larga escala de opiniões expressas em qualquer fonte de texto. A aplicação prática desta ferramenta em inglês é bastante desenvolvida, o que não se pode dizer do russo. Nesta série de artigos, vamos considerar como e para quais propósitos as abordagens de análise de sentimento foram usadas para textos em língua russa, quais resultados foram alcançados, quais problemas surgiram e também falar um pouco sobre rumos promissores. Ao contrário de trabalhos anteriores, concentrei-me em aplicações aplicadas, e não nas abordagens em si e na sua qualidade de classificação. A primeira parte é introdutória. Vamos considerar o que é “análise de sentimento”, o que é e como tem sido usada nos últimos 8 anos para analisar textos em russo. Na segunda parteVamos dar uma olhada em cada um dos 32 principais estudos que encontrei. Na terceira e última parte (novamente, na próxima semana), falaremos sobre as dificuldades comuns enfrentadas pelos pesquisadores, bem como rumos promissores para o futuro.
NB: O artigo foi escrito para uma revista científica, portanto, haverá muitos links para fontes.
1. Introdução
A análise de sentimento é uma classe de métodos de análise de conteúdo em linguística computacional, cuja principal tarefa é classificar o texto de acordo com seu humor. Ao usar a análise de sentimento, os pesquisadores podem generalizar o sentimento dos textos e tirar conclusões sobre diferentes tópicos. Por exemplo, essa análise permite prever o mercado de valores mobiliários [1], calcular o índice de bem-estar subjetivo [2], prever resultados eleitorais [3], avaliar a reação a alguns eventos ou notícias [4]. A análise de sentimento para o inglês já está bem desenvolvida [5] - [7], enquanto outras línguas, especialmente o russo, têm recebido muito menos atenção até agora. De acordo com um estudo da Omnibus GFK [9], 75,4 russos (90 milhões de pessoas) com mais de 16 anos usam a Internet. Existem diásporas de língua russa em todos os continentes, mas a maior parte delas vive na CEI,principalmente na Rússia e na Ucrânia. De acordo com um estudo da W3Techs, o russo é um dos principais idiomas em termos de prevalência na Internet. Em abril de 2020, 8,6% dos 10 milhões de sites mais populares do mundo eram em russo. Portanto, os textos em russo são uma importante fonte de dados para análise automática, especialmente análise de sentimento.
Apenas um estudo de pesquisa [10] realizado por Viksna e Jekabsons é dedicado à análise do sentimento de textos em língua russa. Vários outros [11] - [14] mencionam isso no contexto de uma comparação geral com as abordagens existentes. Alguns outros estudos são dedicados a aspectos específicos da análise do sentimento de textos em língua russa. Por exemplo, avaliando as melhores abordagens [15] - [18], comparando arquiteturas de rede neural para análise de sentimento [19], [20], comparando coleções abertas de vocabulário da língua russa para avaliação de sentimentos [21]. No entanto, todos esses estudos enfocaram as próprias abordagens e sua velocidade de classificação, ao invés da aplicação prática e dos resultados da análise. Considerei apenas aqueles trabalhos, durante os quais os resultados da análise foram obtidos com base em dados reais. E não considerei aqueles que se dedicam apenas a classificadores de treinamento.Este artigo é uma tradução condensada de um artigo publicado no IEEE Access. Se você quiser mais detalhes, ou apenas ler em inglês - vocêaqui .
A segunda seção descreve brevemente a tarefa de análise de sentimento e abordagens atuais. Se você já estiver familiarizado com isso, fique à vontade para pular. A terceira seção é uma das principais, examina os tipos de aplicação da análise de sentimento para textos em língua russa e também descreve 32 estudos principais, seus insights e fraquezas. A quarta seção é dedicada aos desafios atuais e a quinta às áreas promissoras.
2. Resumidamente sobre os métodos de análise de sentimento
A análise de sentimento é uma classe de métodos de análise de conteúdo em linguística computacional, cuja principal tarefa é classificar o texto de acordo com seu humor. Em casos simples, o problema da análise de sentimento é reduzido a uma classificação binária de textos em positivos e negativos. Em alguns casos, adicione outra classe de textos neutros. Abordagens mais avançadas tentam identificar estados emocionais associados a um texto, como medo, raiva, tristeza ou felicidade. Em várias abordagens, os textos são atribuídos a valores de uma escala predeterminada: por exemplo, de -2 para negativo a 2 para positivo; assim, a análise é reduzida a um problema de regressão. A análise de sentimento baseada em aspectos é um subconjunto da análise de sentimento, cuja tarefa é determinar a atitude em relação a um aspecto específico do assunto principal da discussão.Todas as abordagens da análise de sentimento podem ser divididas em três grupos.
O primeiro são as abordagens baseadas em regras(baseado em regras). Na maioria das vezes, eles usam regras de classificação definidas manualmente e vocabulários marcados emocionalmente. Essas regras geralmente calculam a classe de texto [22] - [24] com base em palavras-chave emocionais e sua combinação com outras palavras-chave. Apesar de serem extremamente eficazes no assunto, os métodos baseados em regras são pouco generalizáveis. Eles também consomem muito tempo para criar, especialmente quando não há acesso a um dicionário de sentimento adequado. Este último é especialmente característico da língua russa, porque não há tantas fontes como em inglês, especialmente no campo da análise de sentimento. Os maiores dicionários de sentimento da língua russa são RuSentiLex [25] e LINIS Crowd [26]. Mas eles contêm apenas informações sobre a tonalidade de positivo para negativo, sem as características das emoções. Nesse caminho,não há alternativas para coleções poderosas em inglês com extensas características emocionais como SenticNet [27], SentiWordNet [28] e SentiWords [29].
Segundo grupo - abordagens de aprendizado de máquina... Eles usam a extração automática de recursos do texto e aplicam algoritmos de aprendizado de máquina. Os algoritmos clássicos para a classificação da polaridade são o Classificador Naive Bayes [30], Árvore de Decisão [31], Regressão Logística [32] e Máquina de Vetores de Suporte [33]. Nos últimos anos, a atenção de pesquisadores tem sido atraída por métodos de aprendizado profundo, que são significativamente superiores aos métodos tradicionais de análise de sentimento [34]. Isso é confirmado pela cronologia da competição SemEval, durante a qual as soluções líderes usaram com sucesso redes neurais convolucionais (CNN) e recorrentes (RNN) [35] - [37], bem como métodos de aprendizagem por transferência [38].Um dos principais recursos dos sistemas baseados em aprendizado de máquina é a extração automática de recursos do texto. Abordagens simples para representar texto no espaço vetorial normalmente usam o modelo do saco de palavras. Em sistemas mais complexos, os modelos de distribuição semântica são usados para gerar embeddings de palavras, por exemplo, Word2Vec [39], GloVe [40] ou FastText [41]. Existem também algoritmos para gerar embeddings no nível de frase ou parágrafo, que são projetados para transferir o aprendizado entre diferentes tarefas de processamento de linguagem natural. Esses algoritmos incluem ELMo [42], Universal Sentença Encoder (USE) [27], Bidirecional Encoder Representations from Transformers (BERT) [43], Enhanced Language Representation with Informative Entities (ERNIE) [44], e XLNet [45].Uma de suas principais desvantagens em termos de geração de embeddings é a necessidade de grandes quantidades de texto para treinamento. No entanto, isso é verdadeiro para todos os métodos de aprendizado de máquina, porque todos os algoritmos de aprendizado supervisionado requerem conjuntos de dados rotulados para serem treinados.
Terceiro grupo - abordagens híbridas... Eles combinam as abordagens dos dois tipos anteriores. Por exemplo, Kumar e seus colegas desenvolveram uma estrutura híbrida para análise de sentimento em persa que combina regras linguísticas, redes neurais convolucionais e LSTMs para classificação de sentimento [46]. Meskele e Frasincar propuseram um modelo de análise de aspecto híbrido ALDONAr que combina ontologia de sentimento para capturar informações de sentimento, BERT para embeddings de palavras e duas camadas CNN para classificação de sentimento estendido [47]. O modelo mostrou uma precisão de 83,8% no conjunto de dados SenEval 2015 Task 12 [48] e 87,1% no conjunto de dados SemEval 2016 Task 5 [49]. Modelos de linguagem são freqüentemente usados em algoritmos híbridos, assim como soluções baseadas em regras [50] - [52]. Um lado,uma combinação de métodos baseados em regras e aprendizado de máquina geralmente produz resultados mais precisos. Por outro lado, as abordagens híbridas herdam as dificuldades e limitações de seus algoritmos constituintes.
3.
Para encontrar publicações importantes sobre análise de sentimento aplicada de textos em russo, pesquisei bancos de dados científicos que cobrem os principais jornais e conferências de ciência da computação: IEEE Xplore, ACM Digital Library, ScienceDirect, SAGE Journals Online e Springer Link . Para expandir o leque de fontes, além de artigos em inglês, também estudei artigos em russo do Russian Science Citation Index (RSCI). A pesquisa foi realizada por consulta ('' SENTIMENTO '' OU '' POLARIDADE '') E ('' ANÁLISE '' OU '' DETECÇÃO '' OU '' CLASSIFICAÇÃO '' OU '' OPINIÃO MINERADORA '' OU '' MODELAGEM DE TÓPICO ' ') AND (' 'RUSSO' 'ou' 'RÚSSIA' ')).A maioria dos artigos relevantes são encontrados em ScienceDirect , Springer Link e RSCI... Também revisei as publicações preliminares de trabalhos de pesquisadores renomados para não perder novidades. Como resultado, vários milhares de artigos potencialmente relevantes foram coletados, sem contar a literatura cinzenta e as pré-impressões. Os trabalhos mais recentes e mais citados foram os preferidos. Em seguida, analisei os títulos, palavras-chave e introduções do resto das publicações para restringir minha seleção de fontes. Apenas artigos revisados por pares foram pesquisados para melhorar a qualidade da amostra. Excluí fontes cinzas (por exemplo, trabalho em andamento, editoriais, qualquer dissertação), bem como fontes inadequadas para minha pesquisa (que não aplicam modelos de classificação de sentimento). Então, para mais detalhes neste artigo, selecionei manualmente 32 publicações principais.que descreveu pelo menos uma abordagem prática para a análise de sentimentos em textos em língua russa.
4.

. 1. .
Decidi categorizar as abordagens por fontes de dados, porque, neste caso, as abordagens dentro das categorias terão objetivos, desafios e limitações semelhantes. Embora algumas categorias contenham apenas um estudo, decidi destacá-las devido às diferenças fundamentais nas abordagens utilizadas, resultados e dificuldades. Além disso, não se esqueça que o idioma russo foi menos estudado em termos de análise de sentimento, portanto, o número de trabalhos é limitado. Na fig. 1 apresenta um conjunto de categorias. A maioria das abordagens baseou-se na análise de dados de mídia social para avaliar as atitudes do usuário em relação a diferentes tópicos. Por exemplo, atitudes e opiniões sobre o conflito na Ucrânia e problemas relacionados com os migrantes. Na última década, muitas redes sociais se transformaram em ferramentas modernas de engajamento social [53],portanto, podem ser percebidos como fontes abertas e amplamente disponíveis da opinião pública, ou pelo menos como algum tipo de reflexo dela [54]. UGCs de redes sociais, como a fonte de informação mais comum, foram examinados de acordo com três critérios: atitudes em relação a diferentes temas; índices de humor social; recursos de interação do usuário com dados que expressam diferentes humores. As atitudes em relação a diferentes tópicos foram estudadas de diferentes pontos de vista. Por exemplo, atitudes em relação aos migrantes e grupos étnicos (por exemplo, [55]), expressões de sentimento durante a crise ucraniana (por exemplo, [56]), medição do nível de tensão social (por exemplo, [57]) ou enfoque no discurso sobre alguns perguntas (por exemplo, [58]). Normalmente, essas abordagens usam uma combinação de modelagem de tópico e análise de sentimento,para destacar temas e humores relacionados. Em muitas das pesquisas (por exemplo, [59] - [67]) em que a modelagem de tópicos é aplicada sem classificação adicional de polaridade (e, portanto, eles não são considerados neste artigo), a análise de sentimento é referida como um estágio de desenvolvimento posterior. Em outra parte da pesquisa (por exemplo, [68]) os índices de atitude social são calculados com base nas opiniões expressas nas redes sociais para obter uma alternativa ao tradicional índice de bem-estar subjetivo. Finalmente, outra pesquisa (por exemplo, [69]) examina os padrões de interação do usuário com o conteúdo, dependendo de sua cor emocional. Uma das principais dificuldades em tais estudos é a extração de amostras representativas de dados e a seleção de textos relevantes para análises posteriores.Em grande parte da pesquisa (por exemplo, [59] - [67]), onde a modelagem de tópico é aplicada sem classificação de polaridade adicional (e, portanto, não coberta neste artigo), a análise de sentimento é referida como um estágio de desenvolvimento posterior. Em outra parte da pesquisa (por exemplo, [68]) os índices de atitude social são calculados com base nas opiniões expressas nas redes sociais para obter uma alternativa ao tradicional índice de bem-estar subjetivo. Finalmente, outra pesquisa (por exemplo, [69]) examina os padrões de interação do usuário com o conteúdo, dependendo de sua cor emocional. Uma das principais dificuldades em tais estudos é a extração de amostras representativas de dados e a seleção de textos relevantes para análise posterior.Em grande parte da pesquisa (por exemplo, [59] - [67]), onde a modelagem de tópicos é aplicada sem classificação de polaridade adicional (e, portanto, não coberta neste artigo), a análise de sentimento é referida como um estágio de desenvolvimento posterior. Em outra parte da pesquisa (por exemplo, [68]), os índices de atitude social são calculados com base em opiniões expressas em redes sociais para obter uma alternativa ao índice tradicional de bem-estar subjetivo. Finalmente, outra pesquisa (por exemplo, [69]) examina os padrões de interação do usuário com o conteúdo, dependendo de sua cor emocional. Uma das principais dificuldades em tais estudos é a extração de amostras representativas de dados e a seleção de textos relevantes para análise posterior.em que a modelagem temática é aplicada sem classificação adicional de polaridade (e, portanto, eles não são abordados neste artigo), a análise de sentimento é referida como um estágio de desenvolvimento posterior. Em outra parte da pesquisa (por exemplo, [68]) os índices de atitude social são calculados com base nas opiniões expressas nas redes sociais para obter uma alternativa ao tradicional índice de bem-estar subjetivo. Finalmente, outra pesquisa (por exemplo, [69]) examina os padrões de interação do usuário com o conteúdo, dependendo de sua cor emocional. Uma das principais dificuldades em tais estudos é a extração de amostras representativas de dados e a seleção de textos relevantes para análise posterior.em que a modelagem temática é aplicada sem classificação adicional de polaridade (e, portanto, eles não são abordados neste artigo), a análise de sentimento é referida como um estágio de desenvolvimento posterior. Em outra parte da pesquisa (por exemplo, [68]) os índices de atitude social são calculados com base nas opiniões expressas nas redes sociais para obter uma alternativa ao tradicional índice de bem-estar subjetivo. Finalmente, outra pesquisa (por exemplo, [69]) examina os padrões de interação do usuário com o conteúdo, dependendo de sua cor emocional. Uma das principais dificuldades em tais estudos é a extração de amostras representativas de dados e a seleção de textos relevantes para análise posterior.
A próxima fonte de informação mais comum são as análises de produtos e serviços. Eles foram analisados em termos das características dos próprios revisores (por exemplo, [70]), as características dos produtos e serviços (por exemplo, [71]) e as características dos vendedores (por exemplo, [72]). Ao contrário da análise de dados gerados por usuários em redes sociais, não há dificuldade em acessar dados antigos. Sites dedicados a resenhas geralmente permitem que os usuários avaliem as classificações além do texto da resenha, portanto, não há necessidade formal de criar um modelo de classificação de humor, porque já conhecemos as classes de classificação. No entanto, em alguns estudos, os modelos de classificação de sentimento são usados apenas para interesse acadêmico. Uma vez que os dados do usuário nas mídias sociais e avaliações de usuários costumam refletir pontos de vista subjetivosanalisar esses dados é diferente de analisar notícias. Normalmente, os jornalistas tentam evitar julgamentos e preconceitos, dúvidas e ambigüidades, já que a objetividade está no cerne de sua profissão. ou pelo menos neutralidade [73]. Portanto, os jornalistas muitas vezes não usam palavras relacionadas ao vocabulário positivo ou negativo, mas recorrem a outras formas de expressar sua opinião [74].
A terceira fonte principal foram as notícias da mídia, que foram analisadas de acordo com dois critérios: sentimento (por exemplo, [75]) e a formação de previsões econômicas e de negócios com base no sentimento das notícias (por exemplo, [76]). Ao contrário da análise de dados gerados por usuários em redes sociais, não há dificuldade em acessar dados antigos, pois a mídia geralmente não restringe o acesso a eles. No entanto, os autores de alguns estudos têm tentado determinar a atitude do público em relação a temas específicos, o que, em minha opinião, requer mais elaboração. Claro, a mídia pode ser considerada um reflexo da opinião pública. Mas, em alguns casos, a política editorial pode ter influenciado a submissão, então as notícias nem sempre refletem a opinião pública. Os pesquisadores prestaram um pouco menos de atenção à direção mais recente: a análise do sentimento dos livros didáticos,tais estudos apareceram apenas em 2019. Esses trabalhos se concentram na comparação de sentimentos expressos em diferentes livros didáticos (por exemplo, [77]) e o impacto desses sentimentos no processo educacional (por exemplo, [78]). O principal desafio vem da falta de vocabulário específico para o humor e de conjuntos de dados de aprendizagem orientados para livros didáticos. Além disso, no caso de textos analíticos no nível do documento, torna-se difícil associar textos a uma certa classe de humores, porque os textos nos livros didáticos são longos e podem conter várias emoções diferentes ao mesmo tempo.livro-texto orientado. Além disso, no caso de textos analíticos no nível de documento, torna-se difícil associar textos a uma certa classe de humores, porque os textos nos livros são longos e podem conter várias emoções diferentes ao mesmo tempo.livro-texto orientado. Além disso, no caso de textos analíticos no nível do documento, torna-se difícil associar textos a uma certa classe de humores, porque os textos nos livros são longos e podem conter várias emoções diferentes ao mesmo tempo.
Para captar uma gama mais ampla de opiniões, alguns estudos operam com fontes de dados mistas. Neste grupo, os pesquisadores geralmente estudam atitudes em relação a diferentes tópicos, como a crise ucraniana (por exemplo, [79]) ou a cobertura da mídia de Alexei Navalny (por exemplo, [80]). Uma vez que as fontes são mistas, esses dados podem ser usados para qualquer pesquisa possível. No entanto, além da ampla gama de opiniões expressas, os autores também enfrentam complexidades e limitações inerentes às fontes.
Um resumo das abordagens encontradas é apresentado na Tabela 1. Se considerarmos a distribuição dos artigos por ano, podemos verificar que o número de estudos sobre o sentimento do texto em língua russa aumentou em 2014-2016 e atingiu um pico em 2017. O número de artigos publicados nas mesmas revistas e anais de conferências varia um pouco. Mais de um dos artigos analisados foi publicado em apenas sete periódicos e coleções. A maioria dos artigos descobertos foi publicada na coleção de materiais da conferência “Transformação Digital e Sociedade Global”.
Tabela 1. Resumo dos estudos descobertos. RB - abordagens baseadas em regras, ML - abordagens de aprendizado de máquina, UNK - abordagens desconhecidas, WL - análise em nível de palavra, DL - análise em nível de documento.
Categoria | Compromisso | Descrição | Ligação | ||
---|---|---|---|---|---|
UGC | . | [81] | ML (Logit) | DL | |
[82] | ML (Logit) | DL | |||
[83] | ML (Logit) | DL | |||
[84] | RB (SentiStrength) | DL | |||
[55] | ML (SVM) | DL | |||
. | [85] | RB (custom) | DL | ||
[86] | RB (POLYARNIK) | DL | |||
[87] | RB (SentiMental) | DL | |||
[88] | UNK (IQBuzz) | DL | |||
[56] | RB (custom) | DL | |||
. | [89] | ML (SVM) | DL | ||
[57] | RB (SentiStrength) | DL | |||
. | [58] | DL | |||
2014 . | [90] | RB (SentiStrength) | DL | ||
2011-2012. | [91] | RB (SentiStrength) | DL | ||
-. | [92] | ML (NBC) | DL | ||
. | [93] | RB (custom) | WL, DL | ||
[68] | ML (GBM) | DL | |||
. | [69] | ML (BiGRU) | DL | ||
, . | [70] | DL | |||
- . | [71] | ML (NB, SGD) | DL | ||
, . | [72] | ML (RNTN) | DL | ||
. | [94] | RB (custom) | DL | ||
[95] | RB (custom) | DL | |||
. | [96] | RB (custom) | DL | ||
. | [75] | UNK (Medialogia) | DL | ||
. | [76] | ML (SVM) | DL | ||
. | [77] | RB (custom) | WL | ||
, . | [78] | ML ( ) | DL | ||
[97] | UNK (Crimson Hexagon) | DL | |||
[79] | UNK (Crimson Hexagon) | DL | |||
[80] | UNK (Medialogia) | DL |
A proporção de abordagens baseadas em regras (40,63%) e aprendizado de máquina (37,5%) foi aproximadamente igual. O primeiro grupo costumava usar modelos baseados em regras individuais ou SentiStrength [22], que se tornou o algoritmo mais popular entre as soluções prontas para uso de terceiros. E no segundo grupo, a regressão logística [32], a máquina de vetores de suporte [33] e o classificador Bayesiano ingênuo [30] foram os mais usados. Os mais populares eram métodos simples de aprendizado de máquina e apenas 16,7% usavam redes neurais. No entanto, desde 2019, a parcela de abordagens de aprendizado de máquina excedeu significativamente a parcela de abordagens baseadas em regras. 15,6% dos estudos encontrados usaram serviços de nuvem de terceiros, como Medialogia, IQBuzz e Crimson Hexagon para análise de sentimento.Nestes casos, não pude determinar as abordagens utilizadas devido à falta de informações oficiais sobre os algoritmos de classificação aplicados.
Em vários casos, foram encontradas falhas metodológicas, incluindo a falta de descrições de pré-processamento, marcação de dados, processo de aprendizagem e métricas de qualidade de classificação. Em alguns casos, o modelo de classificação não foi validado em relação a um conjunto de dados relacionado à área de assunto. Isso é especialmente verdadeiro para a análise de sentimento que usa abordagens baseadas em regras ou serviços de terceiros - os pesquisadores geralmente não identificam manualmente os conjuntos de textos e, portanto, não podem avaliar a qualidade da classificação.
5. Próximo
A segunda parte do artigo será lançada na próxima semana, na qual examinaremos mais de perto cada um dos 32 principais estudos que encontrei. Na terceira e última parte (novamente, na próxima semana), falaremos sobre as dificuldades comuns enfrentadas pelos pesquisadores, bem como sobre rumos promissores para o futuro. Se você quiser ler o artigo inteiro de uma vez e em inglês, clique aqui .
6. Fontes
Uma lista completa de fontes pode ser encontrada aqui .