A análise de sentimento tem sido usada com sucesso em mídias sociais, resenhas, notícias e até livros didáticos. Com base na pesquisa-chave para a língua russa descrita em um artigo anterior , examinamos aqui os principais desafios enfrentados pelos pesquisadores, bem como rumos promissores para o futuro. Ao contrário de trabalhos anteriores, concentrei-me em aplicações aplicadas, e não nas abordagens em si e na sua qualidade de classificação.
NB: O artigo foi escrito para uma revista científica, portanto, haverá muitos links para fontes.
1. Chamadas em andamento
Com base na análise de artigos de pesquisa, dez problemas comuns foram identificados. Em geral, os pesquisadores normalmente enfrentam vários desafios, incluindo acesso a dados históricos representativos e dados de treinamento, bem como anotando emoções, descrevendo exaustivamente as limitações da pesquisa e extraindo tópicos de textos.
1.1. Acesso a dados históricos representativos em fontes analisadas
Dados históricos - como publicações e análises - coletados por meio de APIs de origem ou plataformas de agregação são frequentemente usados e analisados em pesquisas de sentimento. Às vezes, os desenvolvedores de API fornecem apenas acesso parcial aos dados publicados. Por exemplo, a API principal do Twitter segue uma política de que apenas a API histórica do Twitter fornece acesso a todas as postagens abertas. Quanto às plataformas de agregação, mesmo que afirmem ter acesso total aos dados de uma determinada fonte, é impossível verificar isso. Portanto, existem apenas duas maneiras de garantir que os dados sejam representativos da pesquisa:
- API , . , API .
- . , OK Data Science Lab [98].
1.2.
Embora o russo seja um dos mais falados na Internet, o número de fontes nele é significativamente menor do que em inglês, especialmente no campo da análise de sentimento. Embora muitos estudos tenham sido dedicados à classificação das emoções em textos em língua russa, apenas os autores de alguns deles tornaram seus conjuntos de dados disponíveis ao público. Se nenhum dos conjuntos disponíveis puder ser aplicado ao tópico de pesquisa, os autores marcam os conjuntos de treinamento manualmente. Depois de analisar fontes literárias e trabalhos científicos [142], [173], identifiquei e descrevi 14 conjuntos de dados disponíveis publicamente para analisar o sentimento de textos em língua russa (ver Tabela 2). Considerei apenas os kits que podem ser acessados de acordo com as instruções descritas nos artigos científicos relevantes ou nos sites oficiais. Nesse sentido, a lista não foi incluídapor exemplo, conjuntos ROMIP [174], [175], porque não foi possível acessar os dados através de seu site oficial.
Tabela 2. Conjuntos de dados do idioma russo para análise de sentimento.
| Conjunto de Dados | Descrição | Anotação | Aulas | Acesso |
|---|---|---|---|---|
| RuReviews [143] | Um conjunto com exemplos de humores de análises de produtos na categoria "Roupas e acessórios femininos" em uma grande loja online russa. | Automático | 3 | Página GitHub |
| RuSentiment [142] | Um conjunto aberto com exemplos de humores de publicações na rede social VKontakte. | Manual | cinco | Página do projeto |
| Conjunto de dados de avaliações de hotéis na Rússia [171] | Conjunto de exemplos de humor de 50.329 avaliações de hotéis em russo. | Automático | cinco | Google Drive |
| RuSentRel [172] | Um conjunto de artigos analíticos do site do InoSMI, que apresenta a opinião do autor sobre o tema abordado e inúmeros links mencionados pelos participantes nas situações descritas. | Manual | 2 | Página GitHub |
| Multidão LINIS [26] | Um conjunto de exemplos de sentimentos de código aberto, compilado de artigos sociais e políticos em vários sites de mídia. | Manual | cinco | Página do projeto |
| Twitter Sentiment for 15 European Languages [173] | , 1,6 Twitter- ( ID) 15 , . | 3 | ||
| SemEval-2016 Task 5: Russian [49] | , , . SentiRuEval-2015 [2017]. | 3 | ||
| SentuRuEval-2016 [18] | , Twitter- . | 3 | ||
| SentuRuEval-2015 [17] | , . | 4 | ||
| RuTweetCorp [141] | , , . Twitter [144]. | 3 | ||
| Kaggle Russian News Dataset | . | 3 | Kaggle | |
| Kaggle Sentiment Analysis Dataset | . | 3 | Kaggle | |
| Kaggle IS161AIDAY | , Alem Research. | 3 | Kaggle | |
| Kaggle Russian_twitter_sentiment | Twitter-. | 2 | Kaggle |
1.3. .
Utilizando sistemas de análise de terceiros como SentiStrength [22], algoritmos Medialogy ou POLYARNIK [107], os autores geralmente não escrevem sobre a qualidade da classificação dos textos analisados, dificultando a verificação da precisão dos resultados da pesquisa. Presumo que o uso de soluções de terceiros também se deva ao fato de os pesquisadores não terem anotado os conjuntos de textos de teste para o cálculo das métricas de classificação. No entanto, parece que a introdução desta etapa aumentará significativamente o valor científico do trabalho. Portanto, eu recomendo fortemente que os autores anotem manualmente as amostras de dados de destino para medir as métricas de classificação na análise de sentimento.
1.4. Extraindo tópicos de textos
Para extrair tópicos, a maioria dos estudos usa técnicas de modelagem de tópicos. Porém, se a participação de textos relacionados ao tema de interesse for significativamente inferior a 1%, a modelagem de temas não permitirá trabalhar com extração de temas [54]. Além disso, a modelagem de tópicos mostra baixa precisão ao analisar textos curtos, especialmente se eles representam a fala do dia a dia [54]. Portanto, abordagens mais precisas e menos dependentes de ruído precisam ser desenvolvidas.
1,5. Guias de anotação de sentimento para marcação manual.
Como kits de treinamento em russo sobre tópicos de interesse nem sempre estão disponíveis, os pesquisadores geralmente fazem anotações nos textos à mão. Sem uma descrição do manual e outros detalhes do processo de anotação, é difícil validar a qualidade da marcação para um conjunto de dados. Instruções passo a passo claras e simples são essenciais para obter anotações de alta qualidade tanto de lingüistas certificados quanto de avaliadores não lingüísticos [176]. Alguns tipos de textos são especialmente difíceis de anotar a tonalidade, por exemplo, o estado emocional do falante, a comunicação neutra de informações valiosas, sarcasmo, ridículo e outros [162].
Como um exemplo de um guia para anotar sentimentos para o idioma russo, pesquisas futuras podem usar as diretrizes desenvolvidas com a anotação de RuSentiment [142]. Se você não tem linguistas certificados para fazer anotações, pode usar a ajuda de assessores do Yandex.Toloka, uma plataforma de crowdsourcing para anotar dados manualmente. Já foi usado em vários estudos acadêmicos de textos em língua russa [177] - [180]. Também é altamente recomendável publicar acordos entre anotadores, como Fleiss 'kappa [181] ou Krippendorff's alpha [182], bem como outros detalhes do processo de anotação.
1.6 Descrição abrangente das limitações
A maioria dos artigos analisados fornece listas incompletas de restrições. Além das limitações técnicas e metodológicas, é altamente recomendável descrever:
- A prevalência da Internet no país. Uma das limitações críticas, porque determinados grupos de pessoas não serão abrangidos pelo estudo. De acordo com os resultados das pesquisas Omnibus GFK em dezembro de 2018 [9], a prevalência da Internet na Rússia atingiu 75,4%, sendo usada por 90 milhões de russos com 16 anos ou mais. A utilização da Internet por jovens (16-29 anos) e pessoas de meia idade (20-54 anos) aproxima-se dos níveis de saturação - 99% e 88%, respetivamente. Mas, apesar de um aumento significativo na prevalência, apenas 36% das pessoas com mais de 55 anos usam a Internet.
- . , [183]. , . , . , , , , .
- . , , . , , . , , , , ; ; ; , , , , ; . , . , .
- . Freedom House 2018- [184], 53 65. 2012- , IP-, URL. 2019- . , , . , , .
1.7. .
Uma vez que as pessoas podem expressar suas opiniões sobre um grande número de tópicos, analisar todas essas opiniões pode exigir muitos recursos porque os conjuntos de treinamento devem ser anotados para cada tópico [186]. A ausência de coleções anotadas de textos para treinar modelos de análise de sentimento totalmente temáticos leva a uma diminuição na precisão da análise. De acordo com um estudo [187], existem três questões importantes na análise intertópica. As opiniões expressas no contexto de um tópico podem ser revertidas no contexto de outro tópico. O segundo problema diz respeito às diferenças entre os vocabulários de emoções para diferentes tópicos que precisam ser considerados na análise. E, finalmente, é razoável atribuir um marcador da força da emoção a cada símbolo no dicionário de emoções.
1.8. Definição de sarcasmo e ironia
A comunicação online freqüentemente contém frases sarcásticas e irônicas [188] que mesmo os humanos nem sempre são fáceis de reconhecer, muito menos algoritmos de processamento de linguagem natural. Até agora, muito pouca pesquisa [189] foi dedicada à definição de ironia e sarcasmo na língua russa. Portanto, para o correto processamento de uma ampla gama de opiniões, é necessário desenvolver e aplicar mais abordagens com classificação automática de técnicas de fala complexas.
1.9. Definindo bots
Os bots têm um forte impacto em vários aspectos das mídias sociais, especialmente quando constituem a maioria dos usuários. Eles podem ser usados para várias tarefas maliciosas relacionadas à opinião pública. Por exemplo, para aumentar a popularidade de celebridades ou divulgar informações falsas sobre políticos [190]. Como consequência, métodos de detecção de bots precisam ser desenvolvidos e aplicados em estudos de sentimento.
1,10. Eficiência dos resultados da análise
Ainda há um desacordo considerável sobre a eficácia da medição de respostas por meio de análise automática de dados na web. Vários estudos [191], [192] acreditam que as abordagens de mídia social são menos precisas do que a pesquisa tradicional. Outros afirmam [193] que essas abordagens apresentam melhor desempenho do que os métodos tradicionais. Portanto, é altamente recomendável, se possível, comparar os resultados do estudo com os resultados obtidos por outros métodos.
2. Áreas de pesquisa promissoras
Depois de revisar a literatura, identifiquei sete oportunidades para pesquisas futuras.
No geral, pesquisas futuras devem examinar cuidadosamente as abordagens para monitorar o sentimento apresentadas neste artigo, a fim de identificar potenciais sinergias entre as abordagens individuais para uma análise mais completa do sentimento expresso em diferentes fontes de texto.
2.1 Aprendizagem com a transferência de conhecimento de modelos de linguagem
A maioria dos trabalhos usa abordagens de aprendizado de máquina simples ou baseadas em regras. Apenas dois estudos [69], [72] usaram redes neurais. No entanto, trabalhos recentes mostraram que aprender com a transferência de conhecimento de modelos de linguagem pré-treinados pode resolver efetivamente os problemas de classificação das emoções, alcançando bons resultados com confiança [43], [194] - [198].
Assim, o uso de modelos de linguagem ajustados pode melhorar significativamente a qualidade da análise de sentimento e, portanto, melhorar a precisão dos resultados do monitoramento de sentimento. A pesquisa inicial foi realizada em [199], os autores dos quais treinaram uma rede neural convolucional rasa e ampla com ELMo-embeddings [42] e obtiveram novas métricas de classificação de registro no conjunto de dados RuSentiment [142], superando todas as abordagens de rede neural anteriores. Como um primeiro passo nessa direção, os pesquisadores poderiam treinar e publicar taxas básicas de transferência de aprendizagem para diferentes conjuntos de textos em russo.
2.2. Análise de sentimento de textos multilíngues
A Rússia é um país multinacional e, portanto, multilíngue. Portanto, diferentes pessoas e grupos de pessoas podem expressar suas opiniões em diferentes idiomas. Os lingüistas na Rússia contam com mais de 150 línguas, começando com o russo, que é falado por 96,25% da população, e terminando com o negidal, que é falado por várias centenas de pessoas na região de Amur. Vários estudos analisaram textos em vários idiomas, permitindo aos autores cobrir uma gama mais ampla de fontes e comparar expressões de opinião sobre o mesmo tema em diferentes idiomas.
Para classificar as emoções em diferentes idiomas, alguns pesquisadores traduziram todos os textos para um idioma e realizaram uma análise de sentimento monolíngue (por exemplo, [72]). Outros desenvolveram modelos de classificação multilíngue (por exemplo, [79]). Como um desenvolvimento da última abordagem, os pesquisadores podem usar modelos de linguagem pré-treinados, por exemplo, Bidirectional Encoder Representations from Transformers [43] e Multilingual Universal Sentença Encoder [198].
2.3. Extração de textos de tópicos gerais
Na maioria dos estudos de modelagem de caso, os autores selecionaram apenas alguns tópicos para extração e análise futura. No entanto, esta abordagem não permite extrair tópicos relevantes de grandes conjuntos de textos, por exemplo, quando a proporção de texto relacionada aos tópicos de interesse é muito inferior a 1% [54]. Além disso, a modelagem de tópicos demonstra baixa precisão na análise de textos curtos, especialmente se for a fala do dia a dia [54]. A tarefa de extrair tópicos pode ser reduzida não apenas à modelagem de tópicos, mas também ao problema de classificação de texto, se um conjunto extenso de dados de treinamento sobre como extrair tópicos de assuntos gerais estiver disponível.
A criação de tal conjunto de dados parece ser um processo demorado e de uso intensivo de recursos no caso de uma abordagem básica com anotação com uma equipe linguística ou crowdsourcing. No entanto, algumas plataformas de mídia social fornecem aos usuários a capacidade de marcar suas postagens, como Reddit e Pikabu. Isso significa que os usuários de tais redes sociais assumem o processo de anotação; portanto, com verificação adicional, esses dados podem ser potencialmente usados para criar um conjunto de treinamento para extrair tópicos de assuntos gerais das mensagens.
2.4. Gostos e outros tipos de reação ao conteúdo como uma forma indireta de expressar emoções
Na maioria dos estudos, as expressões de opinião foram avaliadas apenas pelo conteúdo das publicações. No entanto, curtidas e outros tipos de reações às postagens podem ser uma fonte de emoções expressas pelos leitores. Portanto, essa informação pode ser levada em consideração ao monitorar o sentimento. No estudo [200], foi realizado um trabalho preliminar sobre o estudo da relação entre gostar de postar e emoções sobre a publicação: os pesquisadores estudaram o papel do conteúdo das publicações, a relação entre o autor da publicação e a personalidade do usuário. Com base em pesquisas on-line, os autores argumentam que as postagens com emoções positivas geralmente são curtidas automaticamente sem uma leitura cuidadosa. Também foi notado que a positividade das publicações se correlaciona com motivos relativos e literais.Além do simples botão Curtir, algumas plataformas de mídia social introduziram uma funcionalidade responsiva para permitir que os usuários mostrem facilmente sua reação emocional a uma mensagem. Por exemplo, o conjunto de reações do Facebook consiste em Curtir, Amor, Uau, Haha, Zangado e Triste.
Em seu estudo de estímulos emocionais no comportamento reacionário de usuários do Facebook que falam russo, Smolyarova et al. [201] mostram que a reação de Love é geralmente usada de uma maneira direta, tornando-se uma alternativa ao Like tradicional. Por outro lado, uma postagem que desencadeia uma reação Wow provavelmente será sinalizada com outras emoções também. Reações como Love, Haha e Wow tendem a desencorajar o desejo de interagir ainda mais com as postagens por meio de comentários ou de um botão de compartilhamento [202]. Assim, uma área de pesquisa potencialmente significativa é a relação entre a reação, o humor das pessoas e o humor da publicação, que pode ser usada no futuro para monitorar o humor.
2,5. Classificação contextual de emoções
A reação emocional do usuário no texto pode depender fortemente do contexto: o mesmo texto em um contexto pode expressar um tom positivo e, em outro, um tom negativo [203]. Portanto, ao analisar o tom das conversas, por exemplo, as respostas em comentários, é muito importante capturar o contexto da conversa, além das próprias reações emocionais. Os pesquisadores devem prestar atenção à classificação contextual das emoções quando analisam as conversas.
2.6. Análise de conteúdo de fontes menos pesquisadas
Uma parte significativa da pesquisa opera com dados do VKontakte, Twitter, LiveJournal e YouTube, embora existam outras redes sociais populares que podem ser usadas como fonte de dados, por exemplo, Odnoklassniki, Moi Mir e RuTube. Assim, os pesquisadores podem ficar atentos ao Odnoklassniki, por ser a segunda maior rede social russa, que é utilizada por 42% da população do país [98]. A plataforma é popular entre usuários com mais de 35 anos, então pode ser uma fonte útil de opiniões de gerações anteriores. Além disso, as estatísticas representativas da Odnoklassniki podem ser acessadas por meio do OK Data Science Lab, uma plataforma desenvolvida pela Odnoklassniki para pesquisa.
2.7. Análise automática de conteúdo de mídia social como alternativa às pesquisas tradicionais
Atualmente, os resultados da análise de textos online não podem ser considerados como uma alternativa completa às abordagens clássicas para avaliar opiniões com base em pesquisas de massa [204]. Para superar esse obstáculo, uma base teórica é necessária para generalizar os dados ao nível de grupos populacionais maiores [205]. A pesquisa de massa tradicional pressupõe a associação de opiniões com grupos sociodemográficos, e informações demográficas confiáveis geralmente não estão disponíveis nas redes sociais. Os pesquisadores podem usar informações de geolocalização, dados de perfil do usuário e sistemas de predição de sexo e idade [206] - [211] para comparar suas descobertas com as pesquisas de opinião tradicionais.
2.8. Monitorando o índice de sentimento do segmento de língua russa das redes sociais
Em um artigo inovador de 2010 [212], Mislov e outros investigaram a dinâmica do sentimento ao longo do dia, analisando mais de 300 milhões de mensagens do Twitter baseadas em localização dos Estados Unidos usando uma abordagem baseada em dicionário. Algumas tendências interessantes foram observadas, como o maior nível de felicidade no início da manhã e no fim da noite. Os fins de semana eram muito mais felizes do que os dias de semana. Esses padrões foram confirmados por um estudo sobre o humor dos brasileiros no Twitter [213], que utilizou uma classificação bayesiana ingênua de humor [30]. Dzogang também investigou os padrões circadianos nas mudanças de humor [214]. Se para muitas línguas tais estudos já foram realizados, os textos em russo até agora foram pouco estudados [93], [137]. Eles podem ser explorados de forma mais ampla e mais profunda em termos de quantidade de dados analisados,qualidade dos modelos de classificação de emoções e métodos de cálculo de índices sociais.
Além disso, alguns estudos foram dedicados ao desenvolvimento de sistemas para monitorar emoções em redes sociais de língua russa, mas os autores geralmente não relatam os resultados do monitoramento. Por exemplo, pesquisadores da ITMO University descreveram uma abordagem para avaliar o sentimento emocional da opinião pública [215], os autores de [216] consideraram o princípio geral de monitoramento de redes sociais usando análise inteligente de mensagens de texto, e no artigo [148], os autores descreveram o desenvolvimento de software para monitorar o sentimento público por meio Mensagens do Twitter em russo.
3. Conclusão
Como podemos ver, já existe uma boa base de pesquisa para a língua russa, cobrindo uma ampla gama de objetivos de pesquisa e fontes analisadas. No entanto, também há uma série de desafios e áreas promissoras que devem ser considerados ao conduzir novas pesquisas.
4. Fontes
Uma lista completa de fontes pode ser encontrada aqui .