Comparação de textos
Digamos que temos três textos: dois deles sobre cachorros e um sobre gatos. Como você os compara uns com os outros?
Podemos contar quantos cada palavra ocorre no texto, no nosso caso contaremos gatos e cachorros, e se houver mais cachorros do que gatos no texto, então podemos concluir que eles (textos) são sobre a mesma coisa.
Na verdade, nem sempre é esse o caso. Imagine uma situação em que há um texto muito longo sobre cães e mais palavras nele. Felizmente, você pode sair dessa situação comparando as distâncias do cosseno.
bag-of-words , , , «» «» . , , . , ? . bag-of-words , «» «» .
. , , . , «» «». – . python : pymorphy pymystem. , . .
. , , .
, . , «» — «» — «», , «» «», «».
Word2Vec
, . , Word2Vec. ? , . , , . Word2Vec :
, .. . , , . 10 . .
, , , IT, .. . ? () «». «» «» , , , , .
, pyLDAvis , .
, . , . . udpipe.
, , : « ». , , «».
, udpipe , , .
Apesar de todas as ferramentas terem sido consideradas com exemplos simples, a PNL tem uma ampla gama de tarefas a serem resolvidas: classificar solicitações de funcionários, avaliar avaliações de clientes, analisar mensagens de um chatbot. Assim, vários outros instrumentos apareceram em nossas mãos.