Por que Ă© difĂcil pesquisar documentos muito curtos usando a pesquisa de texto completo normal e o que fazer se quiser.

Introdução
Todos nĂłs somos constantemente confrontados com a chamada pesquisa de texto completo - localizar documentos por uma frase de pesquisa. O exemplo mais famoso Ă© a pesquisa do Google.
. , , Elasticsearch. .
DD Planet B2B- Elasticsearch. ( ), .
, Elasticsearch, â , , . .
:
T0=" »",
T1=" ",
T2=" ",
:
"": {0, 1}
"": {0}
"": {1, 2}
"": {2}
â , . , . , , « ». «» {2}, «» â {0}. , . , {0, 2} c œ. , , TF-IDF, .
, , , -, :
- .
: « » « » « » , , « » « », « ». , .
. : , . , , TF-IDF, . - .
â , , « 4», «4», « », « 4» . .
â Elasticsearch . , , .
- .
, . , « » « Windows» «» .
NLP
NLP . NLP (Natural Language Processing) â , .
NLP - , - . , .
«»
NLP â Paraphrase Identification â (, ) , ( ). : « 17:00» « ». ? , .
. . DeepPavlov.ai [1], , . , .
. ( ), . .. -.
, DeepPavlov, â , .
,
, . ? , , Elasticsearch . .
: , . .
, : â , , :
- , .
- â , , .
? (Nearest neighbor search) â . vantage-point tree, [2]. , , , , Kd-. , .
Vantage-point tree
, vantage-point tree [3]. ball-tree, . . , . (vantage-point) ( ).

, ( vantage-point), . â . . , S , . , .
, K ( ). , (, ). â . , .

, «» . . «» ? , ( X ), . , «» .

K , , «» . .
vantage-point tree :
â , . , , . cosine Doc2Vec â .
Δ â .
. ? , , , float32. - . , , .
. . ,
x=" ", y=" ", z=" "
, - . , Doc2Vec â .
, , â , , . , : [2]. â , .
. ( ). , , ( ). , . «» .

( ), . .

. ? , . : , ? vantage-point tree , â vantage-point.

, [2], . , . .
« ». , . , .
. , . GitHub pip install nlp-text-search
.
[1] http://docs.deeppavlov.ai/en/master/.
[2] Yianilos (1993). Data structures and algorithms for nearest neighbor search in general metric spaces. Fourth annual ACM-SIAM symposium on Discrete algorithms. Society for Industrial and Applied Mathematics Philadelphia, PA, USA. pp. 311â321. pny93. http://web.cs.iastate.edu/~honavar/nndatastructures.pdf .
[3] http://stevehanov.ca/blog/?id=130