Determine o idioma do texto. Caso complexo



Fonte da imagem: AnnaElli



O sistema Antiplagiat trabalha com textos em diferentes idiomas. A maioria dos artigos submetidos para revisão são escritos em russo, inglês ou cazaque. Agora, o índice Antiplagiat contém documentos em mais de 50 idiomas.



Quinze deles contam com suporte total em todas as etapas do processamento de documentos. Em um futuro próximo, estamos planejando expandir seriamente essa lista. Nossos pesquisadores incansáveis ​​aprendem a traduzir até mesmo em línguas fantásticas . Os idiomas do texto são importantes em vários estágios do processamento de documentos.



Você precisa saber o idioma para as seguintes operações:



  • dividir o texto em palavras;
  • pesquisa e correções para soluções técnicas;
  • mesclar hifenização;
  • tratamento de apóstrofos e outros sinais de pontuação;
  • cálculo de estatísticas de texto;
  • pesquisar empréstimos.


, . , , «». . , – .





, NTextCat / CLD3 /CLD2. CLD2 :



  • (~200 /c);
  • ;
  • ( );
  • ; , , , ;
  • C# ;
  • ( 80).




, , .





, , . . , :



  • / (, , ) “” ;
  • ;
  • , , …;
  • — , , .


CLD2





, – . , , , . . , : , .



, CLD2, . CLD2, .





: ( ).



1: CLD2.



2: , 4.



3: CLD2.



4: .



: , , . , , , « ».



, ( 2)



, . 1-2 (CLD2 ). , . , , , , , - CLD2.



… ( 3)



3.0: , , , .



3.1:



:



  1. , ( , .. ), , .
  2. CLD2 .


3.2: , . , , , .

3.3: . CLD2 .





( 4)



, , , . . , , - :



  1. , ;
  2. , ;
  3. .


( ). -. . , , . , . : « «-27».» 4 : «», «"», «», «-27".».





, , , . . , «» , . , 1-2 , . . , . , , . — , , , , : .



, .





, , . . , , , .



- . , , , . — , . . ( 4 ) , , .



, , - . , .





. CLD2:





, . — . — , , .



, CLD2.



, , .





, .





, «» «» , «» — «» – , «Jim» — «him» – , «» , , . CLD2 , .



:





«» . , ( CLD2) , , .





CLD2 , . . . , — .





?



, , . : , , , , . ( !). , «»: , . , , . ( ). , , . , .





– . – . – . .



, . -, CLD2 , 5. -, , . . , .



, , ...




All Articles