Muitas pessoas sabem que o ABBYY processa e extrai dados de vários documentos. Mas nossos produtos também têm outras possibilidades interessantes. Em particular, usando a solução ABBYY Intelligent Search, você pode pesquisar de forma rápida e conveniente informações significativas em documentos eletrônicos de sistemas corporativos. Isso já está sendo usado por grandes empresas russas, por exemplo, a NPO Energomash , fabricante de motores de foguete .
A prática de longo prazo mostra que o tempo que leva para trazer os motores espaciais para o mercado, desde o início do trabalho, é de 5 a 7 anos. Ao mesmo tempo, para manter a posição de liderança, é necessário reduzir o tempo de desenvolvimento e produção para 3 a 4 anos. Além disso, a intensificação da competição levou à necessidade de reduzir significativamente o custo dos motores fabricados em 30-50%.
Esses indicadores não podem ser alcançados sem a introdução de tecnologias digitais modernas. As empresas mais avançadas utilizam abordagens inovadoras não apenas em todas as fases da produção, mas também em todas as fases do ciclo de vida dos seus produtos. Quanto mais as empresas se tornam digitais, mais aguda se torna a pergunta: como usar o big data para obter o máximo benefício para si mesmas?
Mais de 90 anos de trabalho, a NPO Energomash acumulou um volume centenário de documentos (em papel e eletrônicos) com informações valiosas sobre o desenvolvimento de testadores e designers. A maioria dos documentos já está armazenada nos sistemas de informação (SI) da empresa. De acordo com pesquisa do IDC, em média, funcionários de grandes organizações usam de 5 a 6 ISs internos. Em média, cerca de 36% do tempo é gasto em busca de informações - em uma grande empresa, isso representa milhares de horas de trabalho por dia.
Hoje contaremos como ajudamos a NPO Energomash a criar um sistema corporativo de recuperação de informações inteligentes (KIIPS) baseado no ABBYY Intelligent Search - tão conveniente e rápido quanto os mecanismos de pesquisa populares.
O que Energomash faz e o que Gagarin tem a ver com isso
Desde o dia de sua fundação, em 15 de maio de 1929, a Energomash já fabricou mais de 12 mil motores para veículos lançadores não só na Rússia, mas também no exterior. Esses "motores" foram usados para lançar o primeiro satélite artificial da Terra, foi para o espaço "Vostok-1" com o primeiro cosmonauta Yuri Gagarin a bordo, voou no avião espacial "Buran" e os veículos de lançamento americanos Atlas e Antares ainda estão sendo lançados. Por exemplo, o foguete Atlas V de 26 de março de 2020, equipado com motores russos, colocou em órbita um sistema de comunicações por satélite estratégico militar dos EUA. No primeiro semestre de 2020, os motores desenvolvidos pela Energomash trabalharam com sucesso em 11 lançamentos espaciais, o que representa 24,4% de todos os lançamentos no mundo.
Hoje a Energomash faz parte da estatal Roscosmos e dirige a estrutura integrada de propulsão de foguetes, que reúne as principais empresas do setor.
Nos últimos anos, a empresa tem apresentado ativamente soluções de TI em larga escala que fazem uso extensivo de análise de dados, aprendizado de máquina e todos os recursos de tecnologias de processamento de linguagem natural. A empresa definiu uma meta estratégica de fabricação totalmente digital até 2021.
Por exemplo, no âmbito do projeto " Digital design and production technologies»Uma das principais tarefas foi a implementação de um sistema PLM (sistema automatizado de gestão do ciclo de vida do produto). Seu objetivo é garantir a criação de documentação de projeto eletrônico (ECD) e modelagem com base no funcionamento do motor e demais processos de trabalho nos departamentos de tecnologia e produção da NPO Energomash e a prontidão para troca de ECD entre as empresas do setor.
Por que foi necessário pesquisar o universo de Energomash
Para atingir o objetivo estratégico de criar produção digital, a empresa está realizando uma série de projetos baseados em trabalhos com grandes quantidades de dados. Um deles é um projeto para criar um sistema corporativo de recuperação inteligente de informações.
O objetivo do projeto é preservar, aumentar e colocar a serviço da produção digital o conhecimento e a competência da empresa, acumulados ao longo de décadas de trabalho.
No âmbito do projeto, foram resolvidas duas tarefas:
1). Torne mais fácil para designers e engenheiros encontrar informações úteis em documentos de anos anteriores.
Muitos empreendimentos foram criados na URSS, mas nem todos foram implantados, porque nem sempre os investimentos eram alocados para eles ou o nível de desenvolvimento tecnológico não permitia a conclusão do plano. Em nossa época, esses desenvolvimentos podem encontrar uma segunda vida. Para isso, a empresa pede a designers experientes que compartilhem seus trabalhos de pesquisa e desenhos, que ainda estão no papel. Isso ajudará a digitalizar dados valiosos, preservá-los por muitos anos e transferir conhecimento para a geração mais jovem de cientistas e engenheiros.
Claro, a busca de documentos em sistemas eletrônicos já existia na Energomash, mas não era fácil para os funcionários encontrarem as informações de que precisavam para trabalhar.
Abaixo do spoiler, contaremos com mais detalhes como esse processo foi organizado anteriormente.
7 . , - , , - – , , . , , :
, , , , . , , : . , .
:
. « » () , . , « », , , , , , . , , . - , «».
, , , , , .
- ;
- ;
- , , .
, , , , . , , : . , .
:
- . , , ;
- , , .
. « » () , . , « », , , , , , . , , . - , «».
, , , , , .
2). Simplifique e agilize a busca de dados para unidades de atendimento: contadores, advogados e outros especialistas que compõem, editam, coordenam documentos em sistemas contábeis e trocam informações.
A empresa queria que os funcionários pudessem coletar e analisar as informações financeiras, de manufatura e outras informações relevantes de que precisam para realizar seus trabalhos em sistemas corporativos distintos, simplesmente inserindo as consultas em uma caixa de pesquisa. Foi necessária a criação de um ponto único de acesso aos dados armazenados nos sistemas de informação da empresa, com a disponibilização de acessos delimitados à informação consoante a autoridade do utilizador em cada sistema.
Por que isso é importante? Em 7 anos, mais da metade de todos os dados do mundo serão armazenados em sistemas corporativos, segue-seRelatório de idade de dados da Seagate e IDC . Para ter sempre as informações necessárias em mãos, você precisa encontrá-las rapidamente. Assim, de acordo com um estudo da IDC e ABBYY "O Mercado de Inteligência Artificial na Rússia", representantes de TI (48%) e unidades de negócios (33%) veem grandes oportunidades no uso de IA para busca corporativa e classificação de documentos nos próximos dois anos.
Para lidar com essas tarefas, a empresa precisava de uma pesquisa ponta a ponta conveniente em vários IPs. A Energomash considerou vários mecanismos de pesquisa, mas no final decidiu tentar o ABBYY Intelligent Search. A escolha foi influenciada, em primeiro lugar, pela disponibilidade de tecnologias de processamento de linguagem natural que permitem encontrar documentos que são relevantes para as consultas de pesquisa por significado, e não apenas por palavras-chave. Em segundo lugar, a capacidade de diferenciar os direitos de acesso do usuário aos resultados da pesquisa. Contaremos mais sobre isso um pouco mais tarde, e agora - sobre como começamos.
A primeira "saída" para a pesquisa
A Energomash decidiu verificar o trabalho de busca inteligente em 3 mil documentos da base de dados de informações (BID) de trabalhos de pesquisa, desenho e cálculo.
Para isso, a ABBYY desenvolveu um protótipo de um conector para o BID, que vinculou o ABBYY Intelligent Search à base de documentos. Um conector é um programa java usado para carregar documentos em um índice. Como funciona?
1). Primeiro, construímos um índice de pesquisa de texto completo
Um índice de texto completo é, grosso modo, uma lista de todas as palavras em um documento e seus metadados (número do documento, título, data de criação). O índice de texto completo é criado com bastante rapidez e permite que você pesquise as informações de que precisa por meio de palavras-chave - aquelas que ocorrem no texto.

Para construir um índice de texto completo, você precisa de um conector. Ele conecta a solução de busca a um sistema de informação específico e coleta (“índices”) as características de cada documento, por exemplo:
- o nome do IP onde o arquivo está armazenado,
- a data da última modificação do documento,
- a versão do documento na fonte,
- formato do documento,
- os códigos das línguas em que o documento é redigido,
- caminho para o documento no IS,
- data da última indexação do documento
- e etc.
Essas características no futuro ajudarão não só a acelerar a busca por um documento, mas também a simplificar a lógica de trabalhar com eles para o conector. Em particular, o conector analisa diferentes versões do mesmo documento para colocar apenas a última no índice. O conector também recebe informações sobre documentos que foram removidos da fonte.
Um rastreador (robô de pesquisa) integrado ao ABBYY Intelligent Search ajuda a criar um índice de pesquisa. Ele pesquisa os conectores em intervalos regulares, verifica se novos documentos apareceram no IS, quais documentos foram excluídos, como os direitos de acesso aos documentos foram alterados. Assim, o índice é atualizado em uma determinada frequência.
Não apenas os documentos de texto são indexados, mas também os arquivos gráficos. Por exemplo, podem ser cópias digitalizadas de desenhos em JPEG ou PDF sem uma camada de texto. Ao trabalhar com imagens, a solução de pesquisa primeiro reconhece automaticamente o texto e o adiciona ao índice de pesquisa.
Além disso, o sistema pode lidar com arquivos ZIP, RAR, TAR - desde que não sejam protegidos por senha. Os arquivos são descompactados, as imagens deles são reconhecidas, o texto é indexado.


O índice de pesquisa contém um conjunto arbitrário de campos, que também podem ser usados para filtrar os resultados da pesquisa (autor do documento, data de criação, número do produto, etc.).
2). Em seguida, aplicamos tecnologias de processamento de linguagem natural
Em segundo plano, o índice de pesquisa é enriquecido com informações semânticas . Para isso, utilizamos a ontologia semântico-linguística que já possuímos - ou seja, descrições de objetos e fenômenos do mundo real. Já falamos sobre como criamos este modelo no Habré aqui e aqui .
Usando tecnologias de aprendizado de máquina e de processamento de linguagem natural, cada documento analisa a sintaxe das frases, morfologia e significados semânticos de literalmente cada palavra no texto. Esta informação complementa o índice de pesquisa e torna possível pesquisar não por palavras-chave, mas por sinônimos, hipônimose outras construções que transmitem o mesmo significado, mas em expressões diferentes. Assim, o mecanismo de busca busca com mais precisão as informações em fontes corporativas.


É muito conveniente se o nosso colega formulou uma consulta de pesquisa com suas próprias palavras e deseja encontrar documentos há 40 anos, onde, talvez, o assunto de que ele precisava fosse denominado por outros termos. Por exemplo, para a consulta "defeito de quadro", o sistema selecionará todas as expressões semânticas possíveis associadas a este termo. Os resultados podem incluir " deflexão ", " furo ", " torção " ou " fato de violação da documentação tecnológica do projeto ".
Aqui está outro exemplo:
Os resultados da pesquisa por “ flutuações de impulso ” também exibirão textos que contêm a frase “ variância de impulso ”.
As tecnologias de processamento de linguagem natural também ajudam o mecanismo de pesquisa a corrigir automaticamente os erros de ortografia no texto da consulta. Por exemplo, o sistema compreenderá que existem erros na palavra "rolamento" e irá imediatamente procurar documentos que mencionem "rolamento".
Resultados do primeiro lançamento
Para avaliar o trabalho de um mecanismo de pesquisa inteligente, os especialistas da Energomash realizaram cerca de 30 consultas a documentos do BID usando o mecanismo de pesquisa integrado no BID e usando o ABBYY Intelligent Search . Em seguida, eles compararam os resultados da pesquisa: quais documentos foram encontrados por ambos os sistemas, quais frases foram destacadas em snippets. Como resultado, a pesquisa embutida no BID não retornou resultados para algumas consultas, uma vez que é capaz de detectar apenas palavras-chave, não palavras relacionadas. O ABBYY Intelligent Search retornou documentos relevantes para todas as consultas.
Quanto à velocidade, atendendo aos requisitos da plataforma de hardwarea resposta da pesquisa não ultrapassou uma fração de segundo, como nos mecanismos de pesquisa populares. As consultas mais complexas demoravam no máximo 3 segundos.
Após um projeto piloto bem-sucedido, a Energomash decidiu usar a solução ABBYY Intelligent Search no coração do Corporate Intelligent Information Search System.
Vamos mais longe
A Energomash conectou 7 fontes corporativas à pesquisa: sistema de gerenciamento de documentos eletrônicos LanDocs, armazenamento de arquivos, BID, sistema de suporte de ciclo de vida de produtos TeamCenter, Galaxy ERP e sistema de gerenciamento de recursos AMM, sistema de informações de gerenciamento de projetos. Um índice separado foi criado para cada sistema de informação. Isso torna o mecanismo de busca flexível na administração e possibilita reconstruir o índice para cada sistema separadamente, estabelecendo novas condições. O acesso ao Sistema de Busca Corporativa é organizado por meio do portal interno da empresa na página principal. O projeto foi implementado em conjunto com um parceiro, LANIT , o maior grupo russo diversificado de empresas de TI.
Os principais módulos do sistema de busca corporativa:
- página principal de consultas de pesquisa e resultados de pesquisa;
- painel de administração (configuração de índices, filtros, metadados para cada sistema de informação);
- estatística da quantidade de documentos (mostra a quantidade de documentos do índice para cada sistema de informação do período).
O sistema de busca corporativa entrou em operação comercial desde 1º de julho de 2020. Na época do lançamento, 500 mil documentos estavam indexados. A previsão é que até o final do ano, com o uso ativo do sistema e a conexão de novas fontes de informação, o número de documentos do índice chegue a mais de 1 milhão.
Como garantir a segurança
Como qualquer grande empresa, a NPO Energomash possui documentos que não devem ser acessados por todos os funcionários. O principal requisito de segurança ao lançar o projeto era fornecer acesso aos documentos de acordo com o modelo de cada sistema de informação. Para isso foi feito:
1). Armazenamento local de informações
A solução de pesquisa ABBYY é implantada em um servidor separado no circuito interno da NPO Energomash. Todos os índices de pesquisa e seus backups em caso de perda e suas configurações são armazenados lá.
2). Modelo de papel do sistema de informação
Por segurança, é organizada a diferenciação dos direitos de acesso do usuário aos resultados da pesquisa para cada sistema de informação. Todos os sistemas corporativos conectados ao ABBYY Intelligent Search oferecem suporte à autorização de domínio. O usuário faz login no sistema com uma conta de domínio, executa uma solicitação e vê o documento nos resultados da pesquisa, levando em consideração as configurações de visualização do documento para cada sistema de informação e o nível de acesso feito diretamente no próprio sistema de pesquisa corporativo, e levando em consideração o acesso ao documento no próprio sistema de informação de origem ... Se o usuário tiver direitos para trabalhar com o documento no sistema de origem, a transição para o documento original pode ser feita diretamente do sistema de busca corporativo clicando no link.
Planos para o futuro
Segundo a ideia da Energomash, a recuperação inteligente da informação ajudará a simplificar e agilizar os processos de negócio da empresa, por exemplo, acelerar indiretamente a entrada de novos produtos no mercado, melhorar a sua qualidade e reduzir o custo. Idéias e projetos que foram preservados em documentos antigos podem ser usados em desenvolvimentos modernos da empresa. Por exemplo, crie algo completamente novo com base em desenvolvimentos e fique à frente dos concorrentes no mercado global.
Vamos mencionar também nossos planos para o futuro:
- Futuramente, pretende-se conectar as fontes de informação de outras empresas que fazem parte da estrutura da Energomash ao sistema de busca corporativa. Nesse caso, o índice de pesquisa pode se expandir para 2 milhões de documentos.
- , , – . , - . , , : , - , . , , . , , .
- A Energomash também planeja explorar a possibilidade de construir relatórios analíticos complexos usando a função de pesquisa.
Na sua opinião, que outras tarefas você pode resolver com a ajuda da busca corporativa?