🤟🏼 🥕 🚞 Como pesquisar arquivos em 104 linhas de código em python 🧕🏻 🌈 👨‍🏫

Continuando com o tema de roteiros curtos e úteis, gostaria de dar a conhecer aos leitores a possibilidade de construir uma busca pelo conteúdo de arquivos e imagens em 104 linhas. Essa certamente não será uma solução incompreensível - mas funcionará para necessidades simples. Além disso, o artigo não vai inventar nada - todos os pacotes são de código aberto.

E sim - linhas em branco no código também são contadas. Uma pequena demonstração do trabalho é dada no final do artigo.

Precisamos do python3 , baixado pelo Tesseract 5, e do modelo distiluse-base-multilíngue-cased do pacote Sentença-Transformers . Quem já entende o que vai acontecer a seguir não vai se interessar.

Nesse ínterim, tudo o que precisamos será semelhante a:

Primeiras 18 linhas

import numpy as np
import os, sys, glob

os.environ['PATH'] += os.pathsep + os.path.join(os.getcwd(), 'Tesseract-OCR')
extensions = [
    '.xlsx', '.docx', '.pptx',
    '.pdf', '.txt', '.md', '.htm', 'html',
    '.jpg', '.jpeg', '.png', '.gif'
]

import warnings; warnings.filterwarnings('ignore')
import torch, textract, pdfplumber
from cleantext import clean
from razdel import sentenize
from sklearn.neighbors import NearestNeighbors
from sentence_transformers import SentenceTransformer
embedder = SentenceTransformer('./distillUSE')

Será necessário, como você pode ver, decentemente, e tudo parece estar pronto, mas não dá para ficar sem um arquivo. Em particular, textract (não da Amazon, que é pago), de alguma forma não funciona bem com pdfs russos, pois você pode usar o pdfplumber . Além disso, dividir o texto em frases é uma tarefa difícil e, neste caso, razdel faz um excelente trabalho com a língua russa .

Aqueles que nunca ouviram falar sobre scikit-learn - ~~eu invejo que, em~~ suma, o algoritmo NearestNeighbors se lembre dos vetores e dê os mais próximos. Em vez de scikit-learn, você pode usar faiss ou irritar ou até mesmo elasticsearch, por exemplo .

O principal é transformar o texto de (qualquer) arquivo em um vetor, que é o que eles fazem:

próximas 36 linhas de código

def processor(path, embedder):
    try:
        if path.lower().endswith('.pdf'):
            with pdfplumber.open(path) as pdf:
                if len(pdf.pages):
                    text = ' '.join([
                        page.extract_text() or '' for page in pdf.pages if page
                    ])
        elif path.lower().endswith('.md') or path.lower().endswith('.txt'):
            with open(path, 'r', encoding='UTF-8') as fd:
                text = fd.read()
        else:
            text = textract.process(path, language='rus+eng').decode('UTF-8')
        if path.lower()[-4:] in ['.jpg', 'jpeg', '.gif', '.png']:
            text = clean(
                text,
                fix_unicode=False, lang='ru', to_ascii=False, lower=False,
                no_line_breaks=True
            )
        else:
            text = clean(
                text,
                lang='ru', to_ascii=False, lower=False, no_line_breaks=True
            )
        sentences = list(map(lambda substring: substring.text, sentenize(text)))
    except Exception as exception:
        return None
    if not len(sentences):
        return None
    return {
        'filepath': [path] * len(sentences),
        'sentences': sentences,
        'vectors': [vector.astype(float).tolist() for vector in embedder.encode(
            sentences
        )]
    }

Bem, então resta uma questão de técnica - percorrer todos os arquivos, extrair os vetores e encontrar o mais próximo da consulta pela distância do cosseno.

Código restante

def indexer(files, embedder):
    for file in files:
        processed = processor(file, embedder)
        if processed is not None:
            yield processed

def counter(path):
    if not os.path.exists(path):
        return None
    for file in glob.iglob(path + '/**', recursive=True):
        extension = os.path.splitext(file)[1].lower()
        if extension in extensions:
            yield file

def search(engine, text, sentences, files):
    indices = engine.kneighbors(
        embedder.encode([text])[0].astype(float).reshape(1, -1),
        return_distance=True
    )

    distance = indices[0][0][0]
    position = indices[1][0][0]

    print(
        ' "%.3f' % (1 - distance / 2),
        ': "%s",  "%s"' % (sentences[position], files[position])
    )

print('  "%s"' % sys.argv[1])
paths = list(counter(sys.argv[1]))

print(' "%s"' % sys.argv[1])
db = list(indexer(paths, embedder))

sentences, files, vectors = [], [], []
for item in db:
    sentences += item['sentences']
    files += item['filepath']
    vectors += item['vectors']

engine = NearestNeighbors(n_neighbors=1, metric='cosine').fit(
    np.array(vectors).reshape(len(vectors), -1)
)

query = input(' : ')
while query:
    search(engine, query, sentences, files)
    query = input(' : ')

Você pode executar todo o código assim:

python3 app.py /path/to/your/files/

É assim com o código.

E aqui está a demonstração prometida.

Peguei duas notícias de "Lenta.ru", e coloquei uma em um arquivo gif através do notório paint, e a outra apenas em um arquivo de texto.

Arquivo First.gif

Segundo arquivo .txt

, . .

, - . , , , . . , .

, , , . . .

, - - .

, №71 , , , . 10 , . — .

E aqui está uma animação GIF de como funciona. Com a GPU, é claro, tudo funciona melhor.

Demonstração, melhor clicar na imagem

Obrigado por ler! Ainda espero que esse método seja útil para alguém.

Como pesquisar arquivos em 104 linhas de código em python

More articles: