In [6]:

import os
from whoosh.index import create_in, open_dir
from whoosh.fields import *
from whoosh.analysis import CharsetFilter, StemmingAnalyzer
from whoosh import fields
from whoosh.support.charset import accent_map
from IPython.core.display import display, HTML

O Whoosh é uma biblioteca em Python para indexação de textos.

In [8]:

my_analyzer = StemmingAnalyzer() | CharsetFilter(accent_map)
schema = Schema(content=TEXT(stored=True, analyzer=my_analyzer), tid=TEXT(stored=True))
if os.path.exists('indexdir'):
    ix = open_dir('indexdir')
else:
    os.mkdir('indexdir')
    ix = create_in("indexdir", schema)

In [10]:

import nltk
from nltk.corpus import machado

In [11]:

textos = [machado.raw(fid) for fid in machado.fileids()]

In [12]:

writer = ix.writer()
for tid in machado.fileids():
    writer.add_document(content=machado.raw(tid), tid=tid)
writer.commit()

In [13]:

from whoosh.qparser import QueryParser

In [18]:

qw = 'cafe com leite'
qp = QueryParser("content", ix.schema)
query = qp.parse(qw)
with ix.searcher() as searcher:
    results = searcher.search(query)
    for hit in results:
        tid = hit.fields()['tid']
        display(HTML(f'<b>{tid.split("/")[1]}: </b'+ hit.highlights("content")))

macn010.txt: com instância a vir a esta...a última gota de café, e fitei no meu amigo...quarto um escravo com um grande copo de leite tirado minutos antes

macn010.txt: café que tomava fazia uma...a última gota de café, e fitei no meu amigo...quarto um escravo com um grande copo de leite tirado minutos antes

macn032.txt: com familiaridade: Com que então tirou a sorte...levantando-se com a xícara de café na mão e indo assentar...eu mais me entendo com a desordem que com a ordem. Está excelente

macn083.txt: com o século. Traja asseadamente...que gostava muito de café com leite, que tinha vinte e um...Era fácil acabar com ela: era casar com o Bastinhos. Mas se o Bastinhos

macn083.txt: com desdém. Madrugada! era...que gostava muito de café com leite, que tinha vinte e um...Era fácil acabar com ela: era casar com o Bastinhos. Mas se o Bastinhos

macn071.txt: com os parentes do velho...os cuidados não só com boas palavras, mas também...de ferro. Acordava com a aurora e punha logo

macn071.txt: com o mencionado riso nos...branco, um branco de leite, puro e de encher o olho...entrou ali em luta com os parentes do velho

macn134.txt: com o quinino que a mulher...e somou lentamente, com cuidado para não errar...mentira, uma turra com o chefe da seção, coisa

macn134.txt: com um amigo no subúrbio...ama, tanto era o leite, e tamanha a robustez...Camilo foi ter com o ministro e disse: Veja

In [ ]: