Todos os exercícios requerem uma implementação funcional do problema, no corpo do notebook. Para cada exercício consultas de teste devem ser propostas para demonstrar que a implementação atende aos requisitos do exercício. As resposta devem ser enviadas como um notebook (.ipynb) para o professor.
Com base na metodologia apresentada na Prática 2, usando o corpus de Machado, Construa vetorizações, binárias, por frequência e por tf-idf. Compare a ordenação dos resultados para uma consulta qualquer, com pelo menos 3 palavras. Para a ordenação dos resultados, use o cosseno entre os vetores da consulta e dos documentos.
Construa uma matriz de similaridade (cossenos entre vetores de frequência) entre todos os textos de machado. Construa um histograma com os valores de similaridade, excluindo os 0s e 1s. Interprete.
Instale o Gensim, se ainda não o tiver. Seguindo o início deste tutorial: https://radimrehurek.com/gensim/tut2.html, construa um corpus usando as classes do Gensim, mas com os textos de Machado.
Ainda seguindo o tutorial citado no exercício anterior, ajuste um modelo LSI para os documentos de machado. Interprete os resultados.