Vamos partir da Prática 3 de modelagem de assuntos. Vamos usar a técnica de LSI para definir um conjunto de documentos relevantes.
A partir de um corpus à sua escolha, estime um modelo de assuntos baseado no Modelo LSI. Uma vez calculado o modelo, defina um conjunto de documentos relevantes (${\cal R}$) para um assunto, como os $n$ documentos que contiverem em sua representação LSI, os maiores coeficientes para o assunto escolhido. Construa uma consulta $q$, com as dez palavras mais importantes do assunto escolhido.
Reutilizando os índices invertidos construídos em exercícios anteriores(Booleano, e TFIDF), calcule a precisão e revocação com a consulta $q$ e o conjunto relevante ${\cal R}$ definidos no exercício anterior.
Usando as definições de probabilidade de relevância apresentadas no capítulo 11 do Livro, construa uma função de recuperação probabilística usando o log da razão de Odds como RSV (retrieval status value). Calcule revocação e precisão para consulta $q$ e conjunto relevante ${\cal R}$. Compare a probabilidade $p_t=P(x_t=1|R=1,q)$, com a o rankeamento de importância das palavras que compõem o assunto escolhido.
Repita o exercício 3 agora usando o modelo Okapi BM25 para o rankeamento. Calcule precisão e revocação.