《信息检索》大作业1、2：建立索引、检索、查询扩展、系统评估

发表于2016年8月30日由houseyoung

源代码下载：https://github.com/houseyoung/IR-Homework1-2

作业一：索引的建立
1、切词及词频统计：利用已提供的海量智能分词软件(代码中使用的是庖丁解牛Paoding Analyzer)对文档进行切词处理，并进行词频统计，形成DocIndex文件，结构为：文档号、频率、词。
2、分配词权重：采用词频标准化tf_i=tf_i/Max(tf)和tf*idf两种方式分配词的权重。由DocIndex文件生成DocIndex(tf)和DocIndex(tf*idf)文件。注意阈值的确定，词的取舍。
3、形成倒置文档：将DocIndex(tf)和DocIndex(tf*idf)文件转换为DocInvert(tf)和DocInvert (tf*idf)文件。

作业二：检索及评估系统
1、Query处理(与文档处理采用相同方法：切词，选择关键词等)。
2、用VSM(向量空间模型)方法，计算一个查询与一个文档集合中各文档的相似度，并排序输出结果(对问题10和20输出详细结果，其他问题只记录文档排序即可)
3、应用查询扩展方法对Query处理后，对同一问题再次进行检索，并排序输出结果(对问题10和20输出详细结果，其他问题只记录文档排序即可)
4、应用MRR(Mean Reciprocal Rank)方法，计算系统的MRR值。

发表评论取消回复