一个基于Lucene的全文搜索引擎

本系统基于Lucene 4.6.0,使用庖丁解牛(Paoding Analyzer)作为中文切词器,使用Spring MVC作为Web框架。
本系统对src\webapps\resources\Doc目录中的Word文档进行索引,其中默认放置了30篇文档。

源代码下载:https://github.com/houseyoung/IR-Homework3
在线访问本系统:http://ir.houseyoung.cn (暂不能访问)

系统截图:
首页:
首页
搜索结果列表:
搜索结果列表
文档在线查看:
文档在线查看

代码功能简要说明:
IndexService:建立索引。系统启动时自动执行此方法。
SearchService:根据用户输入的关键词执行搜索。
WordToHtmlService:将Word文档的内容转换为符合HTML格式的内容。目前仅对文字进行了处理,表格与图片暂不支持。

本系统是东北师范大学信息与软件工程学院《信息检索》课程的大作业,因时间及能力所限,存在问题在所难免。各位在运行时遇到什么问题,或者对本系统有什么建议,可以在本篇博客下评论,笔者将会尽力进行解答。也欢迎各位来一起完善这个系统。

一个基于Lucene的全文搜索引擎》上有2条评论

    • 我没有写排序的方法,用的lucene默认的排序,应该是按文档的得分排序吧

发表评论

电子邮件地址不会被公开。 必填项已用*标注