1 引言 1
1.1 研究背景及意义 1
1.2 本课题主要工作 1
2 数据提取技术 1
2.1 Microsoft Documents内容提取 2
2.2 PDF文档内容提取 3
2.3 网页数据提取技术 4
3 全文索引与搜索技术 6
3.1 全文检索 6
3.2 Lucene全文检索类库 6
3.3 中文分词 7
3.4 IKAnalyzer中文分词类库 7
3.5 索引与搜索核心算法 7
4 数据库连接技术 8
4.1 JDBC 8
4.2 本实验对数据库连接的封装 9
5 实验环境 9
6 本地文件全文搜索实验方案 10
6.1 系统简介 10
6.2 实现方案介绍 11
6.3 工程模块各类关系介绍 12
6.4 程序运行界面 13
7 网络数据全文搜索实验方案 13
7.1 系统简介 13
7.2 校内公文通检索 14
7.2.1 系统简介 14
7.2.2 实现方案介绍 14
7.2.3 工程模块各类关系介绍 15
7.2.4 程序运行界面截图 16
7.3 腾讯微博相关数据检索 17
7.3.1 系统简介 17
7.3.2 实现方案介绍 17
7.3.3 工程模块各类的关系介绍 20
7.3.4 工程模块运行界面 22
7.4 人人网日志相关信息检索 23
7.4.1 系统简介 23
7.4.2 实现方案介绍 23
7.4.3 工程模块各类关系介绍 24
7.4.4 工程模块运行界面截图 25
8 结束语 26
参考文献 27
致谢 28
Abstract(Key words) 29