财经新闻搜索引擎
从财经新闻网页数据开始,进行正文提取、中文分词、倒排索引构建、执行搜索和UI。
要求技术:MapReduce或Spark;执行搜索和UI采用Spark或Java
步骤:
(1)新闻正文提取,采用正则表达式提取指定网站栏目新闻的标题、正文和发表时间。
评分标准:一个栏目15分(多一个栏目+5分)(25分);使用通用算法提取不固定格式正文(不算很难)40分
(2)中文分词(worldcount),将正文进行中文分词,保存每个新闻的URL、标题、正文等数据
评分标准:分词并将正文存储到文件15分;存储到HBase(本地)+5分
(3)倒排索引构建,将词汇、次数和文章ID构建成倒排索引和对应的TF值
评分标准:计算倒排索引并存储到文本文件15分;存储到HBase(本地)+5分;计算TF值5分
(4)执行搜索,对用户搜索词进行分词,从倒排索引读取对应词汇,读取TF值,读取数据计算IDF值,根据IF×IDF值对词汇对应的文章进行排序,显示排序后的正文摘要
评分标准:25分,有交互式UI(如网页)+10分
(5)优化和执行
评分标准:shuffle优化并做对比测试+10分;第(2)