财经新闻搜索引擎 从财经新闻网页数据开始,进行正文提取、中文分词、倒排索引构建、执行搜索和UI。 要求技术:MapReduce或Spark;执行搜索和UI采用Spark或Java 步骤: (1)新闻正文提取,采用正则表达式提取指定网站栏目新闻的标题、正文和发表时间。 评分标准:一个栏目15分(多一个栏目+5分)(25分);使用通用算法提取不固定格式正文(不算很难)40分 (2)中文分词(worldcount),将正文进行中文分词,保存每个新闻的URL、标题、正文等数据 评分标准:分词并将正文存储到文件15分;存储到HBase(本地)+5分 (3)倒排索引构建,将词汇、次数和文章ID构建成倒排索引和对应的TF值 评分标准:计算倒排索引并存储到文本文件15分;存储到HBase(本地)+5分;计算TF值5分 (4)执行搜索,对用户搜索词进行分词,从倒排索引读取对应词汇,读取TF值,读取数据计算IDF值,根据IF×IDF值对词汇对应的文章进行排序,显示排序后的正文摘要 评分标准:25分,有交互式UI(如网页)+10分 (5)优化和执行 评分标准:shuffle优化并做对比测试+10分;第(2)
2022-04-06 02:48:23 6.88MB 搜索引擎 spark 中文分词 大数据
上海文华财经资讯股份有限公司招股说明书.pdf
2022-04-06 02:22:38 6.28MB 招股说明书
会计从业资格考试财经法规支付结算法律制度.ppt
2022-04-06 01:02:11 181KB
面向财经新闻的文本挖掘系统设计与实现 面向财经新闻的文本挖掘系统设计与实现面向财经新闻的文本挖掘系统设计与实现面向财经新闻的文本挖掘系统设计与实现
2022-03-26 15:14:15 3.58MB 人工智能
1
通过本次对中央财经大学校网络安全设计,在不改变原有网络结构的基础上实现多种信息安全,保障中央财经大学校内部网络安全:实现对整个校园网病毒防范和查杀,有效防止病毒在校园网内的传播。保护脆弱的服务,通过过滤不安全的服务,防火墙可以极大地提高网络安全和减少子网中主机的风险。控制内部和外部用户对校内各种应用系统的访问,有效保护内部各种应用服务器,提供集中的统一安全管理,提供强大的安全日志记录和统计。
2022-03-20 12:02:19 36KB 安全
1
2021新一线城市官方名单(数据已结构化 - 2021.0527发布) 源数据地址:https://www.yicai.com/news/101063860.html 21年的之前忘记上传了,后面补上,大家如有需求后续可以再上传历年对比数据
1
江西财经大学《概率论与数理统计》课后习题解答
2022-02-28 22:02:53 3.1MB 概率论
关于全省启动2006年秋季东北财经大学网络教育.doc
2022-02-24 09:03:49 134KB 精品文档
财经专业英语教程(第四版)(宋德富)阅读材料参考译文分享.pdf
2022-02-21 19:09:51 248KB 网络资源
财经新闻写作课件借鉴.pdf
2022-02-21 19:09:50 363KB 网络资源