上传者: 38656989
|
上传时间: 2022-03-28 15:37:54
|
文件大小: 8.98MB
|
文件类型: -
东方财富的java笔试题STOCK_PRICE_FINBERT
以guba的评论为初始语料,利用Finbert模型分析中文评论的极性,预测股价上涨。
项目性质
该项目主要由爬虫、Finbert模型和假设检验组成。
爬虫技术使用Xpath和Json技术在东方财富网的股票吧论坛上爬取了20W的评论。
Finbert
模型支持逐层解冻和梯度累积。
同时,每个epoch对数据集进行随机分割,不仅增加了模型训练的随机性,降低了过拟合的风险,而且可以在一定程度上缓解小样本的问题。
最后封装了bert模型,方便以后的模型扩展,给Finbert赋予了Sklearn接口。
假设检验用于评估一定时期内极性与股票收益的相关程度。
代码的使用
单击下面的链接下载预训练的
bert
模型并将其放置在
/models/language_model/
中。
待解决的问题
社会评论话题分散,大量脏数据难以清理,严重影响模型性能。