根据传入的股票代码到东方财富网旗下的股吧对应的某股票分论坛爬取当天的用户评论信息,并将爬取的数据存储到MySQL中,之后再将数据进行统计并计算出该股票当天的市场

上传者: 44510615 | 上传时间: 2021-07-08 15:02:47 | 文件大小: 76KB | 文件类型: ZIP
第三方库:snownlp、tushare、pandas、numpy、matplotlib getData:从东方财富网旗下的股吧论坛爬取数据 SQL:用到的数据库操作函数 quantilizeSentiment:量化情绪指数,生成excel文件便于后面进行情绪指数和股票价格涨幅相关度的量化分析(股票价格历史数据来自tusharepro网站,可以免费获取) result:传入某只股票代码,返回情绪指数结果(主要关注此文件即可,其他爬虫分析之类的我后面放到云上,爬取的数据都放入云数据库中) analyze:进行情绪指数和股票价格涨幅相关度分析、数据可视化 爬取后的数据存储在云端数据库中: db = pymysql.connect(host="116.62.46.214",user="dfcf",password="iJHPFZnRjXacNi6p",db="dfcf",port=3306) 接口说明(重点!!!): 函数: def data(share_code):#计算情绪指数 传参:share_code 股票代码(例如:zssh000001)上证指数 返回参数:result 情绪指数 例如: if __name__ == '__main__': result=data('zssh000001') #传入股票代码参数 print(result) #打印情绪指数结果 实现功能:根据传入的股票代码到东方财富网旗下的股吧对应的某股票分论坛爬取当天的用户评论信息,并将爬取的数据存储到MySQL中,之后再将数据进行统计并计算出该股票当天的市场情感趋势。 执行流程 1、输入股票代码 2、清空数据库上一天的评论信息 3、使用爬虫爬取当天东方财富网股吧论坛中该股票的股民评论信息并进行数据清洗过滤,筛选出有效信息,存入MySQL数据库 4、使用金融情感计算模型进行文本数据分析 5、得出该股票当日的情绪指数 6、返回情绪指数值 计算情绪指数具体算法实现 借助自然语言处理中的情感分类技术。按照正常的处理流程,需要搭建模型、准备语料库、训练模型、测试模型然后得到一个情感分类的模型。但这里,时间有限,所以直接使用现有的模型。snownlp是一个中文的开源的自然语言处理的Python库,可以进行分词、情感分类等。在本项目中可以直接使用它来量化出某一日市场投资者的整体情绪。量化的方法有许多种,可以将某一日所有的评论情绪得分得分相加再求评价,也可以求某一日情绪得分大于0.5的评论所占的比例。 项目所采用的方法: 将情绪得分>0.6的评论当作积极评论,小于0.4的评论当作消极评论。 设置变量neg和pos,存储某一日市场的积极情绪因子和消极情绪因子。关于neg和pos的计算方法,以neg为例: 初始化为0,若某一日的某一评论comment的情绪得分<0.4 neg=neg+1+log(该条评论的点赞数+该条评论作者的粉丝数+1,2),其中log(x,2)表示以2为低的x的对数。考虑该条评论的点赞数和该条评论作者的粉丝数是因为考虑到不同的评论的质量不同。取对数是为了让数据更加平滑,防止极值过大。+1是为了防止该条评论的点赞数和该条评论作者的粉丝数都为0。 计算某一日市场的总体情绪得分score。设计的模型是: score=log((pos/(pos+neg+0.0001)-0.5)*(该日评论总数+1)) (pos/(pos+neg+0.0001)-0.5)的意思是计算市场的情绪倾向,**大于0表明市场积极情绪情绪较强,越接近0.5越强。小于0反之。**后面的(该日评论总数+1),是因为某一日投资者的评论越多,代表市场投资者情绪的波动越大。

文件下载

资源详情

[{"title":"( 19 个子文件 76KB ) 根据传入的股票代码到东方财富网旗下的股吧对应的某股票分论坛爬取当天的用户评论信息,并将爬取的数据存储到MySQL中,之后再将数据进行统计并计算出该股票当天的市场","children":[{"title":"financial-text-analysis","children":[{"title":"requirements.txt <span style='color:#111;'> 1.81KB </span>","children":null,"spread":false},{"title":"SQL.py <span style='color:#111;'> 2.06KB </span>","children":null,"spread":false},{"title":"result.py <span style='color:#111;'> 2.03KB </span>","children":null,"spread":false},{"title":"getData.py <span style='color:#111;'> 4.30KB </span>","children":null,"spread":false},{"title":"analyze.py <span style='color:#111;'> 952B </span>","children":null,"spread":false},{"title":"score.xlsx <span style='color:#111;'> 5.02KB </span>","children":null,"spread":false},{"title":"README.md <span style='color:#111;'> 3.97KB </span>","children":null,"spread":false},{"title":".idea","children":[{"title":"misc.xml <span style='color:#111;'> 288B </span>","children":null,"spread":false},{"title":"workspace.xml <span style='color:#111;'> 15.20KB </span>","children":null,"spread":false},{"title":"vcs.xml <span style='color:#111;'> 180B </span>","children":null,"spread":false},{"title":"demo.iml <span style='color:#111;'> 486B </span>","children":null,"spread":false},{"title":"modules.xml <span style='color:#111;'> 260B </span>","children":null,"spread":false}],"spread":true},{"title":"__pycache__","children":[{"title":"SQL.cpython-37.pyc <span style='color:#111;'> 1.99KB </span>","children":null,"spread":false},{"title":"getData.cpython-38.pyc <span style='color:#111;'> 2.97KB </span>","children":null,"spread":false},{"title":"quantilizeSentiments.cpython-37.pyc <span style='color:#111;'> 2.09KB </span>","children":null,"spread":false},{"title":"SQL.cpython-38.pyc <span style='color:#111;'> 1.98KB </span>","children":null,"spread":false}],"spread":true},{"title":"share.xlsx <span style='color:#111;'> 48.69KB </span>","children":null,"spread":false},{"title":"quantilizeSentiments.py <span style='color:#111;'> 3.42KB </span>","children":null,"spread":false},{"title":"data.xlsx <span style='color:#111;'> 4.91KB </span>","children":null,"spread":false}],"spread":false}],"spread":true}]

评论信息

  • weixin_43982750 :
    用户下载后在一定时间内未进行评价,系统默认好评。
    2021-11-07
  • weixin_57704208 :
    用户下载后在一定时间内未进行评价,系统默认好评。
    2021-10-08
  • weixin_45663087 :
    用户下载后在一定时间内未进行评价,系统默认好评。
    2021-10-02
  • m0_57670207 :
    用户下载后在一定时间内未进行评价,系统默认好评。
    2021-09-30
  • fwz15922514984 :
    用户下载后在一定时间内未进行评价,系统默认好评。
    2021-07-16

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明