CNN-文本分类-keras 它是中作为功​​能api的简化实现 要求 训练 运行以下命令,如果要更改它将运行100个纪元,只需打开 python model.py 对于新数据 您必须重建词汇表然后进行培训。 引文 @misc{bhaveshoswal, author = {Bhavesh Vinod Oswal}, title = {CNN-text-classification-keras}, year = {2016}, publisher = {GitHub}, journal = {GitHub repository}, howpublished =
2021-11-16 20:32:13 481KB nlp text-mining theano deep-learning
1
剑桥大学出版社 The Text Mining Handbook - Advanced Approaches in Analyzing Ustructured Data (2007)
2021-11-12 18:05:03 5.4MB 文本数据挖掘
1
上市公司新闻文本分析与分类预测 简介 上市公司新闻文本分析与分类预测的基本步骤如下: 从新浪财经、每经网、金融界、中国证券网、证券时报网上,爬取上市公司(个股)的历史新闻文本数据(包括时间、网址、标题、正文) 从Tushare上获取沪深股票日线数据(开、高、低、收、成交量和持仓量)和基本信息(包括股票代码、股票名称、所属行业、所属地区、PE值、总资产、流动资产、固定资产、留存资产等) 对抓取的新闻文本按照,去停用词、加载新词、分词的顺序进行处理 利用前两步中所获取的股票名称和分词后的结果,抽取出每条新闻里所包含的(0支、1支或多支)股票名称,并将所对应的所有股票代码,组合成与该条新闻相关的股票代码列表,并在历史数据表中增加一列相关股票代码数据 从历史新闻数据库中抽取与某支股票相关的所有新闻文本,利用该支股票的日线数据(比如某一天发布的消息,在设定N天后如果价格上涨则认为是利好消息,反之则是
2021-10-27 10:54:26 5.39MB machine-learning text-mining webcrawling Python
1
耙子 RAKE是快速自动关键字提取算法的缩写,它是一种与域无关的关键字提取算法,它通过分析单词出现的频率及其与文本中其他单词的共现程度来尝试确定文本主体中的关键短语。 建立 使用点子 pip install rake-nltk 直接从存储库 git clone https://github.com/csurfer/rake-nltk.git python rake-nltk/setup.py install 快速开始 from rake_nltk import Rake # Uses stopwords for english from NLTK, and all puntuation characters by # default r = Rake () # Extraction given the text. r . extract_keywords_from_text ( ) # Extraction given the list of strings where each string is a sentence. r . extrac
2021-10-24 19:17:18 236KB python text-mining algorithm nltk
1
北京大学计算机科学技术研究所文本挖掘研究生课程,包含17个子文件,有特征提取、检索、分类、聚类、TDT、过滤、关联等
2021-10-01 23:09:33 37.06MB 文本挖掘
1
leetcode 锈DotA 2 中的文本分析:通过跨团队聊天预测胜利 斯里加内什·戈帕尔、里斯·布拉姆、贾里德·罗伯逊、韦恩·吉 允许匿名使用。 抽象的 DotA 2 是一款在线 MOBA 视频游戏,让两支由五名玩家组成的团队在基于策略的争吵中相互对抗以摧毁另一个基地。 我们从开源 DotA 2 数据收集平台 OpenDota API () 收集了大约 31,000 场 DotA 2 比赛的数据。 整理匹配后,我们将快速聊天 ping 和预设短语转换为与常规聊天的格式保持一致。 我们使用空格作为我们唯一的分隔符,从这个字符串化的游戏聊天中创建了单个字数的数据框,将每个游戏分成 2 行以区分输赢。 有了这个数据框,我们运行了几个分类模型,试图根据游戏聊天来预测一个团队是否会获胜。 我们的峰值分类率来自我们的随机森林分类器模型,正确预测结果的概率为 61.48%。 这可能看起来很低,但这比预期的要好,因为游戏是通过匹配来平衡技能和行为得分的,因此克服标准化因素非常好。 一、简介 1.1 动机 已经有许多研究和研究项目试图基于统计来预测游戏结果,这不是一个陌生的概念。 然而,这些项目已经植
2021-09-01 14:18:00 1.31GB 系统开源
1
自动短语:从大量文本语料库中自动进行短语挖掘 刊物 如果您使用的是我们的工具,请引用以下两篇论文。 谢谢! 尚静波,刘加禄,姜萌,任翔,Clare R Voss,韩佳玮,“”,被IEEE Transactions on Knowledge and Data Engineering,2018年2月接受。 刘加鲁*,尚静波*,王驰,任翔和韩佳伟,“”,2015年ACM SIGMOD国际数据管理大会(SIGMOD'15),澳大利亚墨尔本,2015年5月。(*同样贡献, ) 近期变动 2020.06.14 用git master更新docker镜像 2018.03.04 修复了预处理和后处理过程中的一些错误,即Tokeninzer.java 。 以前,当语料库包含/之类的字符时,结果可能是错误的,或者可能发生错误。 当短语分段提供新文本时,对于知识库( wiki_quality.txt
2021-06-15 18:46:59 61.98MB text-mining automatic lexicon multi-language
1
OReilly.Text.Mining.with.R.A.Tidy.Approach 一本关于用R语言做文本分析的书
2021-06-07 04:29:27 9.64MB R语言
1
rplos:PLoS Journals API的R客户端
2021-02-05 15:10:14 2.32MB metadata pdf text-mining r
1
文本分析和R,挺好用的书籍。2016年版本。文本分析和R,挺好用的书籍。2016年版本。文本分析和R,挺好用的书籍。2016年版本。
2019-12-21 19:39:51 557KB text mining with R
1