使用NLTK进行文本数据的自动情感分析 通讯155:人工智能和新媒体朱准se教授家庭作业2018年五月 该项目使用自然语言工具包(NLTK)情感分析功能来分析四个csv数据集(亚马逊产品评论,啤酒评论,电影评论和雨伞评论)的文本情感。 每个数据集包含成对的评论内容列表和一个数字评分。 用户生成的评分与NLTK生成的分数之间的相关性绘制在matplotlib条形图中。 我还发现编写了代码来查找与正面和负面情绪得分唯一相关的单词。 亚马逊评论 一些与评论得到负面情感评分唯一相关的有趣单词:损坏,讨厌,不糟糕,混乱,失望,严重一些与获得积极情绪评分的评论有关的有趣单词:维生素,混合 啤酒评论 一些与评论得到负面情感评分唯一相关的有趣单词:恐怖,死亡,谋杀一些与获得好评的评论独特相关的有趣单词:颜色,炫酷,迪士尼,朱莉·安德鲁斯 我认为分析对这组数据的作用是独特的,因为评论是针对不同电影的
2022-02-06 20:21:42 3.19MB JupyterNotebook
1
python数据分析 tmdb电影数据分析 源码及数据
2022-02-06 11:02:46 8.91MB python 数据分析 数据挖掘 后端
1
脑电图分析 使用MNE和Networkx对静止状态eeg数据进行图形分析 清理静止状态数据,并使用相位滞后指数(PLI)创建连接矩阵。 然后,建立一个图,并为进行无偏组比较,导出一个非循环子图,该图连接了所有节点,从而使边缘权重最小(w = 1 / w)。 此子图称为最小生成树。 前处理 导入数据,然后以1-30Hz的频率对其进行过滤(mne滤波器已经使用了零相滤波器)。 设置平均参考。 在执行ICA之前,请检查并排除不良电极。 对原始数据进行首次视觉检查,排除包含明显伪像的段。 计算我将传递给ICA的拒绝阈值 使用Extended-infomax方法运行ICA 目视检查ICA组件,以检查是否有代表眼睛运动或眨眼的组件。 运行应使这些组件高亮的自动过程 申请ICA 创建时期并执行最后的目视检查以排除不良时期。 保存时代连通性矩阵 使用PLI方法计算连接矩阵。 使用这些值
2022-02-03 18:26:40 544KB Python
1
Canales_eLIFE_2021_WGCNA_GO WGCNA和基因本体分析
2022-01-29 16:23:37 28.47MB HTML
1
Poppr版本2 什么是poppr ? Poppr是一个R软件包,用于分析具有性和克隆繁殖混合模式的人群。 它围绕genind和genlight对象的框架构建,并提供以下实现: 在层次结构的多个级别中的任何一个级别上对人口进行克隆检查 方便的多基因座基因型计数和具有多个层次结构的种群子集 定义多基因座基因型 基因型多样性,均匀性,丰富性和稀疏性指标的计算 引导距离支持遗传距离的树状图的绘制 遗传距离的最小跨度网络图 关联指数的计算( ) 或者 ( ) 已安装R(≥2.15.1)的任何服务器上的批处理 微卫星(SSR)标记的Bruvo距离的计算(以C表示为速度) 从导入数据并导出到 2.0版的新功能: 基因组SNP数据处理 自定义多基因座基因型定义 通过遗传距离折叠多基因座谱系 计算网状最小跨度网络 计算跨snps的滑动窗口中的关联索引 MLG多样性统计的自举 和更多! 有关完整
1
Zomato餐厅数据分析和推荐系统 :fire: 语境 班加罗尔的饮食文化让我着迷。 班加罗尔(Bengaluru)遍布世界各地的餐厅。 从美国到日本,从俄罗斯到南极洲,您可以在这里找到所有类型的美食。 送货,外出就餐,酒吧,酒吧,饮料,自助餐,甜品,您自己定的名字,班加罗尔也有。 班加罗尔是美食家的最佳去处。 餐厅的数量每天都在增加。 目前拥有约12,000家餐厅。 拥有如此众多的餐厅。 这个行业还没有饱和。 新餐厅每天都在营业。 然而,与已建立的餐馆竞争已经变得困难。 继续对他们构成挑战的关键问题包括高昂的房地产成本,不断上涨的食品成本,缺乏优质的人力,分散的供应链和过度的许可。 该Zomato数据
1
sobol算法完成四个参数的参数敏感性分析,对于数学模型的优化有较大作用
1
arcgis api 3.x for js 实现地图最短路径分析,提供源码下载
2022-01-12 14:05:40 59.71MB 最短路径分析 arcgis gis webgis
预期寿命 过去已经对影响预期寿命的几个因素进行了研究。 以前从未考虑过使用某些功能根据国家状况(发展/发达,GDP,百分比支出),​​生活方式(BMI,酒精,教育,资源收入构成),疾病(艾滋病毒/艾滋病)预测所有国家/地区预期寿命的准确性艾滋病,白喉等) 数据集已从收集。 我已经在R上完成了这个项目,并且在Tableau上创建了不同类型的有意义的可视化。 清理数据,可视化数据,缩放比例的特征,进行统计分析,创建相关矩阵,检查变量之间如何正/负相关以及它们之间的相关性如何,为每个特征创建简单的(一个变量)回归模型并比较p值使用多变量线性回归来检查冗余预测变量,使用vif来量化共线性度,检查条件,这些清理后的数据集是否适合线性回归模型,生成多元回归模型,同时使用AIC和向后消除预测最准确模型的方法以及未来的预测方法-该项目的一部分
2022-01-11 20:27:46 354KB data-analysis tableau predictive-analytics R
1
亚马逊美食评论 Amazon Fine Food Reviews数据集包含568,454条亚马逊用户截至2012年10月的食品评论。 该分析的目的是建立一个预测模型,在此模型中,我们将能够预测推荐是肯定的还是否定的。 在此分析中,我们将不关注分数,而仅关注建议的积极/消极情绪。 涉及程序 该项目是关于文本数据使用的情感分析 nltk库,其中包括PorterStemmer()和word_tokenize(),可将非结构化文本数据更改为结构化文本 使用countvectorizer(将文本文档的集合转换为令牌计数矩阵),TfidfTransformer(以缩小在给定语料库中频繁出现的令牌的影响,因此,从经验上讲,其信息量少于一小部分的功能)来自sklearn库的训练语料库以进行特征提取 朴素的贝叶斯(MultinomialNB,BernoulliNB) 逻辑回归 使用roc曲线,confc
2022-01-11 17:59:05 101KB JupyterNotebook
1