使用Python进行文本分析-第二版 自然语言处理从业者指南 文本分析有时会由于文本数据的非结构化和嘈杂的性质以及大量可用信息而变得不堪重负,令人沮丧。 “使用Python进行文本分析”是一本书,其中包含674页有用的信息,这些信息基于技术,算法,经验以及随着时间的推移在分析文本数据时吸取的各种经验教训。 该存储库包含本书中使用的数据集和代码。 我还将不时在此处添加各种笔记本和奖励内容。 继续看这个空间! 拿书 关于这本书 利用Python中的自然语言处理(NLP),并学习如何设置自己的健壮环境来执行文本分析。 第二版经过了重大修改,并根据NLP的最新趋势介绍了一些重大更改和新主题。 您将
1
K均值的时间复杂度为NKTD,其中,N代表样本个数,K代表k值,即聚类中心点个数,T代表循环次数,D代表样本数据的维度。 本算法的改进主要在以下方面: 一, 初始聚类中心点,传统的初始中心点是随机选择,由于K均值算法受初始中心点影响较大,为获得更好的效果,在本方法中,先将数据采用层次聚类的方法预处理,得到的k个中心点作为K均值算法的中心点。 二, 传统的聚类中心点更新是在结束一次循环后,本方法的聚类中心采用实时更新策略,即每次将一个模式归于一个新的聚类中心时,即立刻更新新的所属中心和原属聚类中心的中心值,增强算法的收敛性。 三, 为达到类内方差最小化,类类方差最大化这一原则,考虑到往往设定的K值不一定能很好实现聚类效果,故将以往的固定聚类中心改为一浮动区间。原有K为最小聚类中心个数,另设一聚类中心个数上限maxK。其具体实现如下: 1) 当一待聚类的模式得到其最近中心时,计算该聚类中心类内方差和将此模式归于该中心之后的类内方差,如果两者差别大于某设定阈值,则以该模式数据为基础,得到一新的聚类中心。 2) 当当前聚类中心个数等于设定的最大聚类中心时,合并最相邻的两个聚类。为使得到的聚类效果更为均衡,应该优先合并维度较小的聚类类别。
2022-12-19 08:49:27 1.85MB 层次聚类 K均值 不定K
1
中科院仪器设备共享管理平台(以下简称为SAMP)系统有效解决了各科研单位间仪器设备管理封闭、共享困难和运行效率低的棘手问题.同时,可以及时了解各类仪器的使用情况、共享情况,为各级业务主管部门展开科学高效的管理工作提供良好的决策依据.当SAMP系统应用数据库中存储的数据量达到百万级时,对数据库中预约表和用户表(或仪器表)进行连接查询时,将导致数据表查询性能的下降,从而影响整个SAMP系统的性能.目前主流的解决方案是采用Hash取模算法对数据表进行水平切分,但预约表中的主键为自动递增的整数,并没有实际意义,所以优化效果不理想.由于预约的用户和被预约的仪器在地理区域上呈现一定的聚集性,因此本文提出了一种基于K-means聚类算法的分表策略,采用该策略能够将预约表的查询性能提升至少70%.
1
在c语言环境下实现的聚类算法代码,主要应用在大数据领域
2022-12-16 16:03:51 337KB 聚类算法
1
数据挖掘中聚类的分析与研究,赵富,,聚类分析是数据挖掘中的一个重要研究领域。它将数据对象分组成为若干个类或簇,使得在同一个簇中的对象比较相似,而不同簇中的对
2022-12-14 19:25:34 198KB 数据挖掘
1
主要用的numpy库实现的,其中数据点的生成可以看我另外一个作业模式识别作业:....聚类设计那个用来生成数据
2022-12-14 18:15:59 34KB python k_means C均值 聚类
1
AP聚类算法的源代码,基于matlab程序,有较详细解说 AP聚类算法的源代码,基于matlab程序,有较详细解说
2022-12-13 17:52:09 10KB AP算法 matlab
1
使用三种具有代表性的聚类分析算法对鸢尾花数据集进行聚类分析,分别为层次方法、DBSCAN 方法与K-means 方法。接着使用三个评价指标对聚类的结果进行评价,分别为准确度、运行时间、轮廓系数。本程序包含python程序、实验报告与鸢尾花数据集文件。是本人亲手写的作业且获得高分。层次方法在此数据集上准确度最佳,DBSCAN 方法运行时间最短,层次与 K-means 方法都取得了较高的轮廓系数值。亲手资源,保证一手!
1
python实现机器学习K-means聚类算法.zip对数据进行聚类并绘图。原理 ​ K-means算法属于八大经典的机器学习算法中的其中一种,是一种无监督的聚类算法。其中无监督是机器学习领域中一个专业名词,和有监督是相对的,两者最本质的区别就在于研究的样本是否包含标签。比如猫狗分类这个问题中,猫和狗就是标签。对于聚类,其实是和分类相对应的,其中分类就是之有标签的。而聚类则是只没有标签的,我们需要将这些无标签的数据,按照各自的属性将他们会聚成不同的类别,从而将他们区分开。 ​ 在k-means算法中,存在着质心和簇。在进行算法之前,我们需要人工的指定将数据分为K个簇,并随便选取K个质心。就拿认知实习学习中的例子举例,假如我们又8个数据,分别为a1-a8,我们需要将这八个数据分为三个簇,也就是说k=3。这是我们就需要在a1-a8中随机选取三个数据点作为质心我们将质心记为b11,b12,b13。确定了质心后,我们需要计算a1-a8和三个质心的距离,并将距离最短的归为一类。比如a5到b11距离为2,到b12距离为3,到b13距离为1,那么就将a5和质心b13归为同一个簇。如此一次计算8个数
摘要:当前对行政区竞争力的评价研究已成为一个热门话题。本文根据科学性、系统性、可比性、可行性原则,建立了一套评价行政区综合竞争力的指标体系,依据指标体系收集权威
2022-12-11 23:36:51 502KB 首发论文
1