使用pandas实现批量excel导入,合并为csv导出(配套数据
2021-12-06 10:06:20 47.91MB 配套数据
1
机器学习 K-Means 实现文本聚类 配套练习数据
2021-11-01 18:14:24 701KB 机器学习配套数据
1
基于Python的社交网站数据挖掘与数据分析 配套数据源和源代码.rar.rar
2021-10-01 09:04:45 776KB
提供给seaborn的演示数据
2021-08-29 18:15:22 24KB wxpython Seaborn
1
matlab数据分析与挖掘实践_图书配套数据、代码。想看书的话网上也有pdf,代码有注释,不看书也能懂,学技术,重点是代码。
2021-08-20 15:23:45 40.82MB matlab 数据分析 挖掘实践 图书配套数据
1
stata十八讲的软件教程详细讲述了stata入门,并结合具体案例讲述软件实现,这是配合十八讲的讲述案例的具体数据,以及相对应的编程文件
2021-08-14 00:02:27 977KB stata
1
共10个章节,由浅入深介绍数据挖掘算法,含配套数据源和源代码 10个章节信息如下: 精品 干货 数据挖掘数据分析配套纯英文版教程课件 chap1_intro 精品 干货 数据挖掘数据分析配套纯英文版教程课件 chap2_data 精品 干货 数据挖掘数据分析配套纯英文版教程课件 chap3_data_exploration 精品 干货 数据挖掘数据分析配套纯英文版教程课件 chap4_basic_classification 精品 干货 数据挖掘数据分析配套纯英文版教程课件 chap5_alternative_classification 精品 干货 数据挖掘数据分析配套纯英文版教程课件 chap6_basic_association_analysis 精品 干货 数据挖掘数据分析配套纯英文版教程课件 chap7_extended_association_analysis 精品 干货 数据挖掘数据分析配套纯英文版教程课件 chap8_basic_cluster_analysis 精品 干货 数据挖掘数据分析配套纯英文版教程课件 chap9_advanced_cluster_analysis 精品 干货 数据挖掘数据分析配套纯英文版教程课件 chap10_anomaly_detection
# -*- coding: utf-8 -*- import sys import nltk import json # Load in output from blogs_and_nlp__get_feed.py BLOG_DATA = sys.argv[1] blog_data = json.loads(open(BLOG_DATA).read()) for post in blog_data: sentences = nltk.tokenize.sent_tokenize(post['content']) tokens = [nltk.tokenize.word_tokenize(s) for s in sentences] pos_tagged_tokens = [nltk.pos_tag(t) for t in tokens] # Flatten the list since we're not using sentence structure # and sentences are guaranteed to be separated by a special # POS tuple such as ('.', '.') pos_tagged_tokens = [token for sent in pos_tagged_tokens for token in sent] all_entity_chunks = [] previous_pos = None current_entity_chunk = [] for (token, pos) in pos_tagged_tokens: if pos == previous_pos and pos.startswith('NN'): current_entity_chunk.append(token) elif pos.startswith('NN'): if current_entity_chunk != []: # Note that current_entity_chunk could be a duplicate when appended, # so frequency analysis again becomes a consideration all_entity_chunks.append((' '.join(current_entity_chunk), pos)) current_entity_chunk = [token] previous_pos = pos # Store the chunks as an index for the document # and account for frequency while we're at it... post['entities'] = {} for c in all_entity_chunks: post['entities'][c] = post['entities'].get(c, 0) + 1 # For example, we could display just the title-cased entities print post['title'] print '-' * len(post['title']) proper_nouns = [] for (entity, pos) in post['entities']: if entity.istitle(): print '\t%s (%s)' % (entity, post['entities'][(entity, pos)]) print
2021-08-08 17:09:28 803KB Python 数据挖掘 社交数据 社交网站
基于R语言数据分析与挖掘实战 配套数据数据和源代码 共15个章节,含每个章节的数据源和源代码demo
2021-08-08 13:07:26 426.83MB R语言 数据挖掘 数据分析 数据源
ArcGIS 地理信息系统空间分析实验教程(第二版):配套光盘数据Chp10-13
2021-07-29 08:58:14 52.4MB 配套数据
1