python数据挖掘数据集 python_friends.json
2021-09-11 19:44:20 1.87MB python数据挖掘入门与实践
1
# -*- coding: utf-8 -*- import sys import nltk import json # Load in output from blogs_and_nlp__get_feed.py BLOG_DATA = sys.argv[1] blog_data = json.loads(open(BLOG_DATA).read()) for post in blog_data: sentences = nltk.tokenize.sent_tokenize(post['content']) tokens = [nltk.tokenize.word_tokenize(s) for s in sentences] pos_tagged_tokens = [nltk.pos_tag(t) for t in tokens] # Flatten the list since we're not using sentence structure # and sentences are guaranteed to be separated by a special # POS tuple such as ('.', '.') pos_tagged_tokens = [token for sent in pos_tagged_tokens for token in sent] all_entity_chunks = [] previous_pos = None current_entity_chunk = [] for (token, pos) in pos_tagged_tokens: if pos == previous_pos and pos.startswith('NN'): current_entity_chunk.append(token) elif pos.startswith('NN'): if current_entity_chunk != []: # Note that current_entity_chunk could be a duplicate when appended, # so frequency analysis again becomes a consideration all_entity_chunks.append((' '.join(current_entity_chunk), pos)) current_entity_chunk = [token] previous_pos = pos # Store the chunks as an index for the document # and account for frequency while we're at it... post['entities'] = {} for c in all_entity_chunks: post['entities'][c] = post['entities'].get(c, 0) + 1 # For example, we could display just the title-cased entities print post['title'] print '-' * len(post['title']) proper_nouns = [] for (entity, pos) in post['entities']: if entity.istitle(): print '\t%s (%s)' % (entity, post['entities'][(entity, pos)]) print
2021-08-08 17:09:28 803KB Python 数据挖掘 社交数据 社交网站
一、 实验教学目的和要求: 实验目的: 本课程实验旨在加深学生对于网络大数据挖掘的理解,培养学生分析、设计、实现基于Python语言的网络数据挖掘算法,掌握科学的实验方法,为以后其他专业课的学习打下坚实的基础。该实验内容采用循序渐进的方式,从Python语言的基本语法入手,在加深学生对于Python语言熟悉的基础上突出数据挖掘应用。实验提供功能要求,学生自己确定设计方案和需要思考如何设计最优化的算法,并完成结果记录和分析,充分发挥学生的创造性和主动性。 实验要求: 了解并掌握Python语言的基本语法、能够使用Python读取或写入数据表、获取并分析网络文本数据、获取并处理图像数据等。 二、 Python开发环境简介: 本课程实验使用的Python开发环境为Python IDLE,其用户界面图见图1所示。IDLE是开发python程序的基本集成开发环境,具备基本的IDE的功能,是Python教学的不错的选择。当安装好python以后,IDLE就自动安装好了,不需要另外去找。同时,使用Eclipse这个强大的框架时IDLE也可以非常方便的调试Python程序。其基本功能包括语法加亮、段落缩进、基本文本编辑、TABLE键控制、调试程序。 打开 Idle 后出现一个增强的交互命令行解释器窗口(具有比基本的交互命令提示符更好的剪切、粘贴、回行等功能)。除此之外,还有一个针对 Python 的编辑器(无代码合并,但有语法标签高亮和代码自动完成功能)、类浏览器和调试器。菜单为 TK “剥离”式,也就是点击顶部任意下拉菜单的虚线将会将该菜单提升到它自己的永久窗口中去。特别是 "Edit" 菜单,将其“靠”在桌面一角非常实用。Idle 的调试器提供断点、步进和变量监视功能。
2021-08-08 17:09:28 299KB Python 数据挖掘 网络挖掘 数据分析
本书作为数据挖掘入门读物,介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带你轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式,呈现了如何使用决策树和*森林算法预测美国职业篮球联赛比赛结果,如何使用亲和性分析方法推荐电影,如何使用朴素贝叶斯算法进行社会媒体挖掘,等等。本书也涉及神经网络、深度学习、大数据处理等内容。本书面向愿意学习和尝试数据挖掘的程序员。
2021-08-04 16:35:55 22.09MB Python
1
介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法。同时也涉及神经网络、深度学习、大数据处理等内容。
2021-07-23 10:22:59 22MB Python 数据挖掘
1
Python数据分析参考书 Wes McKinney著 中文版 带标签目录
2021-07-14 14:12:18 77.68MB Python 数据挖掘
1
《基于Python语言的网络数据挖掘》实验指导书 1 一、 实验教学目的和要求 2 二、 Python开发环境简介 2 三、 实验项目名称及目的要求 3 1.1 实验项目1 Python语言的基本语法及简单应用 3 1.2 实验项目2 使用Python读写Excel数据 5 1.3 实验项目3 使用Python实现网络爬虫算法 8 1.4 实验项目4 使用Python获取社交网络数据 12 1.5 实验项目5 使用Python统计分析社交网络数据 14 1.6 实验项目6 使用Python大批量获取网络图片数据 17 1.7 实验项目7 使用Python处理图片尺寸和角度 19 1.8 实验项目8 使用Python处理图片亮度、对比度和饱和度 21
2021-07-10 21:02:49 695KB Python 数据挖掘 实验 教程
很经典的数据挖掘python入门项目,配套代码齐全
2021-07-10 15:26:59 34.02MB 数据挖掘项目
1
产品评论大数据挖掘情感分析python版,带有python代码和数据。
2021-07-01 20:45:42 35.92MB python 数据挖掘 大数据 产品评论
1
Python数据挖掘入门与实战,NBA数据挖掘数据 真是可用,包括match 和standing
2021-06-28 16:25:18 18KB Python 数据挖掘 决策树和随机
1