搜索【词频】的结果

汉语词频统计工具

本工具用来统计一个包含一系列汉语词汇的词列表，每个词在一个文件夹中各个文本文件中出现的频数，方便相关专业人员，如对外汉语、语文教材研究专业人员等处理大量词汇。支持多种格式词的检测，减少人工工作量和工作难度。经过大量的统计，软件检测的文章字数比微软Office2010检测同一文章的字数多，各个词条数目基本相同。由于构词法的差异，本软件不可作为字母文字词频分析工具，理论上支持日文、韩文等东亚语系词频统计。内有详细帮助。本软件需要微软 .net Framework 2.0及以上版本支持。.net Framework是微软提供的新技术下开发的软件平台，操作系统已部分集成，若软件可以使用则推荐下载安装，若无法启动，请立即下载安装。 .net Framework4.0 独立安装包微软官方下载地址： http://www.microsoft.com/zh-cn/download/confirmation.aspx?id=17718 如有需要帮助请站内信联系用软件中的联系方式联系

2022-03-20 13:37:20 1.18MB 汉语词频统计

1

爬取网页获得关键词词频.py

通过python写的爬取网页热并获取对应的词频 ***************************************************** 注释较为详细，可以自己输入网址爬取，形成本地文档

2022-03-19 15:29:42 2KB 爬虫热词词频

1

莎士比亚文集词频统计并行化算法_实验文件

这是《高校云计算应用创新大赛》里的最后一道题，题目是莎士比亚文集词频统计并行化算法。由于原网站上的实验文件已经无法下载了，所以这里上传一份，包含 shakespear.zip、stopword.txt.

2022-03-15 16:07:47 1.96MB shakespear stopword

1

三国演义.txt（python词频统计练习文件）

此文件用于初学者通过python来制作词云使用，配合我的博客相关词云基础语法进行使用，没有任何商业价值，仅供初学者使用和玩耍。

2022-03-13 15:50:21 1.68MB python 分词文件

1

Hadoop-Streaming:Hadoop2.6 MapReduce2 Python3.5的一些经典入门程序：词频统计、好友推荐、PageRank-源码

Hadoop MapReduce Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架。Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上。 Why MapReduce? 1.海量数据在单机上处理因为硬件资源限制，无法胜任 2.而一旦将单机版程序扩展到集群来分布式运行，将极大增加程序的复杂度和开发难度 3.引入mapreduce框架后，开发人员可以将绝大部分工作集中在业务逻辑的开发上，而将分布式计算中的复杂性交由框架来处理 MapReduce编程规范 1.用户编写的程序分成三个部分：Mapper，Reducer，Driver(提交运行mr程序的客户端) 2.Mapper的输入数据是KV对的形式（KV的类型可自定义） 3.Mapper的输出数据是KV对的形式（K

2022-03-10 13:56:25 2.1MB Python

1

Java词频统计SortWord.zip

使用词表，遍历替换文章单词，再进行词频统计使用两重循环，分别遍历时态替换表 lemmas.txt 和介词表 disablewords.txt 替换文章重复时态和介词，之后使用 treeMap 统计对应词的数量

2022-03-06 15:39:55 249KB Java 词频

1

文本分类之词频统计（分词、词干提取、去停用词、计算词频，有界面）

主要是读取文本，然后进行分词、词干提取、去停用词、计算词频，有界面，很实用

2022-02-22 13:58:59 70KB 词频计算

1

PyFlink 词频统计完整代码

该实例的处理过程是通过 Flink 对文件存储系统里的数据进行离线批处理，统计指定文件下的单词数，并将统计结果存储到其他文件下。该实例业务实现过程如下： - 首先使用 `filesystem` 作为连接器，按照指定的 `csv` 格式来批量地读取指定路径的文件或文件夹，以此创建源数据表。 - 然后，在 Flink 中执行批处理实例逻辑，完成批处理任务。 - 最后，使用 `filesystem` 连接器，将处理后结果写入目标文件或文件夹内，构建结果表。

2022-02-21 19:11:27 4KB PyFlink 实时大数据

1

python文件词频统计

读取给定文本文件，统计单词，计算TOP 10 有一个文件sample.txt，对其进行单词统计，不区分大小写，并显示单词重复最多的10个单词。

2022-02-21 00:03:59 1KB python开发

1

词频统计软件ROSTCM6.rar

ROST CM 6是武汉大学沈阳教授研发编码的国内目前唯一的以辅助人文社会科学研究的大型免费社会计算平台。该软件可以实现微博分析、聊天分析、全网分析、网站分析、浏览分析、分词、词频统计、英文词频统计、流量分析、聚类分析等一系列文本分析。

2022-02-18 20:55:13 8.57MB 统计

1

个人信息

热门下载

最新下载

其他资源