本程序主要应用了hash结构,为提高效率,并未选择拉连法解决冲突, 发生冲突时利用 双备用hash 函数查找,如果失败再利用线性探查法查找 存储位置的方法 同时,程序设计了用户选项,选择可能出现单词数量,为的是提高程 序效率及减少开销
2022-03-24 22:34:47 9KB 词频统计
1
FileWriter writer1 new FileWriter "汉字字频统计结果分布 txt" ; writer1 write "汉字总数 "+totalNum+" r n" ; 汉字总个数 writer1 write "汉字种数 "+totalKind+" r n" ; 汉字种类数 writer1 write " r n" ; writer1 write " r n" ; writer1 write "带 的为高频字 r n" ; writer1 write "序号 t汉字 个数 t 字频 字频和 r n" ; 字频 词频统计并可统计汉字信息熵 含语料 100篇 完整">FileWriter writer1 new FileWriter "汉字字频统计结果分布 txt" ; writer1 write "汉字总数 "+totalNum+" r n" ; 汉字总个数 writer1 write "汉字种数 "+totalKind+" r n" ; 汉字种类数 writer1 write " r n [更多]
2022-03-23 07:49:06 90KB 字频 词频统计 含语料
1
本工具用来统计一个包含一系列汉语词汇的词列表,每个词在一个文件夹中各个文本文件中出现的频数,方便相关专业人员,如对外汉语、语文教材研究专业人员等处理大量词汇。支持多种格式词的检测,减少人工工作量和工作难度。经过大量的统计,软件检测的文章字数比微软Office2010检测同一文章的字数多,各个词条数目基本相同。由于构词法的差异,本软件不可作为字母文字词频分析工具,理论上支持日文、韩文等东亚语系词频统计。内有详细帮助。 本软件需要微软 .net Framework 2.0及以上版本支持。.net Framework是微软提供的新技术下开发的软件平台,操作系统已部分集成,若软件可以使用则推荐下载安装,若无法启动,请立即下载安装。 .net Framework4.0 独立安装包微软官方下载地址: http://www.microsoft.com/zh-cn/download/confirmation.aspx?id=17718 如有需要帮助请站内信联系用软件中的联系方式联系
2022-03-20 13:37:20 1.18MB 汉语 词频 统计
1
这是《高校云计算应用创新大赛》里的最后一道题,题目是莎士比亚文集词频统计并行化算法。由于原网站上的实验文件已经无法下载了,所以这里上传一份,包含 shakespear.zip、stopword.txt.
2022-03-15 16:07:47 1.96MB shakespear stopword
1
此文件用于初学者通过python来制作词云使用,配合我的博客相关词云基础语法进行使用,没有任何商业价值,仅供初学者使用和玩耍。
2022-03-13 15:50:21 1.68MB python 分词文件
1
Hadoop MapReduce Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。 Why MapReduce? 1.海量数据在单机上处理因为硬件资源限制,无法胜任 2.而一旦将单机版程序扩展到集群来分布式运行,将极大增加程序的复杂度和开发难度 3.引入mapreduce框架后,开发人员可以将绝大部分工作集中在业务逻辑的开发上,而将分布式计算中的复杂性交由框架来处理 MapReduce编程规范 1.用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行mr程序的客户端) 2.Mapper的输入数据是KV对的形式(KV的类型可自定义) 3.Mapper的输出数据是KV对的形式(K
2022-03-10 13:56:25 2.1MB Python
1
使用词表,遍历替换文章单词,再进行词频统计 使用两重循环,分别遍历时态替换表 lemmas.txt 和介词表 disablewords.txt 替换文章重复时态和介词,之后使用 treeMap 统计对应词的数量
2022-03-06 15:39:55 249KB Java 词频
1
主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用
2022-02-22 13:58:59 70KB 词频计算
1
该实例的处理过程是通过 Flink 对文件存储系统里的数据进行离线批处理,统计指定文件下的单词数,并将统计结果存储到其他文件下。 该实例业务实现过程如下: - 首先使用 `filesystem` 作为连接器,按照指定的 `csv` 格式来批量地读取指定路径的文件或文件夹,以此创建源数据表。 - 然后,在 Flink 中执行批处理实例逻辑,完成批处理任务。 - 最后,使用 `filesystem` 连接器,将处理后结果写入目标文件或文件夹内,构建结果表。
2022-02-21 19:11:27 4KB PyFlink 实时大数据
1
读取给定文本文件,统计单词,计算TOP 10 有一个文件sample.txt,对其进行单词统计,不区分大小写,并显示单词重复最多的10个单词。
2022-02-21 00:03:59 1KB python开发
1