统计词频,和对文档进行分词处理,计算tf-idf值。
2022-02-12 12:12:48 1.2MB tf-idf
1
coca排名前5000高频词表。coca就是把1990-2012年美国最有代表性的报纸,杂志,小说,学术,口语(口语可能是用的电视剧或者脱口秀之类的节目转录的)汇集起来,每部分各占1/5,生成4.5亿单词量语料库。
2022-02-03 11:27:44 222KB coca 词频表 英语高频词
1
分词&词云图&词频统计之paper资源
2022-01-28 14:03:50 2.54MB python jupyter wordcloud
1
wordsmith 能够充分利用在话语分析领域,对于词频,词汇搭配,主题分析等具有辅助作用
2022-01-27 09:14:07 63.54MB 语言学 词频分析 话语分析
1
需求:统计HDFS上的文件的wc,然后将统计结果输出到HDFS 特点:用到了maven;核心处理部分封装为接口;路径、文件名等变量配置在自定义配置文件中;通过反射创建对象;代码结构良好,可插拔等等
2022-01-26 09:08:27 32KB maven java hdfs hadoop
1
这个使用手册可以帮助您快速学习Rost CM6内容挖掘系统
2022-01-25 20:25:57 696KB 词频 分析
1
自然语言处理项目 该项目调查自然语言处理 (NLP) 中的一个主题,同时练习 AVL 树数据结构。 在 NLP 中,人们经常需要计算每个特定单词在文本中出现的次数。 对于语言建模,人们通常需要知道有多少不同的单词恰好在文本中出现了 r 次。 令 N(r) 是恰好出现 r 次的不同单词的数量。 因此,该程序可以根据给定的文本有效地计算 N(r)。 文本文件通过命令行参数指定,N(r)'s 在单独的行上打印到标准输出。
2022-01-19 15:09:17 10KB Java
1
用c#编写的一个英语词频统计小程序,很适合用于c#的学习参考程序。
2022-01-08 18:24:55 42KB c# 词频统计 英语
1
原创C语言实现词频统计,使用通用数据类型的双向链表进行缓存,自动拆分单词,,可通过命令行一次性读取多个文本,分别输出统计结果,简单实用。
2022-01-06 22:02:50 506KB 数据结构 c语言
1
主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用亲测可用, 谢谢支持。
2022-01-06 21:58:11 70KB 词频计算
1