使用nltk处理中文语料(1)- 统计相关-附件资源
2021-11-18 22:33:25 106B
1
word2vec介绍 word2vec官网:https://code.google.com/p/word2vec/ word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离。 它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。 word2vec计算的是余弦值,距离范围为0-1之间,值越大代表两个词关联度越高。 词向量:用Distributed Representation表示词,通常也被称为“Word Representation”或“Word Embedding
2021-11-11 17:13:13 184KB c ec gensim
1
[奥本海姆]离散时间数字信号处理(中文版附英文版答案)
2021-11-09 23:14:45 23.44MB DSP
1
《用Python进行自然语言处理(中文翻译NLTK)》--高清带目录!
2021-10-27 09:49:15 4.45MB Python
1
nlp 自然语言处理:中文分词,打标签,文章匹配相似度 打标签: extra_tags.py: 关键函数:extarct_tags ,通过help(jieba.analyse.extarct_tags) 查看 函数提示如下: withWeight:单词权重 allowPOS:单词性质,参看 withFlag: ====================================================== Help on method extract_tags in module jieba.analyse.tfidf: extract_tags(self, sentence, topK=20, withWeight=False, allowPOS=(), withFlag=False) method of jieba.analyse.tfidf.TFIDF instance
2021-10-08 14:31:27 47KB Python
1
Natural Language Proccessing with Python 中文翻译,作者:Steven Bird, Ewan Klein & Edward Loper 翻译:陈涛(w eibo.com/chentao1999) 自然语言处理理论书籍很多,讲实际操作的不多,能讲的这么系统的更少。从这个角度 讲, 书是目前世界上最好的自然语言处理实践教程。初学者若在看过理论之后能精读 书, 必定会有获益。
2021-10-06 15:26:57 5.29MB Python 自然语言处理 NLTK
1
HanLP: Han Language Processing 汉语言处理包 HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 HanLP提供下列功能: 中文分词 HMM-Bigram(速度与精度最佳平衡;一百兆内存) 最短路分词、N-最短路分词 由字构词(侧重精度,全世界最大语料库,可识别新词;适合NLP任务) 感知机分词、CRF分词 词典分词(侧重速度,每秒数千万字符;省内存) 极速词典分词 所有分词器都支持: 索引全切分模式 用户自定义词典 兼容繁体中文 训练用户自己的领域模型 词性标注 HMM词性标注(速度快) 感知机词性标注、CRF词性标注(精度高) 命名实体识别 基于HMM角色标注的命名实体识别 (速度快) 中国人名识别、音译人名识别、日本人名识别、地名识别、实体机构名识别 基于线性模型的命名实体识别(精度高) 感知机命名实体识别、CRF命名实体识别 关键词提取 TextRank关键词提取
2021-09-08 10:33:55 21.45MB Android代码
1
离散时间信号处理方面的经典著作,Signal and system的后续教材,奥本海默大师的力作。
2021-09-03 22:06:42 18.23MB 离散时间 信号处理 中文清晰版
1
离散时间信号处理(第二版) AlanV.Oppenheim 中文版
2021-09-01 09:35:41 16.78MB 离散时间信号处理 中文版
1