上传者: wilosny518
|
上传时间: 2021-12-06 00:22:00
|
文件大小: 302KB
|
文件类型: -
R 语言环境下的文本挖掘,文本挖掘被描述为 “自动化或半自动化处理文本的过程”,包含了文档聚类、文档分类、自
然语言处理、文体变化分析及网络挖掘等领域内容。
对于文本处理过程首先要拥有分析的语料(text corpus),比如报告、信函、出版物等。而
后根据这些语料建立半结构化的文本库(text database)。而后生成包含词频的结构化的词条
-文档矩阵(term-document matrix)。