上传者: npf_java
|
上传时间: 2022-02-10 14:16:07
|
文件大小: 338KB
|
文件类型: -
首先采用 Google 的 Word2Vec 工具,从海量的文本(本文)
中,使用神经网络学习得到词典中每个词的向量表示。然后根据向量,对词
典中的每个词进行聚类,例如聚类成 500 类(新的“词典”) 。而后,使用工具
对每个文档提取代表性的关键词。每个关键词都在前面的聚类中找到自己的
类别。这样类似多媒体技术中讲授的向量空间模型(VSM) ,每个文档都可以
用过关键词词频表示成一个 500 维的向量,这个向量就是这个文档的“特征向
量”。