上传者: 42125826
|
上传时间: 2021-12-31 23:04:09
|
文件大小: 95.65MB
|
文件类型: -
NLP-test
自然语言处理实验
1. 正向逆向分词
2. 一元二元词频统计
3. 拼音流切分
4. HMM简易中文输入法
目录结构
· seg.py 分词脚本
· ngram.py 统计一元词频、二元词频
· common.py 字符串处理集(包括转换为unicode,全角转半角,半角转全角)
· main.py 主程序入口
· core/
Graph.py 有向图结构
InputMethod.py 拼音串转汉字串
Model.py 加载语言模型
· corpus/ 96年人民日报语料
· corpus_seg/ 96年人民日报语料----已切分