上传者: 42104366
|
上传时间: 2021-11-11 09:40:59
|
文件大小: 1.52MB
|
文件类型: -
统计学中文分词的Python版本
参照《数据之美》第14章(Word Segmentation),和《数学之美》中统计学分词方法,实现的最小统计学分词脚本。其实早就搁置在一边了,最近和朋友聊到中文分词才发现这个东西可能有人需要,放出来共享下。
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import sys
import re, string, random, glob, operator, heapq
from collections import defaultdict
from math import log10
def memo(f):
"Memoize function f."
table = {}
def fmemo(*args):
if args not in table:
table[args] = f(*ar