上传者: 38741030
|
上传时间: 2021-11-10 22:30:22
|
文件大小: 67KB
|
文件类型: -
在自然语言处理(NLP)研究中,NGram是最基本但也是最有用的一种比对方式,这里的N是需要比对的字符串的长度,而今天我介绍的TrieTree,正是和NGram密切相关的一种数据结构,有人称之为字典树。TrieTree简单的说是一种多叉树,每个节点保存一个字符,这么做的好处是当我们要做NGram比对时,只需要直接从树的根节点开始沿着某个树叉遍历下去,就能完成比对;如果没找到,停止本次遍历。这话讲得有些抽象,我们来看一个实际的例子。
假设我们现在词库里面有以下一些词:
上海市 上海滩 上海人 上海公司 北京 北斗星 杨柳 杨浦区
如图所示:挂在根节点上的字有上、北、杨,
如果我们现在对“上海市