C++中文分词源码,分词的方法

上传者: johnzhjfly | 上传时间: 2021-05-15 17:24:19 | 文件大小: 327KB | 文件类型: RAR
西方语言在语句(或从句)内词汇之间存在分割符(空格),而汉语的词汇在语句中是连续排列的。因此,汉语词汇的切分(分词)在中文信息处理的许多应用领域,如机器翻译、文献检索、文献分类、文献过滤、以及词频统计等,是非常重要的第一步。 自动分词是基于字符串匹配的原理进行的。迄今为止,已经有许多文献对各种分词方法进行探讨,其着重点或为分词的速度方面,或为分词的精度方面以及分词的规范。本文主要探讨分词的速度问题,通过实验对比和理论分析,说明我们所提出的算法是有效的。 目前人们所提出的分词方法,在考虑效率问题时,通常在词典的组织方面进行某种调整,以适应相应的算法,如最大匹配法、最小匹配法、逐词遍历法、以及最佳匹配法等。这些方法中,或将词典按词条长度排序或按词频排序,其目的在于协调算法与数据结构,使之效率最高。客观地说,它们都在一定程度上提高了分词的效率。 本文所介绍的是基于词典的最大向前匹配方法。而在数据结构方面,我们则是将词典组织成自动机形式。

文件下载

资源详情

[{"title":"( 4 个子文件 327KB ) C++中文分词源码,分词的方法","children":[{"title":"WordSegment","children":[{"title":"dictiory.txt <span style='color:#111;'> 765.91KB </span>","children":null,"spread":false},{"title":"WordSegment.cpp <span style='color:#111;'> 6.04KB </span>","children":null,"spread":false},{"title":"sou.txt <span style='color:#111;'> 385B </span>","children":null,"spread":false},{"title":"data.txt <span style='color:#111;'> 625B </span>","children":null,"spread":false}],"spread":true}],"spread":true}]

评论信息

  • 待续_1006 :
    好东西值得借鉴
    2020-03-04
  • 真·skysys :
    可以的2333
    2019-06-29
  • syy_9001 :
    研究学习一下,还不错,值得借鉴
    2017-10-12
  • 老盒 :
    不错不错,可以用,谢谢啦
    2017-08-24
  • 水澹澹兮生烟 :
    头文件怎么处理的?
    2016-10-23

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明