利用CRF++进行中文分词 维护者: 维新公众号:Python爬虫与算法 语料 人民日报中文分词语料 微软中文分词语料 训练集与测试集的比例为9:1,具体的改写脚本可以参考read_segment_corpus.py。 CRF模型 工具采用CRF++,训练命令如下: crf_learn -f 3 -c 4.0 template train.data model -t 模型评估结果 accuary: 0.96405717503858 p: 0.9184067155248071 r: 0.9206969935013926 f1: 0.9195504284452864 classification report: precision recall f1-score support Char 0.92 0.92
2022-02-10 16:18:17 8.27MB 附件源码 文章源码
1
CameraX和MLKIT实现中文识别Demo封装aar资源
2022-02-09 19:11:28 145KB aar
1
SVM-Chinese-Classification 利用支持向量机实现中文文本分类 先放,如果觉得写得不错,记得加个star哦,嘻嘻~ 基本流程 1、准备好数据食材、去停用词并利用结巴**(jieba)进行分词处理** 数据食材选用参考: jieba分词模块参考啦~ # 参照代码中的cutWords.py文件 2、利用卡方检验特征选择 **卡方检验:**在构建每个类别的词向量后,对每一类的每一个单词进行其卡方统计值的计算。 首先对卡方 检验所需的 a、b、c、d 进行计算。 a 为在这个分类下包含这个词的文档数量; b 为不在该分类下包含这个词的文档数量; c 为在这个分类下不包含这个词的文档数量; d 为不在该分类下,且不包含这个词的文档数量。 然后得到该类中该词的卡方统计值 公式为 float(pow((ad - bc), 2)) /float((a+c) * (a+b) * (b+
2022-01-07 13:11:45 5.05MB Java
1
【主要内基于Pytorch实现的声纹识别大预训练模型,源码地址:https://github.com/yeyupiaoling/VoiceprintRecognition_Pytorch 【使用对象】程序开发 深度学习 人工智能
2021-12-21 19:09:25 229.79MB pytorch 声纹识别 中文声纹识别 放心下载
此代码百度搜索整理得来,如有错误,望指正
2021-12-15 11:30:10 2KB SendInput 中文
1
国科大自然语言处理第三次作业
2021-11-29 17:05:46 181.53MB TensorFlow nlp 命名实体识别
1
用于js中实现GBK编码。适合使用js进行页面参数传递时,给GBK编码页面传递参数,解决乱码问题。使用时直接引入,然后decode即可,示例如下: const GBK = require("gbk.js"); GBK.decode(data);
2021-11-26 16:21:22 21KB js gbk 编码 乱码
1
前言 jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐。 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。 分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 支持三种分词模式       1 精确模式,试图将句子最精确地切开,适合文本分析;       2 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快
2021-11-24 22:49:33 50KB ie jieba python
1
汉字识别 Pytorch实现中文手写汉字识别 环境 的Ubuntu的:16.04 的Python:3.5.2 PyTorch:1.0.1 gpu 数据集 将数据分为训练和测试文件夹。 在每个文件夹中,将相同类别的图像放在相同的子文件夹中,并用整数标记它们。 像这样: 在这个项目中,我们使用来自 , 的数据集。 也可以使用以下方法下载它: wget http://www.nlpr.ia.ac.cn/databases/download/feature_data/HWDB1.1trn_gnt.zip wget http://www.nlpr.ia.ac.cn/databases/download/feature_data/HWDB1.1tst_gnt.zip 该数据集总共包含3755个类。 为了处理它,我们使用来自的python程序。 该博客还使用TensorFlow实现了该数据集
2021-11-24 20:52:35 21KB 附件源码 文章源码
1
Unity 发布的web GL 实现中文输入 , 兼容所有浏览器 注意: demo 并不采用网上盛传的 WebGL IME 的插件! 下载后请打开发布包中的 .html 文件进行预览。 Demo 演示使用的Unity版本是 Unity 5.6, 实际使用不限制版本 Demo 浏览地址 : http://www.manew.com/thread-146163-1-1.html
2021-10-13 13:11:32 116B Unity WebGL 中文输入
1