NLP学习指南 本教程致力于帮助同学们快速入门NLP,并掌握各个任务的SOTA模型。 各任务模型列表汇总:,,,(todo), 各任务概述和技巧:,文本匹配,序列标注,文本生成,语言模型 之后就可以开始逐个击破,但也不用死磕,控制好目标难度,先用三个月时间进行第一轮学习: 读懂机器学习,深度学习原理,不要求手推公式 了解经典任务的基准,动手实践,看懂代码 深入一个应用场景,尝试自己修改模型,提升效果 迈过了上面这道坎后,就可以重新回归理论,提高对自己的要求,某种手推公式,盲写模型,拿到比赛Top等。 第一步:基础原理 机器学习最初入门时对数学的要求不是很高,掌握基础的线性代数,概率论就可以了,正常读下来的理工科大学生以上应该都没问题,可以直接开始学,碰到不清楚的概念再去复习。 统计机器学习部分,建议初学者先看懂线性分类,SVM,树模型和图模型,这里推荐李航的“统计学习方法”,薄的摸起来没有
2021-10-20 20:00:38 17KB
1
编译好的kenlm
2021-10-15 11:09:04 10.21MB kenlm 语言模型 语音识别
1
分词学习(3),基于ngram语言模型的n元分词-附件资源
2021-10-14 17:56:05 106B
1
单词张量流 使用TensorFlow在Python中使用词层语言模型的多层递归神经网络(LSTM,RNN)。 大多数重用的代码来自 ,其灵感来自Andrej Karpathy的 。 要求 基本用法 要在tinyshakespeare语料库上使用默认参数进行训练,请运行: python train.py 从经过训练的模型中采样 python sample.py 要使用波束搜索进行拾取,请使用--pick参数。 可以使用--width参数进一步自定义光束搜索,该参数设置要搜索的光束数量。 例如: python sample.py --pick 2 --width 4 样品输出 Word
2021-10-05 13:08:08 441KB python tensorflow lstm rnn
1
CNN+CTC_tutorial.ipynb为语音模型的教程,详细介绍了搭建网络的一步步的操作。 LanguageModel2.py为基于统计的语言模型,dict.txt为统计的字典。
2021-09-25 20:24:17 9.28MB CNN+CTC_tutorial
1
在cygwin下安装并成功运行srilm。 Srilm是著名的自然语言处理中语言模型的计算开源程序。 本文档为国立台湾师范大学陈柏林教授课件。 给各位自然语言处理同仁共享。
2021-09-20 01:28:16 349KB srilm cygwin 语言模型 机器翻译
1
Ongoing research training transformer language models at scale, including: BERT
2021-09-13 11:27:35 85KB Python开发-自然语言处理
1
行业分类-设备装置-一种建立语言模型的方法、语音识别的方法及其装置.zip
ir-python 用于信息检索任务的python实现,包括正向/反向索引,基本检索模型(例如BM25,uni-gram语言模型)。 索引模块对LevelDB( )使用线程安全的Python绑定。 LevelDB是快速键值存储库。 运行:sh buildIndex.sh tokenize语料库:buildIndex_tokenize.py输入:Robust2004语料库输出:〜/ Documents / ir / Robust2004 / result / tokenize / 从标记化语料库中提取文档信息:buildIndex_extract.py输入:标记化语料库输出:将单词转换为term_ids到文件/doc.extract格式:[doc_id \ t term_id \ t term_tf \ t position_in_doc] 按编号顺序对/doc.extract中
2021-09-03 15:11:40 85KB Python
1
千次曝光出价产生 为了促进中文自然语言处理研究的发展,本项目提供了CPM-LM (2.6B)模型的文本生成代码,可用于文本生成的本地测试,并同时为基础进一步研究零次学习/少次学习等场景。[] [] [] 安装 首先安装pytorch等基础依赖,再安装以支持fp16: pip install -r requirements.txt git clone https://github.com/NVIDIA/apex cd apex pip install -v --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" ./ 考虑到apex的安装容易发生问题,我们内置了对应的Docker容器,可以进行快速环境搭建。安装方式如下: docker pull dmye/cpm:v0 参考运行指令如下: sudo
2021-08-23 20:41:46 926KB Python
1