本课程为中国科学院研究生院专业基础课 宗成庆:《自然语言理解》讲义 机器翻译
2021-06-20 16:51:24 83.44MB 机器翻译  语言模型 神经语言模型
1
机器阅读理解(MRC)旨在教会机器阅读和理解人类语言,这是自然语言处理(NLP)的长期目标。随着深度神经网络的爆发和上下文语言模型(CLMs)的发展,MRC的研究经历了两个重大突破。
2021-04-18 11:05:36 2.19MB 语言模型 综述论文
1
讲述语言模型的发展历史,对阶段性较有代表性的工作进行了简述,同时对一些重要的技术细节展开了分析,主要从n-gram语言模型到BERT预训练语言模型,同时对这些模型的应用场景也进行了阐述,可以帮助我们整理思路,提供学习素材。
2021-04-15 10:31:54 1.94MB 自然语言处理 语言模型
1
自然语言处理词向量和语言模型.pdf
2021-03-19 16:06:31 583KB 自然语言处理 词向量
1
以建立维吾尔语连续音素识别基础平台为目标,在HTK(基于隐马尔可夫模型的工具箱)的基础上,首次研究了其语言相关环节的几项关键技术;结合维吾尔语的语言特征,完成了用于语言模型建立和语音语料库建设的维吾尔语基础文本设计;根据具体技术指标,录制了较大规模语音语料库;确定音素作为基元,训练了维吾尔语声学模型;在基于字母的N-gram语言模型下,得出了从语音句子向字母序列句子的识别结果;统计了维吾尔语32个音素的识别率,给出了容易混淆的音素及其根源分析,为进一步提高识别率奠定了基础。
1
通过社交网络上的双向影响传播进行的社会化语言模型平滑
2021-02-25 16:06:17 1.5MB 研究论文
1
字符张量流 使用Tensorflow在Python中使用字符级语言模型的多层递归神经网络(LSTM,RNN)。 灵感来自安德烈·卡帕蒂(Andrej Karpathy)的。 要求 基本用法 要在tinyshakespeare语料库上使用默认参数进行训练,请运行python train.py 。 要访问所有参数,请使用python train.py --help 。 要从检查点模型中采样python sample.py 。 在学习仍在进行时进行采样(以检查最后一个检查点)仅在CPU或其他GPU中有效。 要强制CPU模式,请使用export CUDA_VISIBLE_DEVICES=""并随后unset CUDA_VISIBLE_DEVICES (在Windows上分别set CUDA_VISIBLE_DEVICES=""并set CUDA_VISIBLE_DEVICES= )。 要在
2021-02-22 14:06:34 437KB Python
1
本项目利用python实现N-gram语言模型,采用的平滑算法是Kneser-Ney平滑。
2019-12-21 21:33:06 11.36MB language mod N-gram KN平滑
1
这是一个完美的任意元线性回归模型,使用c语言编写,采用初等变换实现,使用非常方便,只有2个函数,只要把要用到的函数拷到你的程序中即可。里面还附上逆阵的测试程序方便你验证,源文件使用.cpp或记事本打开
2019-12-21 20:03:21 11KB 多元 线性 回归 C语言
1
sphinx4需要使用连续的声学模型,官网上下载下来的中文声学模型全是半连续的,这里提供能够在sphinx4中使用的中文声学模型
2019-12-21 19:58:16 13.69MB sphinx4 中文命令词 java 语音识别
1