【内容摘要】这套NLP资源着重于词向量表示与语言模型的相关理论与实践,内含详尽的PPT教学课件和实战代码示例。 【适用人群】主要为对自然语言处理技术感兴趣的学生、教师、研究者以及相关领域的开发者,尤其适合初学者深化理解和进阶者提升技能。 【适用场景】包括但不限于机器翻译、情感分析、语义搜索、聊天机器人开发等领域。资源的目标是帮助用户掌握词向量的构建原理(如Word2Vec、GloVe等),理解并应用语言模型(如n-gram、RNN、Transformer等)进行文本生成与预测任务,从而全面提升其在NLP项目中的问题解决能力和技术研发实力。
2024-09-29 10:09:39 2.95MB 自然语言处理 语言模型
1
glove.6B.100d.zip 是一个常见的数据集,其中包含预训练的GloVe词向量模型。该数据集提供了包含100维向量的大型单词向量集合,这些向量是在大规模文本语料库上使用GloVe算法训练得到的。
2024-04-07 23:24:06 128.08MB 数据集
1
iamQA 中文wiki百科问答系统,本项目使用了torchserver部署模型 知识库:wiki百科中文数据 模型:使用了的NER(CCKS2016数据)和阅读理解模型(CMRC2018),还有Word2Vec词向量搜索。 详细内容可以参考文章: 项目框架 模块介绍 ChineseWiki-master 功能:清洗wiki中文数据 相关项目: NER 功能:从问题中识别实体 例子:qurry:周董是谁? 》》 entiy:周董 模型:ALBERT 数据集:CCKS2016KBQA 相关项目: Word2vec 功能:如果实体不在知识库,则用W2V搜索近似实体 例子:entity:周董 >> ['周杰伦','JAY','林俊杰'] 相关项目: Entity linking 功能:根据NER或W2V得到的mention entity搜索知识库 Reader 功能:阅读理解文段,精确定位答
2023-12-22 16:42:56 636KB wiki Python
1
上下载了glove.6B的词向量 里面包含了100d常用英文单词的词向量 由于下载比较慢在这边分享一波 大概800+M
2023-06-09 13:19:06 116.93MB glove.6B 100d glove.6B.100d.zi 词向量
1
项目中要对短文本进行相似度估计,word2vec是一个很火的工具。本文就word2vec的训练以及加载进行了总结。 word2vec的原理就不描述了,word2vec词向量工具是由google开发的,输入为文本文档,输出为基于这个文本文档的语料库训练得到的词向量模型。 通过该模型可以对单词的相似度进行量化分析。 word2vec的训练方法有2种,一种是通过word2vec的官方手段,在linux环境下编译并执行。 在github上下载word2vec的安装包,然后make编译。查看demo-word.sh脚本,得到word2vec的执行命令: ./word2vec -train text8
2023-05-16 14:28:32 60KB c ec OR
1
word2vec预训练模型,gensim做的
2023-04-19 20:41:41 267.66MB word2vec 预训练模型 维基百科
1
文本分类,
2023-03-23 16:48:22 569KB mac
1
建立实验环境 1个安装python(2.7) 2安装点: 2.1下载pip 2.2解压缩后,安装指令python setup.py install 2.3 pip升级python -m pip install --upgrade pip 2.4 pip安装扩展包pip install jieba(这里以jieba包为例),如果速度较慢,可转换内部的阿里源,即pip install jieba -i --trusted-host mirrors.aliyun.com 3安装pycharm 4使用GitHub获取代码 4.1安装git 4.2登陆自己的GitHub账号,找到自己的项目,(别人的需要先fork过来,也可以直接git clone xxx,或者直接下载zip包放进pycharm) 4.3:pycharm,首先设置git的位置及github账号,点击Test都通过后继续,依次在菜单栏上单击,从版本控制GitHub上进行VCS检出,登陆自己的账号后选择相应的项目,得到代码。 4.4(更新fork的项目到最新的版本)同步叉子 5 ipython协同开发环境 5.
2022-12-23 21:57:16 76.57MB python nlp NaturallanguageprocessingPython
1
基于词向量和cnn的恶意邮件检测防钓鱼
2022-12-19 17:00:34 59.46MB 词向量 cnn 恶意邮件检测 防钓鱼检测
本资源属于代码类,是一些nlp工具的使用 nlp 工具 word2vec nltk textblob crf++ (1)机器人 (2)中文翻译,及繁体转简体 (3)关键词提取,主题提取,摘要提取 (4)命名体识别 (5)分词 (6)情感分析,正负类分析 (7)近义词,同义词,句子相似性 (8)聚类,监督,无监督 (9)词性标注 (10)词向量提取
2022-11-05 14:56:59 1.49MB nlp 机器学习
1