简介-自然语言处理 汉良作者何晗老师的新书《自然语言处理入门》详细的笔记!业界良心之作,书中不是枯燥无味的公式罗列,甚至用白话分解的通俗易懂的算法模型。从基本概念出发,逐步介绍中文分词,词性标注,命名实体识别,信息删除,文本聚类,文本分类,句法分析这几个热门问题的算法原理与工程实现。 本项目初步帮助更多同路人能够快速的掌握NLP的专业知识,理清知识要点,在工作中发挥作用的作用。以书本为主,记录本人学习此书的心路历程,总结和笔记。 机器学习与深度学习请转至本人项目: HanLP项目: 思维导图,请关注AIArea公众号并回复:NLP思维导图,即能下载高清大图。 目录 章节
2021-12-06 11:58:27 6.96MB nlp ai deep-learning mechine-learing
1
使用BERT构建和训练最先进的自然语言处理模型 关于这本书 BERT(来自变压器的双向编码器表示)以令人鼓舞的结果彻底改变了自然语言处理(NLP)的世界。 本书是入门指南,可帮助您掌握Google的BERT架构。 通过对变压器架构的详细说明,这本书将帮助您了解变压器的编码器和解码器如何工作。 通过学习如何对BERT模型进行预训练以及如何对下游任务使用经过预训练的BERT,以及通过使用Hugging Face转换器库对NLP任务(例如,情感分析和文本摘要)进行微调,您将探索BERT架构。 随着您的前进,您将了解BERT的不同变体,例如ALBERT,RoBERTa和ELECTRA,并查看SpanBERT,它用于NLP任务(如问题解答)。 您还将介绍基于知识提炼的更简单,更快的BERT变体,例如DistilBERT和TinyBERT。 本书详细介绍了MBERT,XLM和XLM-R,然后向您
2021-12-05 20:45:52 17.8MB nlp pytorch transformer bart
1
一个很实用的文档,运用卷积神经网络实现自然语言处理的简单教程。简单介绍了卷积神经网络,以及在自然语言处理领域的应用,附有常见的模型框架。
2021-12-03 20:52:50 573KB 自然语言处理 卷积神经网络
1
wikitext-2数据集,是torchtext中自然语言建模数据集之一,其是从Wikipedia的优质文章和标杆文章中提取得到,运行PyTorch的教程SEQUENCE-TO-SEQUENCE MODELING WITH NN.TRANSFORMER AND TORCHTEXT时,由于网络原因无法自动下载,将本压缩包解压并放置到torchtext的root目录下就可以运行。
2021-12-03 11:19:15 8.54MB 自然语言处理 torchtext 数据集
1
hmm的matlab代码HanLP: Han Language Processing 汉语言处理包 HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。 HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 HanLP提供下列功能: 中文分词 HMM-Bigram(速度与精度最佳平衡;一百兆内存) 、 由字构词(侧重精度,全世界最大语料库,可识别新词;适合NLP任务) 、 词典分词(侧重速度,每秒数千万字符;省内存) 所有分词器都支持: 词性标注 (速度快) 、(精度高) 命名实体识别 基于HMM角色标注的命名实体识别(速度快) 、、、、 基于线性模型的命名实体识别(精度高) 、 关键词提取 自动摘要 短语提取 多音字、声母、韵母、声调 简繁分歧词(简体、繁体、台湾正体、香港繁体) 语义推荐、拼音推荐、字词推荐 依存句法分析 KMeans、Repeated Bisection、自动推断聚类数目k 词向量训练、加载、词语相似度计算、语义运算、查询、KMeans聚类 文档语义相似度计算 部分默认模型训练自小型
2021-12-02 20:45:43 21.43MB 系统开源
1
数据跨越10年以上,包括截至2012年10月的568,454条评论。内容包括产品、用户信息、评分以及纯文本评论。
2021-12-02 15:12:26 116.45MB NLP 自然语言处理
1
NeuralClassifier旨在快速实现分层多标签分类任务的神经模型,这在现实场景中更具挑战性和普遍性。 一个显着的特点是NeuralClassifier目前提供各种文本编码器,如FastText,TextCNN,TextRNN,RCNN,VDCNN,DPCNN,DRNN,AttentiveConvNet和Transformer编码器等。它还支持其他文本分类场景,包括二进制类和 多级分类。 它建立在PyTorch上。
2021-12-01 20:08:56 12.87MB Python开发-自然语言处理
1
本书提供了对自然语言处理的高度可理解的介绍,自然语言处理是支持各种语言技术的领域,从预测性文本和电子邮件过滤到自动摘要和翻译。
2021-12-01 13:38:28 81B 计算机科学
1
《统计自然语言处理》全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。
2021-12-01 10:35:34 173.53MB 自然语言处理 算法
1
使用gensim对维基百科作为预训练语料(约1.6G语料),生成词汇量约13000个词汇,维度为300,文件大小为45.6MB。使用方法,参考博客:https://blog.csdn.net/qq_36426650/article/details/87738919
2021-11-30 14:55:25 32.97MB NLP word2vec中文词向量 自然语言处理
1