56688_Python中文自然语言处理基础与实战_源代码和实验数据
2022-04-14 18:24:35 44.69MB
1
Word2Vec 模型word2vec-google-news-300。在 Google News 数据集上训练完成的 Word2Vec 模型,覆盖了大约 300 万的词汇和短语。该模型是利用了整个 Google News 大约 1000 亿个词的语料训练而成!由于文件太大,将压缩包分成了10个部分。
2022-04-14 10:53:33 43.3MB 自然语言处理 预训练模型
1
NLP - glue 数据集
2022-04-12 18:05:13 69.03MB 自然语言处理 人工智能 nlp
1
给定“alien-life.txt”中显示的文本,使用 TextTiling 算法找到所有可能的段边界。 参考边界在文本中用“$$”标记。 执行以下任务。 (可以使用任何编程语言。但是,您应该能够执行这些程序。) 删除所有标点符号并将字符小写。 删除功能词(提供功能词列表链接) 执行词干提取(您可以为此使用 NLTK) 在不使用 NLTK 库的情况下实现 TextTilingt,并用它分割“alien-life.txt”。 使用 (m-sigma) 作为阈值,其中 (m) 平均深度分数和 (sigma) 是标准偏差。 实现 Windowdiff 度量并报告分段性能 将伪句子长度从 10 改变到 100 并绘制 Windowdiff 值。 报告最佳伪句子长度。
2022-04-11 18:50:24 239KB Python
1
1、内容概要:资源主要包括:英文文本分类电影评论情感判别源码及数据集等文件。 标注的训练集:labeledTrainData.tsv;测试集:testData.tsv;没有标签的额外训练集:unlabeledTrainData.tsv;停用词过滤表:stopwords.txt;源代码:movie_reviews_analysis.py 2、本资源适用于初学者学习文本分类使用,主要包括数据预处理、机器学习、文件的读取和写入等。
2022-04-11 14:10:39 51.71MB 自然语言处理 机器学习 文本分类
该报告从 NLP 的概念介绍、研究与应用情况、专家学者概要以及发展趋势这 5 个方向纵览了这一领域的当下与未来。(1)自然语言处理概念。(2)自然语言处理研究情况。(3) 自然语言处理领域专家介绍。(4)自然语言处理的应用及趋势预测。
1
假新闻挑战 这是NLP课程的最终项目。 我们的工作包括以下几个部分: 数据预处理 常规机器学习方法 Seq2seq注意模型 TextCNN和暹罗网络 其他(例如比赛中的相关工作,未来的工作) 1.数据预处理 我们提供了几种数据预处理方法:BoW(单词袋),TF-IDF,word2vec,doc2vec。 每个py文件都会生成x_1(文档表示形式)x_2(标题表示形式)和y(标签)。 这些数据可以作为间谍数据输出,可以在模型中使用。 2.常规机器学习 我们提供py文件以通过常规机器学习(例如SVM,随机森林)对实例进行分类,代码在sklearn上实现。 环境要求:sklearn numpy 3. Seq2seq注意模型 这些代码通常基于一个带有预训练模型的基于注意力的序列到序列模型( )。 要使用代码生成文本摘要。 运行:python3 run_summarization.py -
1
Transformer自然语言处理,Natural Language Processing with Transformers: Building Language Applications with Hugging Face
Transformer自然语言处理,Natural Language Processing with Transformers: Building Language Applications with Hugging Face
python小黄鸡nlp聊天机器人
2022-04-08 12:06:11 63.04MB 自然语言处理 python 人工智能 nlp