| 本项目提供了针对中文的XLNet预训练模型,扩展了丰富的自然语言处理资源,提供多种中文预训练模型选择。我们欢迎各位专家学者下载使用,并共同促进和发展中文资源建设。 本项目基于CMU /谷歌官方的XLNet: : 其他相关资源: MacBERT预训练模型: : 中文ELECTRA预训练模型: : 中文BERT-wwm预训练模型: : 知识蒸馏工具TextBrewer: : 查看更多哈工大讯飞联合实验室(HFL)发布的资源: : 新闻 2021年1月27日所有模型已支持TensorFlow 2,请通过变压器库进行调用或下载。 2020/9/15我们的论文被录用为长文。 2020/8/27哈工大讯飞联合实验室在通用自然语言理解评论GLUE中荣登榜首,查看,。 2020/3/11为了更好地了解需求,邀请您填写,刹车为大家提供更好的资源。 2020/2/26哈工大讯飞联合实验室发布 历史新闻2019/12/19本目录发布的模型已接受[Huggingface-Transformers]( ) 2019/9/5 XLNet-base已可下载,查看 2019/8/1
1
基准短语提取基准数据集 该存储库包含大量精选的基准数据集,用于评估自动关键词提取算法。 这些数据集均使用Stanford CoreNLP套件进行了预处理,并以XML格式提供。 数据集格式 所有数据集均按照以下通用结构存储: dataset/ /test/ <- test documents /train/ <- training documents (if available) /dev/ <- validation documents (if available) /src/ <- e
1
伦敦 使用Python和GraphX的Spark中的身份图。 参考 指示 创建虚拟环境 virtualenv -p python3 .env source .env/bin/activate pip install -r requirements.txt 构建Docker映像 ./bin/build.sh slave ./bin/build.sh master ./bin/build.sh zoo ./bin/build.sh network 运行Docker容器 ./bin/start.sh slave ./bin/start.sh master ./bin/start.sh zoo 使用Hadoop集群UI 访问http://0.0.0.0:8088/cluster 。 监控Docker容器 ./bin/status.sh 停止Docker容器 ./bin/stop.sh slave
2021-10-31 20:04:26 694KB python nlp docker natural-language-processing
1
Natural Language Processing with PyTorch by Brian McMahan, Delip Rao Publisher: O'Reilly Media, Inc. Release Date: February 2019
2021-10-29 11:09:48 4.84MB NLP NL
1
Deep Learning for Natural Language Processing by Jason Brownlee 在 Python 中为自然语言开发深度学习模型
2021-10-23 09:03:50 7.2MB DeepLearning DL NLP JasonBrownlee
Implement natural language processing applications with Python using a problem-solution approach. This book has numerous coding exercises that will help you to quickly deploy natural language processing techniques, such as text classification, parts of speech identification, topic modeling, text summarization, text generation, entity extraction, and sentiment analysis. Natural Language Processing Recipes starts by offering solutions for cleaning and preprocessing text data and ways to analyze it with advanced algorithms. You’ll see practical applications of the semantic as well as syntactic analysis of text, as well as complex natural language processing approaches that involve text normalization, advanced preprocessing, POS tagging, and sentiment analysis. You will also learn various applications of machine learning and deep learning in natural language processing. By using the recipes in this book, you will have a toolbox of solutions to apply to your own projects in the real world, making your development time quicker and more efficient. What You Will Learn Apply NLP techniques using Python libraries such as NLTK, TextBlob, spaCy, Stanford CoreNLP, and many more Implement the concepts of information retrieval, text summarization, sentiment analysis, and other advanced natural language processing techniques. Identify machine learning and deep learning techniques for natural language processing and natural language generation problems Who This Book Is For Data scientists who want to refresh and learn various concepts of natural language processing through coding exercises.
2021-10-21 23:45:54 3.84MB Natural Lang
1
GPT-2 PyTorch实施 目录 介绍 该项目是OpenAI GPT-2模型的PyTorch实现。 它提供模型训练,句子生成和量度可视化。 它被认为是可以理解和优化的。 我们设计的代码易于理解。 另外,我们使用来提高性能。 依存关系 正则表达式 tqdm 火炬 麻木 matplotlib 用法 怎么训练? 在训练GPT-2模型之前,应准备语料库数据集。 我们建议使用构建自己的语料库。 相反,训练模块需要带有词汇表文件的标记化训练和评估数据集。 准备数据集后,可以使用以下方法训练GPT-2: $ python -m gpt2 train --train_corpus build/corpus.train.txt \ --eval_corpus build/corpus.test.txt \
1
语音聊天 Проектсостоитиздвухчастей-голосовойботиRESTfulсервердлявзаимодействиясним。 Длязапускаботалокальнонужновыполнить python3 bot.py (или run_bot.sh )ивпредложенномменювыбратьжелаемыйвариантработы( )。 Длязапуска的RESTfulсервера,предоставляющегоинтерфейсдлявзаимодействиясмодулямиголосовогобота,нужно
2021-10-19 17:39:19 75.29MB nlp bot flask natural-language-processing
1
哈工大最新《自然语言处理数据增强方法》综述论文,155页pdf阐述复述、噪声和抽样三大数据增强方法 数据增强(DA)是一种有效的策略,可以缓解深度学习技术可能失败的数据稀缺情况。它在计算机视觉中得到了广泛的应用,然后被引入到自然语言处理中,并在许多任务中取得了改进。DA方法的重点之一是提高训练数据的多样性,从而帮助模型更好地泛化到未见测试数据。在本研究中,我们根据扩充数据的多样性,将数据增强方法分为三大类,即复述、噪声和抽样。本文从以上几个方面对数据挖掘方法进行了详细的分析。此外,我们还介绍了它们在自然语言处理任务中的应用以及面临的挑战。 引言 数据增强(Data Augmentation,简称DA),是指根据现有数据,合成新数据的一类方法。毕竟数据才是真正的效果天花板,有了更多数据后可以提升效果、增强模型泛化能力、提高鲁棒性等。然而由于NLP任务天生的难度,类似CV的裁剪方法可能会改变语义,既要保证数据质量又要保证多样性,使得大家在做数据增强时十分谨慎。 作者根据生成样本的多样性程度,将DA方法分为了以下三种: Paraphrasing:对句子中的词、短语、句子结构做一些更改,保留原始的语义 Noising:在保证label不变的同时,增加一些离散或连续的噪声,对语义的影响不大 Sampling:旨在根据目前的数据分布选取新的样本,会生成更多样的数据
2021-10-18 22:10:51 2.24MB 自然语言处理
1
图像字幕生成器:LSTM模型从预先训练的VGG-16模型中提取特征后,会为输入图像生成字幕。 (计算机视觉,自然语言处理,深度学习,Python)
1