tidytext:使用整洁工具进行文本挖掘
1
目前的自然语言处理模型严重依赖有效的表示学习算法。对比学习就是这样一种学习嵌入空间的技术,它使相似的数据样本对具有相近的表示,而不同的样本彼此相距遥远。它可以用于监督或非监督设置,使用不同的损失函数来产生特定于任务的或通用的表示。虽然它最初使视觉任务的成功成为可能,但近年来,关于对比NLP的工作越来越多。这一第一行的工作不仅在各种NLP任务中提供了有前景的性能改进,而且还提供了所需的特性,如任务不可知的句子表示、忠实的文本生成、零样本和少样本设置下的数据高效学习和可解释性。 在本教程中,我们将温柔地介绍对比学习方法的基本原理及其背后的理论。然后,我们调研了对比学习对各种下游NLP应用的好处和最佳实践,包括文本分类、问题回答、摘要、文本生成、可解释性和可解释性、常识知识和推理、视觉和语言。 本教程旨在帮助自然语言处理和计算语言学领域的研究人员理解这一新兴主题,并推动将对比学习用于自然语言处理应用的未来研究方向。
2022-07-11 09:12:49 15.37MB nlp 机器学习
语言工具 LanguageTool是一款开放源代码校对软件,适用于英语,法语,德语,波兰语,俄语以及。 它会发现许多简单的拼写检查器无法检测到的错误。 ( ) 有关更多信息,请参见我们的主页,为 , 和 。 LGPL 2.1或更高版本免费提供LanguageTool。 码头工人 对于社区贡献的Docker文件,请尝试以下项目之一: ) ) 会费 描述了如何贡献错误检测规则。 请参阅问题以获取开始的问题。 有关更多技术细节,请参见。 脚本化安装和构建 要使用脚本进行安装或构建,只需键入: curl -L https://raw.githubusercontent.com/languagetool-org/languagetool/master/install.sh | sudo bash 如果希望有更多选择,请下载install.sh脚本。 使用选
1
背景 几乎不可能预测某人何时会死于自杀,但通过早期干预,许多死亡是可以预防的。 使用机器学习算法的临床试验已经能够使用患者的语言来计算某人在特定时间点自杀的可能性。 在这里,我们确定与自杀风险相关的语言特征在出院 30 天后是否持续存在。 方法利用多个医院基地急诊科和门诊部将受试者(n=253)纳入两组之一:自杀组或对照组。 他们对旨在收集思想标记的标准化工具和访谈的React被记录下来,并用机器学习算法进行分析。 大约 30 天后,受试者再次接受采访,并对他们采访中的语言进行分析,以确定是否存在自杀意念。 结果 结果表明,初次相遇时用于对自杀进行分类的语言特征在 30 天后仍存在于参与者的讲话中(AUC = 0·89(95% CI:0·85-0·95),p < 0 ·0001) 反之亦然; 在第二次采访中训练的分类器可以识别产生第一次采访的队列(AUC = 0·85(95% CI:0·81–0·90),p < 0·0001)。 解释 这种方法探讨了自杀式访谈在记录 30 天后的稳定性。 它通过计算创新和完善的计算语言方法来实现。 结果表明,患者语言所表现出的想法在首次披露后 30 天仍对机器学习有效,但与标准措施的初始相关性则无效。 这在寻求后续护理的决策支持时非常有用。 资金说明:辛辛那提儿童医院医疗中心,创新基金。 利益声明:作者没有要声明的竞争利益。 伦理批准声明:一项前瞻性临床试验于 2013 年 10 月至 2015 年 3 月期间进行(机构审查委员会 (#2013-3770) 批准)。
2022-06-29 23:15:35 172KB Natural Language Processing
1
udpipe-基于UDPipe的用于标记化,标记,合法化和依赖性解析的R包 该存储库包含的R包是绕UDPipe C ++库的RCPP包装物( , )。 UDPipe提供了与语言无关的标记,标记,词条化以及原始文本的依赖项解析,这是自然语言处理中必不可少的部分。 所使用的技术在论文中进行了详细说明:“使用UDPipe进行令牌化,POS标记,解密和解析UD 2.0”,可从以下网址获得: //ufal.mff.cuni.cz/~straka/papers/2017-conll_udpipe.pdf 。 在该论文中,您还将发现不同语言和流程速度的精确度(以每秒字数为单位)。 一般 在围绕UD
2022-06-29 13:12:39 4.69MB nlp natural-language-processing text-mining r
1
深度学习面试书:深度学习面试宝典(含数学,机器学习,深度学习,计算机视觉,自然语言处理和SLAM等方向)
1
PyTorch问答 该存储库包含一些最重要的问题解答论文的实现。 这些实现以教程的形式进行,并且大致是所述论文的注释。 对于那些了解深度学习和NLP基础知识,想要开始阅读稍微复杂的论文并了解其实现方式的人来说,该存储库可能会有所帮助。 尽管我已尽力以简单的方式分解所有内容,但该存储库还假定您对PyTorch基础有所了解。 问题回答 问答是一项重要的任务,基于此,可以判断NLP系统和AI的智能。 QA系统将给出有关某个主题的简短段落或上下文,并根据文章内容提出一些问题。 这些问题的答案是上下文的跨度,也就是说,它们可以直接在文章中找到。 为了训练这样的模型,我们使用数据集。 入门 名为“ QA的
1
图书简介 该书将带您学习使用Python的NLP,并研究了由Google,Facebook,Microsoft,OpenAI和Hugging Face等先驱者创建的变压器体系结构中的各种杰出模型和数据集。 这本书分三个阶段训练您。在向RoBERTa,BERT和DistilBERT模型过渡之前,第一阶段向您介绍从原始变压器开始的变压器体系结构。您会发现一些小型变压器的培训方法在某些情况下可以胜过GPT-3。在第二阶段,您将应用自然语言理解(NLU)和自然语言生成(NLG)的转换器。最后,第三阶段将帮助您掌握高级语言理解技术,例如优化社交网络数据集和假新闻识别。 在这本NLP书籍的最后,您将从认知科学的角度理解变压器,并精通将技术巨头预先训练好的变压器模型应用于各种数据集。 您将学到什么 使用最新的预训练变压器模型 掌握原始Transformer,GPT-2,BERT,T5和其他变压器模型的工作原理 使用优于经典深度学习模型的概念创建理解语言的Python程序 使用各种NLP平台,包括Hugging Face,Trax和AllenNLP 将Python,TensorFlow和Keras程序应用于情感分析,文本摘要,语音识别,机器翻译等 测量关键变压器的生产率,以定义其范围,潜力和生产限制
2022-05-15 18:36:39 4.72MB Transformers NaturalLanguage nlp
1
斯坦福大学CoreNLP Stanford CoreNLP提供了一组用Java编写的自然语言分析工具。 它可以接受原始的人类语言文本输入,并给出单词的基本形式,它们的词性,是否是公司名称,人员名称等,规范化并解释日期,时间和数字量,标记句子的结构在短语或单词从属关系方面,并指出哪些名词短语指代相同的实体。 它最初是为英语开发的,但现在也为(现代标准)阿拉伯语,(大陆)中文,法语,德语和西班牙语提供不同级别的支持。 斯坦福大学的CoreNLP是一个集成的框架,这使得将大量语言分析工具应用于一段文本变得非常容易。 从纯文本开始,您只需两行代码即可运行所有工具。 它的分析为更高层次和特定领域的文本理解应用程序提供了基础构建块。 Stanford CoreNLP是一套稳定且经过测试的自然语言处理工具,已被学术界,行业和政府中的各个团体广泛使用。 这些工具使用基于规则的,概率机器学习和深度学习组件。 Stanford CoreNLP代码用Java编写,并根据GNU通用公共许可证(v3或更高版本)获得许可。 请注意,这是完整的GPL,它允许许多免费使用,但不能在分发给他人的专有软件中使用。 制
1
PyThaiNLP:使用Python进行泰国自然语言处理 PyThaiNLP是一个Python软件包,用于文本处理和语言分析,类似于 ,重点是泰语。 PyThaiNLPเป็นไลบารีภาษาไพทอนสำหรับประมวลผลภาษาธรรมชากับคล้ายกับNLTKโดยเน้นภาษาไทย รายละเอียดภาษาไทย 消息 我们正在进行2分钟的调查,以了解有关您使用图书馆的经验以及您对图书馆应该能够做什么的期望。参加。 版本 描述 状态 稳定的 发布候选版本2.3 请关注我们的以获取更多更新。 PyThaiNLP入门 我们提供了以探索PyThaiNLP的功能;我们也有针对特定任务的教程。请访问。 最新文档位于 。 我们尝试使该包尽可能易于使用;因此,某些其他数据(例如单词列表和语言模型)可能会在运行时自动下载。 PyThaiNLP默认在目录~/pyt
1