得来的完整原版pdf,共361页,不是图片版,有索引,自然语言入门神书,豆瓣评分9.1
2022-10-24 01:27:17 6.46MB deeplearning NLP 深度学习
1
修剪后的依赖树上的图卷积用于关系提取 此回购包含PyTorch代码,用于修剪。 本文/代码在修剪的依赖树上引入了图卷积神经网络(GCN),用于关系提取的任务。 还引入了一种特殊的树修剪技术,称为“以路径为中心的修剪”,以从树中消除不相关的信息,同时最大程度地维护相关信息。 与诸如各种基于LSTM的模型之类的序列模型相比,此GCN模型利用依赖结构桥接远程单词,因此提高了远程关系的性能。 与以前的递归模型(如TreeLSTM)相比,此GCN模型在获得更好的性能的同时,也更早地实现了并行化,因此效率更高。 参见下面的模型架构概述: 要求 Python 3(在3.6.5上测试) PyTorch(
1
参考https://distill.pub/2021/understanding-gnns,学习图的谱表征方法。
2022-10-19 12:05:23 4KB 图像的谱方法表征
1
Rebiber:使用官方信息标准化bibtex的工具。 我们经常引用使用他们的arXiv的论文版本不提的是,他们在一些会议已经发布。 这些非正式的围兜条目可能会违反某些会议的提交规则或适用于摄像头的版本规则。 我们引入Rebiber ,这是Python中的一个简单工具,可以自动修复它们。 它基于来自或的官方会议信息(适用于NLP会议)! 您可以在查看支持的会议列表。 您可以用作简单的网络演示。 安装 pip install rebiber -U 要么 git clone https://github.com/yuchenlin/rebiber.git cd rebiber/ pip in
1
Coursera作业 该存储库旨在帮助在学习过程中遇到困难的Coursera学习者。 测验和编程作业属于Coursera,请不要将其用于任何其他目的。 如有任何问题,请随时与我联系,我的电子邮件是 。 经济学院专业化高级机器学习 深度学习导论 Python数据科学导论 Python中的应用机器学习 大数据导论 大数据建模与管理系统 大数据交互与处理 文字检索和搜索引擎 文本挖掘和分析 数据挖掘中的模式发现 数据挖掘中的聚类分析 数据科学家的工具箱 R编程 获取和清理数据 算法工具箱 数据结构 图上的算法 字符串算法 神经网络与深度学习 改善深度神经网络的超参数调整,正则化和优化 构建机器学习项
1
tidytext:使用整洁工具进行文本挖掘
1
目前的自然语言处理模型严重依赖有效的表示学习算法。对比学习就是这样一种学习嵌入空间的技术,它使相似的数据样本对具有相近的表示,而不同的样本彼此相距遥远。它可以用于监督或非监督设置,使用不同的损失函数来产生特定于任务的或通用的表示。虽然它最初使视觉任务的成功成为可能,但近年来,关于对比NLP的工作越来越多。这一第一行的工作不仅在各种NLP任务中提供了有前景的性能改进,而且还提供了所需的特性,如任务不可知的句子表示、忠实的文本生成、零样本和少样本设置下的数据高效学习和可解释性。 在本教程中,我们将温柔地介绍对比学习方法的基本原理及其背后的理论。然后,我们调研了对比学习对各种下游NLP应用的好处和最佳实践,包括文本分类、问题回答、摘要、文本生成、可解释性和可解释性、常识知识和推理、视觉和语言。 本教程旨在帮助自然语言处理和计算语言学领域的研究人员理解这一新兴主题,并推动将对比学习用于自然语言处理应用的未来研究方向。
2022-07-11 09:12:49 15.37MB nlp 机器学习
语言工具 LanguageTool是一款开放源代码校对软件,适用于英语,法语,德语,波兰语,俄语以及。 它会发现许多简单的拼写检查器无法检测到的错误。 ( ) 有关更多信息,请参见我们的主页,为 , 和 。 LGPL 2.1或更高版本免费提供LanguageTool。 码头工人 对于社区贡献的Docker文件,请尝试以下项目之一: ) ) 会费 描述了如何贡献错误检测规则。 请参阅问题以获取开始的问题。 有关更多技术细节,请参见。 脚本化安装和构建 要使用脚本进行安装或构建,只需键入: curl -L https://raw.githubusercontent.com/languagetool-org/languagetool/master/install.sh | sudo bash 如果希望有更多选择,请下载install.sh脚本。 使用选
1
背景 几乎不可能预测某人何时会死于自杀,但通过早期干预,许多死亡是可以预防的。 使用机器学习算法的临床试验已经能够使用患者的语言来计算某人在特定时间点自杀的可能性。 在这里,我们确定与自杀风险相关的语言特征在出院 30 天后是否持续存在。 方法利用多个医院基地急诊科和门诊部将受试者(n=253)纳入两组之一:自杀组或对照组。 他们对旨在收集思想标记的标准化工具和访谈的React被记录下来,并用机器学习算法进行分析。 大约 30 天后,受试者再次接受采访,并对他们采访中的语言进行分析,以确定是否存在自杀意念。 结果 结果表明,初次相遇时用于对自杀进行分类的语言特征在 30 天后仍存在于参与者的讲话中(AUC = 0·89(95% CI:0·85-0·95),p < 0 ·0001) 反之亦然; 在第二次采访中训练的分类器可以识别产生第一次采访的队列(AUC = 0·85(95% CI:0·81–0·90),p < 0·0001)。 解释 这种方法探讨了自杀式访谈在记录 30 天后的稳定性。 它通过计算创新和完善的计算语言方法来实现。 结果表明,患者语言所表现出的想法在首次披露后 30 天仍对机器学习有效,但与标准措施的初始相关性则无效。 这在寻求后续护理的决策支持时非常有用。 资金说明:辛辛那提儿童医院医疗中心,创新基金。 利益声明:作者没有要声明的竞争利益。 伦理批准声明:一项前瞻性临床试验于 2013 年 10 月至 2015 年 3 月期间进行(机构审查委员会 (#2013-3770) 批准)。
2022-06-29 23:15:35 172KB Natural Language Processing
1
udpipe-基于UDPipe的用于标记化,标记,合法化和依赖性解析的R包 该存储库包含的R包是绕UDPipe C ++库的RCPP包装物( , )。 UDPipe提供了与语言无关的标记,标记,词条化以及原始文本的依赖项解析,这是自然语言处理中必不可少的部分。 所使用的技术在论文中进行了详细说明:“使用UDPipe进行令牌化,POS标记,解密和解析UD 2.0”,可从以下网址获得: //ufal.mff.cuni.cz/~straka/papers/2017-conll_udpipe.pdf 。 在该论文中,您还将发现不同语言和流程速度的精确度(以每秒字数为单位)。 一般 在围绕UD
2022-06-29 13:12:39 4.69MB nlp natural-language-processing text-mining r
1