此项目是机器学习、NLP面试中常考到的知识点和代码实现,也是作为一个算法工程师必会的理论基础知识。 既然是以面试为主要目的,亦不可以篇概全,请谅解,有问题可提出。 此项目以各个模块为切入点,让大家有一个清晰的知识体系。 此项目亦可拿来常读、常记以及面试时复习之用。 每一章里的问题都是面试时有可能问到的知识点,结尾处都有算法的实战代码案例。
2022-05-15 16:06:27 11.51MB 机器学习 NLP 面试 代码
斯坦福大学CoreNLP Stanford CoreNLP提供了一组用Java编写的自然语言分析工具。 它可以接受原始的人类语言文本输入,并给出单词的基本形式,它们的词性,是否是公司名称,人员名称等,规范化并解释日期,时间和数字量,标记句子的结构在短语或单词从属关系方面,并指出哪些名词短语指代相同的实体。 它最初是为英语开发的,但现在也为(现代标准)阿拉伯语,(大陆)中文,法语,德语和西班牙语提供不同级别的支持。 斯坦福大学的CoreNLP是一个集成的框架,这使得将大量语言分析工具应用于一段文本变得非常容易。 从纯文本开始,您只需两行代码即可运行所有工具。 它的分析为更高层次和特定领域的文本理解应用程序提供了基础构建块。 Stanford CoreNLP是一套稳定且经过测试的自然语言处理工具,已被学术界,行业和政府中的各个团体广泛使用。 这些工具使用基于规则的,概率机器学习和深度学习组件。 Stanford CoreNLP代码用Java编写,并根据GNU通用公共许可证(v3或更高版本)获得许可。 请注意,这是完整的GPL,它允许许多免费使用,但不能在分发给他人的专有软件中使用。 制
1
SciBERT SciBERT是经过科学文字训练的BERT模型。 SciBERT受过SciBERT )的论文训练。 语料库大小为114万张论文,3.1B令牌。 我们在培训中使用论文的全文,而不仅仅是摘要。 SciBERT拥有自己的词汇表( scivocab ),该词汇表最适合于训练语料库。 我们训练了有壳和无壳版本。 我们还包括在原始BERT词汇表( basevocab )上训练的模型,以进行比较。 它可在各种科学领域的nlp任务上实现最先进的性能。 评估的详细信息在。 评估代码和数据包含在此仓库中。 下载训练有素的模型 更新! 现在可以直接在allenai组织下的allenai框架内安装SciBERT模型: from transformers import * tokenizer = AutoTokenizer.from_pretrained('allenai/scibert_scivocab_uncased') model = AutoModel.from_pretrained('allenai/scibert_scivocab_uncased') tokenizer =
1
tensorflow-chatbot-中文 :person_running: [中文聊天机器人]具有bahdanau注意和Word2Vec预训练嵌入的seq2seq模型的Tensorflow实现 此基于撰写的。 如何 [选项1]重新训练模型 $ git clone https://github.com/AdrianHsu/tensorflow-chatbot-chinese.git # put your own training/eval data in the correct path, as shown above $ ./run.sh [选项2]使用预先训练的保护程序文件测试模型 您应该在下载经过预训练的模型,然后将其放入save/目录。 确保您的输入已经放置在正确的路径中,并且已通过文本分段API(例如jieba)进行了预处理。 $ ./hw2_seq2seq.sh 操作方法(网络) 您必须先下载冻结
2022-05-13 18:27:54 13.64MB nlp deep-learning tensorflow chatbot
1
这是FID预训练好的模型,针对CUB-birds的文本生成图像定量指标训练好的模型 FID分数用于根据预训练网络提取的特征,测量真实图像分布和生成图像分布之间的距离。真实图像在空间中是服从一个分布的(假设为正态分布),而GAN生成的特征也是一个分布,GAN做的事情就是不断训练使这两个分布尽可能的相同。FID就是计算这两个分布直接的距离,使用的距离算法叫做Frechet distance。
2022-05-13 17:06:48 30.67MB 文档资料 自然语言处理 人工智能 nlp
本项目是在一个开源中文电子病历数据集上的命名实体识别(NER)任务的源码,其中包含了数据预处理、BERT-BiLSTM模型实现以及训练与测评的完整过程。本人有一篇博客是对其的详细说明,源码也注释详细,简单易读。
2022-05-12 15:19:20 1.5MB 自然语言处理 源码软件 人工智能 nlp
自然语言处理数据集-5 万多条中文命名实体识别标注数据-中文命名实体识别.rar
2022-05-12 08:42:34 2.9MB 自然语言处理 人工智能 nlp
1
爬取豆瓣top250图书的书评,并用snownlp进行情感分析-并使用javaweb进行页面展示,里面有代码和文件
2022-05-11 22:45:28 183KB Java Python NLP 爬虫
1
nlp2014-2017年重要论文合集,个人收集,主要来源顶会
2022-05-11 15:08:52 87.8MB nlp
1
自然语言处理第二次作业: data文件夹中存储语料(中文语料以及英文语料由老师提供,另一份为中文停用词语料) output文件夹中存储输出的词向量文件 script文件夹中为CBOW的脚本,同时处理中文语料与英文语料 运行步骤:在脚本中确定训练中文或者是英语后,直接运行即可
2022-05-11 10:42:22 13.58MB nlp pytorch cbow 词向量
1