doc2vec 该存储库包含Python脚本,用于使用训练doc2vec模型。 有关doc2vec算法的详细信息,请参见论文。 创建一个DeWiki数据集 Doc2vec是一种无监督的学习算法,并且可以使用任何文档集来训练模型。 文档可以是简短的140个字符的推文,单个段落(如文章摘要,新闻文章或书籍)中的任何内容。 对于德国人来说,一个好的基线是使用训练模型。 下载最新的DeWiki转储: wget http://download.wikimedia.org/dewiki/latest/dewiki-latest-pages-articles.xml.bz2 提取内容: wget http://medialab.di.unipi.it/Project/SemaWiki/Tools/WikiExtractor.py python WikiExtractor.py -c -b 2
2023-02-22 15:58:08 199KB nlp machine-learning word2vec doc2vec
1
火爆全网的ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,一款人工智能技术驱动的自然语言处理工具。 ChatGPT能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。同时也引起无数网友沉迷与ChatGPT聊天,成为大家讨论的火爆话题。 ChatGPT,一出世就备受关注。都有被玩坏的趋势。 有人用来写诗; 有人用来写代码; 有人用来写检讨; 有人用来写小说; 有人用来写论文; 总之,五花八门,ChatGPT很忙! 今天就来实现一个使用ChatGPT打造的聊天小程序,前端使用UniApp,后端使用Python。 请笑纳!
2023-02-22 11:41:52 6.49MB chatgpt nlp 微信小程序
1
深度语义角色标签 该存储库包含用于训练和使用Deep SRL模型的代码,该代码在以下内容中进行了描述: 如果您使用我们的代码,请按以下方式引用我们的论文: @inproceedings {he2017deep, title = {深层语义角色标签:什么起作用,下一步是什么}, 作者= {他,鲁恒和李,肯顿和刘易斯,迈克和Zettlemoyer,卢克}, booktitle = {计算语言学协会年会论文集}, 年= {2017} } 入门 先决条件: python应该使用Python2。您可以使用virtualenv进行模拟。 点安装numpy pip install theano ==
2023-02-22 10:44:24 54KB nlp theano deep-learning tagging
1
Bert作为目前自然语言处理领域最流行的技术之一,文本分类作为自然语言处理领域最常见的任务之一,Pytorch作为目前最流程的深度学习框架之一,三者结合在一起将会产生什么样的花火,本套课程基于Pytorch最新1.4版本来实现利用Bert实现中文文本分类任务,延续动手学系列课程风格,全程手敲代码,跟着杨博一行一行代码撸起来。
1
PYBO-Python中的藏语NLP 概述 bo将藏文文字标记为单词。 基本用法 入门 需要安装Python3。 python3 -m pip install pybo 标记字符串 drupchen@drupchen: ~ $ bo tok-string " ༄༅། །རྒྱ་གར་སྐད་དུ། བོ་དྷི་སཏྭ་ཙརྻ་ཨ་བ་ཏ་ར། བོད་སྐད་དུ། བྱང་ཆུབ་སེམས་དཔའི་སྤྱོད་པ་ལ་འཇུག་པ། ། སངས་རྒྱས་དང་བྱང་ཆུབ་སེམས་དཔའ་ཐམས་ཅད་ལ་ཕྱག་འཚལ་ལོ། །བདེ་གཤེགས་ཆོས་ཀྱི་སྐུ་མངའ་སྲས་བཅས་དང༌། །ཕྱག་འོས་ཀུན་ལའང་གུས་པར་ཕྱག་འཚལ་ཏེ། །བདེ་གཤེགས་ སྲས་ཀྱི་སྡོམ་ལ་འཇུག་པ་ནི། །ལུང་བཞིན་མ
2023-02-18 20:49:53 170KB search nlp toolkit linguistics
1
国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。
2023-02-13 20:14:22 24.42MB NLP
1
chinese_L-12_H-768_A-12压缩包下载,适用于bert
2023-02-12 14:07:25 365.79MB bert NLP
1
本文档详细分析了预训练语言模型领域的最新进展,可为自然语言处理的研究和学习人员提供参考。用于重现分析结果的代码可在github上获取。
2023-02-10 12:19:55 304KB 自然语言处理 NLP 语言模型 Bert
1
SMP2020微博情绪分类技术评测数据集 本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供,原始数据源于新浪微博,由微热点大数据研究院提供,数据集分为两部分。     第一部分为通用微博数据集,该数据集内的微博内容是随机获取到微博内容,不针对特定的话题,覆盖的范围较广。     第二部分为疫情微博数据集,该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博,其内容与新冠疫情相关。     因此,本次评测训练集包含上述两类数据:通用微博训练数据和疫情微博训练数据,相对应的,测试集也分为通用微博测试集和疫情微博测试集。参赛成员可以同时使用两种训练数据集来训练模型。     每条微博被标注为以下六个类别之一:neutral(无情绪)、happy(积极)、angry(愤怒)、sad(悲伤)、fear(恐惧)、surprise(惊奇)。     通用微博训练数据集包括27,768条微博,验证集包含2,000条微博,测试数据集包含5,000条微博。     疫情微博训练数据集包括8,606条微博,验证集包含2,000条微博,测试数据集包含3,000
2023-02-09 16:48:42 44.7MB 数据集 NLP 情感分析
1
中文语义情绪识别训练样本 购物评论训练样本 可用于自然语义识别模型训练和预测 自带2万余条带有正负情绪倾向的中文评论
2023-02-08 16:19:56 2.85MB 机器学习 NLP 训练样本
1