本文针对汉语问答技术展开深入研究 [1] 建立了一个具有一定规模并可扩充的汉语问答技术评测平台 [2] 提出了汉语问答系统的提问分类体系及基于多特征的提问分类算法 [3] 设计了基于多特征的汉语命名实体识别算法 [4] 提出了基于主题语言模型的汉语问答系统句子检索算法 [5] 提出了基于无监督学习的问答模式抽取技术
2022-11-17 17:18:31 2.81MB NLP 问答系统 深度学习 
1
自然语言处理大体是从1950年代开始,虽然更早期也有作为。1950年,图灵发表论文“计算机器与智能”,提出现在所谓的“图灵测试”作为判断智能的条件。 1954年的乔治城实验涉及全部自动翻译超过60句俄文成为英文。研究人员声称三到五年之内即可解决机器翻译的问题。[1]不过实际进展远低于预期,1966年的ALPAC报告发现十年研究未达预期目标,机器翻译的研究经费遭到大幅削减。一直到1980年代末期,统计机器翻译系统发展出来,机器翻译的研究才得以更上一层楼。 1960年代发展特别成功的NLP系统包括SHRDLU——一个词汇设限、运作于受限如“积木世界”的一种自然语言系统,以及1964-1966年约瑟夫·维森鲍姆模拟“个人中心治疗”而设计的ELIZA——几乎未运用人类思想和感情的讯息,有时候却能呈现令人讶异地类似人之间的互动。“病人”提出的问题超出ELIZA 极小的知识范围之时,可能会得到空泛的回答。例如问题是“我的头痛”,回答是“为什么说你头痛?
2022-11-16 10:57:40 94.99MB NLP 自然语言处理
1
中华英语 中文的深层上下文单词表示。 本仓库只是输出某些无关的单词嵌入。 依赖 python3 张量流> = 1.10 界坝 使用方法 准备数据,参考data和vocab目录,可用pre_data/vocab.py处理出字典(每个data文件不能太大,否则内存不足) 训练模型train_elmo.py 输出模型dump_weights.py 把options.json里的261改成262 输出单词嵌入到hdf5文件usage_token.py 实验结果 用可视化工具看合理, textmatch任务textmatch AUC 1-2。 执照 麻省理工学院
2022-11-15 21:49:53 3.32MB nlp tensorflow word-embedding wordvectors
1
tomotopy:主题建模工具Tomoto的Python软件包
1
–背景介绍–法律文书处理的应用及技术现状–学术界研究热点–典型技术及应用挑战–总结近年来•ICAIL:InternationalConferenceonArti
2022-11-12 21:17:47 13.44MB NLP
1
高音数据集对性别分类的自然语言处理NLP 借助自然语言处理NLP,我可以从Tweeter数据集中识别性别分类 该文件包含: 加载数据集: 该数据集用于训练CrowdFlower AI性别预测器。 您可以在此处阅读有关该项目的所有信息。 要求参与者仅查看Twitter的个人资料并判断用户是男性,女性还是品牌(非个人)。 数据集包含20,000行,每个行都有一个用户名,一条随机鸣叫,帐户个人资料和图像,位置,甚至是链接和侧边栏颜色。 数据集来自这里: : 灵感 您可以尝试使用此数据集回答以下几个问题: 推文和个人资料中的单词如何预测用户的性别? 用什么词可以强烈预测男性或女性性别? 风格因素(例如链接颜色和侧边栏颜色)如何很好地预测用户的性别? 数据 数据集包含以下字段: unitid:用户的唯一ID _golden:模型的黄金标准中是否包含用户; 对或错 unitsta
2022-11-11 19:02:20 3.03MB JupyterNotebook
1
kaggle机器学习、深度学习竞赛,包含多模态、目标检测、视频监测和分类、图像分割、图像分类、图像检索、NLP 共21个方案
2022-11-11 11:31:30 338.11MB kaggle 深度学习 图像分割 NLP
1
NLP(ICL)课程:幽默检测 由于数据预处理和训练例程的差异,原始笔记本被复制了两次。 1个 第一个笔记本approach1_pretrained_roberta.ipynb包含方法1的最终RoBERTa模型,以及针对不同功能和头部架构的测试。 使用以下链接 或笔记本顶部的徽章以在Google Colab中查看。 可在以下位置获得经过训练的模型(〜0.5 GB): ://drive.google.com/file/d/1NSLn2pUc4TucEjXB4Se4w29YEqU2xH1i/view usp sharing 2个 第二个笔记本hyperparams_and_approach2.ipynb包括方法1的基本BERT植入以及超参数调整。 与此笔记本一起,还提供了关注方法2的BiLSTM。 使用以下链接 或笔记本顶部的徽章以在Google Colab中查看。 报告 项目报告已上
2022-11-10 00:16:50 93KB JupyterNotebook
1
NLP-Yelp审查:第一个NLP项目
2022-11-09 22:29:09 36KB JupyterNotebook
1
GloVe is an unsupervised learning algorithm for obtaining vector representations for words. Training is performed on aggregated global word-word co-occurrence statistics from a corpus, and the resulting representations showcase interesting linear substructures of the word vector space.
2022-11-09 10:47:50 104.79MB NLP
1