该文针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同语进行表达的语言现象进行分析。首先,我们抓取了维基百科以及简繁体新闻网站上的3 200 000万组大中华区平行句对,手工标注了一致性程度达到95%以上的10 000组大中华区平行对齐语料库。同时,我们提出了一个基于word2vec的两阶段大中华区对齐模型,该模型采用word2vec获取大中华区语的向量表示形式,并融合了有效的余弦相似度计算方法以及后处理技术。实验结果表明我们提出的大中华区对齐模型在以上两种不同文体的对齐语料库上的F1值显著优于现有的GIZA++和基于HMM的基准模型。此外,我们在维基百科上利用该对齐模型进一步生成了90 029组准确率达82.66%的大中华区语三元组。
1
这是一个微博敏感搜索程序,把需要搜索的敏感存'weibo.positive.train'里 ,每隔一定时间从微博API接口申请chunk,利用positive和negative结合的方法,完全结果输出到'weibo.censorshipOutput'
2022-03-21 11:01:52 5.91MB 微博 敏感词 搜索 Python
1
计算机网络-英文缩写全集
2022-03-20 13:58:23 233KB Lamitry
1
通过python写的爬取网页热并获取对应的频 ***************************************************** 注释较为详细,可以自己输入网址爬取,形成本地文档
2022-03-19 15:29:42 2KB 爬虫 热词 词频
1
中文预训练向量北京师范大学中文信息处理研究所与中国人民大学 DBIIR 实验室的研究者开源的"chinese-word-vectors"。github地址为:https://github.com/Embedding/Chinese-Word-Vectors 此中文预训练向量为知乎Word + Ngram的向量
2022-03-18 09:38:10 225.28MB 数据集
1
高数名中英文对照,对学习英文高数的人很有帮助哦~完美学习算法也是必须的!
2022-03-17 22:40:53 22KB 高数 名词 中英文 对照
1
视觉袋模型 有完整的介绍 ,ppt文档,注意是ENGLISH WRITTEN
2022-03-17 11:30:06 6.68MB 视觉词典 bag of features
1
【中文】【吴恩达课后编程作业】Course 5 - 序列模型 - 第三周作业 - 机器翻译与触发检测
2022-03-16 13:03:49 209.31MB 深度学习 吴恩达 序列模型 课后作业
1
新浪微博搜索敏感列表,附件为文本文件,便于导入
2022-03-13 18:46:19 13KB 敏感词
1
用python绘制云图代码,可设置字体大小,内含分文件和中文字体
2022-03-13 17:35:53 2.81MB Python 词云
1