复赛有三点形式上的变化: (1)采用docker镜像的方法 (2)采用数据流的方法进行预测,即每次预测一个样本,在预测结束之后,后台发送第2个预测样本... (3)采用端到端的方法(吃了大亏,前期没有刷成绩,过早提交了端到端,没有日志,整个过程都是懵的, 最后显示超时,也没有日志,没有成绩,两个月白辛苦了)
2021-07-04 17:03:36 35KB 天池 短文本 语义匹配
适用于初步学习人工智能,需要使用文本相似度demo的同学
1
本章节主要研究内容:基于PyTorch 深度学习工具来完成短文本分类 知识点 业务需求 文本分类应用场景、技术方案以及挑战 技术架构 文本分析 词向量 CNN 原理 tensorboardX 可视化 项目实战: 基于TextCNN短文本分类,主要从数据预处理、构建此表、Embedding、模型训练、tensorboardX可视化以及在线服务几个重要的环境进行学习 文本分类应用场景 文章分类服务对文章内容进行深度分析,输出文章的主题一级分类、主题二级分类及对应的置信度,该技术在个性化推荐、文章聚合、文本内容分析等场景具有广泛的应用价值. 新闻分类 根据文本描述的内容方向,针对新闻媒体的文章做自动
2021-06-21 11:21:20 591KB c ex ext
1
传统的话题发现研究主要针对于长文本及新闻数据集,大规模短文本具有稀疏、无结构、多噪等特点,传统方法很难有效发现话题。提出了一个融合词共现与加权GN(CW-WGN)算法的快速话题发现方法,描述了CW-WGN方法的详细过程,给出方法的具体算法。采集了sina微博、新闻网站的标题真实的短文本数据,构建了基础测试数据集,采用LDA与K-means方法作为对比进行了大量对比实验。实验结果表明CW-WGN比LDA和K-means方法能够多发现20%以上的正确话题,而且发现的话题纯度也高于LDA与K-means。此外,CW-WGN消耗的时间最少,能够有效地从实际大规模短文本上发现话题。
2021-05-14 11:45:33 1.99MB 短文本 话题发现 词共现 社团发现
1
随着微博用户的增多,微博平台的信息更新频繁。针对微博文本的数据稀疏性、新词多、用语不规范等特点,提出了基于SOM聚类的微博话题发现方法。从原始语料中对文本进行预处理,通过词向量模型对短文本进行特征提取,降低了向量维度过高带来的计算量繁重问题。采用改进的SOM对话题进行聚类,该算法改善了传统文本聚类的不足,进而能有效地发现话题。实验表明该算法较传统文本聚类算法的综合指标F值有明显提高。
1
Use-transformers-train-Bert-from-scratch:TIANCHI-小布助手对话短文本语义匹配BERT基准
2021-03-13 14:54:37 9KB JupyterNotebook
1
基于nltk实现对英文短文本的名词抽取,规则可以自己制定。
2019-12-21 22:22:33 1KB nltk 名词抽取
1
针对短文本特征稀疏、噪声大等特点,提出一种基于 LDA 高频词扩展的方法,通过抽取每个类别的高频词作为向量空间模型的特征空间,用 TF-IDF 方法将短文本表示成向量,再利用 LDA 得到每个文本的隐主题特征,将 概率大于某一阈值的隐主题对应的高频词扩展到文本中,以降低短文本的噪声和稀疏性影响。实验证明,这种方法的分类性能高于常规分类方法
2019-12-21 21:41:21 624KB LDA 短文本分类
1
libshorttext-1.1.tar.gz 短文本分析
2019-12-21 21:28:07 799KB 文本分析
1
针对短文本的特征稀疏性和上下文依赖性两个问题,提出一种基于隐含狄列克雷分配模型的短文本分类方法。利用模型生成的主题,一方面区分相同词的上下,降低权重; 另一方面关联不同词以减少稀疏性,增加权重。
2019-12-21 21:22:16 831KB LDA
1