2020年天池中医药问题生成竞赛解决方案和代码
2021-07-04 19:03:53 52KB 天池 中医药
天池2021“全球人工智能技术创新大赛”【解决方案一】:医学影像报告异常-第三名方案
2021-07-04 19:03:52 22.83MB 医学影像 天池2021
构建用户、商家、优惠券特征群,以及用户-商家,用户-优惠券,商家-优惠券 三个交叉特征群。 主要包括以下特征: 1.统计特征(最大/最小/平均值/比率 等) 2.排序特征(各个实体对距离,折扣率等的排序) 3.时间特征(日期,时间差等) 从用户画像的角度来看,统计特征和组合特征,主要分别刻画了用户,商家,优惠券的行为,比如,用户领券次数,商家的热度,优惠券的流行度等等。但是,排序特征,更多地从时间角度,和用户心理角度去考虑。比如说,距离领券时间越近,消费的欲望越强,因为如果领取了优惠券而迟迟没有消费,可能用户本身也忘记了这张优惠券的存在。同时,还有对距离的排序,线下商家与用户的距离越近,肯定要比远的商家消费的概率要大的。 三、训练模型 主要使用xgboost模型。该模型精度较高,但训练时间较长。
2021-07-04 19:03:52 7KB 天池 o2o优惠券使用预测
复赛有三点形式上的变化: (1)采用docker镜像的方法 (2)采用数据流的方法进行预测,即每次预测一个样本,在预测结束之后,后台发送第2个预测样本... (3)采用端到端的方法(吃了大亏,前期没有刷成绩,过早提交了端到端,没有日志,整个过程都是懵的, 最后显示超时,也没有日志,没有成绩,两个月白辛苦了)
2021-07-04 17:03:36 35KB 天池 短文本 语义匹配
天池大赛医学影像报告检测初赛26名代码分享(脱敏文本多标签分类) 介绍 数据:标签制作为one-hot形式,例如[3,4,6]就转为[0,0,0,1,1,0,1,…0]模型:采用nezha_large采用n-gram嵌入(具体见代码) 训练:将训练集,测试集放一起,构建独立词表,进行传销无监督训练,属于脱敏文字的预训练模型,然后再在训练集上微调采用对抗训练(FGM)10折交叉验证 运行 Transformers==4.3.2 torch==1.7.1 main_nezha_pretrain.py是传销训练的代码,先运行这个得到预训练模型下载:网盘然后再在预训练模型上有监督训练(微调)运行main_nezha_kfold.py数据中,pretrain.tsv 是训练测试集的合并
2021-07-04 17:03:36 5.92MB 天池 医学影像 脱敏文本多标签分类
阿里天池-零基础入门NLP - 新闻文本分类
2021-07-04 17:03:35 4KB NLP 新闻文本分类
【阿里云天池】零基础入门数据价格:二手车交易价格预测
2021-07-04 17:03:35 9KB 数据价格 二手车交易价格预测
基础模型采用UNet++网络模型,主干采用ImageNet预训练好的timm-efficientNet-b8并在模型中添加scse注意力机制。 训练好2个模型进行结果融合。 采用FastAI框架进行代码写。 2个模型分别为,(1)数据增强,b8,训练120轮(2)数据增强,b8,训练80轮。 操作系统版本:Linux version 5.8.0-29-generic (buildd@lgw01-amd64-039) (gcc (Ubuntu 9.3.0-17ubuntu1)20.04) 9.3.0, GNU ld (GNU Binutils for Ubuntu) 2.34) #3120.04.1-Ubuntu SMP 星期五 11 月 6 日 16:10:42 UTC 2020 python版本:3.7.9 训练数据处理 对原始数据随机提出 1000 张作为测试集不参与训练。 利用FastAI自带的数据增强库对训练数据进行。 划分20%作为验证集。 训练策略 采用fit_flat_cos训练模式训练80轮,和训练120轮。 采用混合饲养训练。 采用亚当优化器。 在训练过程中保存miou最好的性能模型。 复现流程 执行train.sh文件进行数据划分和模型训练。 执行test.sh文件进行预测。 两个两个模型在 1000 张测试集中进行测试,并计算结果,将两个模型的每个类别的模型性能进行融合,得到最终的每个模型的模型权重,利用 miou 权重进行模型的融合。
2021-07-04 17:03:34 15KB 图像分割
参加了天池的一个pdf简历信息提取的比赛,这里进行回顾、整理和分享 赛题要求从pdf简历中提取出信息,可能会让人觉得,籍贯等。这里搭建了一个BiLSTM-CRF模型,从PDF简历中提取出想要的信息。 模型的线上得分是0.727,排名 21/1200+
2021-07-04 17:03:33 50.71MB BiLSTM-CRF 天池
天池学习赛——街景数字识别 数据集应该输入里面,输入里面csv文件有下载train,val,test的链接
2021-07-04 17:03:33 6KB 天池学习赛