简要介绍 我是竞赛选手rebornZH,很高兴在2019 CCF BDCI大赛中拿下3个NLP竞赛TOP,在这里我主要分享金融信息负面及主体判定赛题的解决方案和自己对另外两个NLP赛题的一些解题思路,希望能与大家一起学习,一起进步,同时如果有NLP方向的朋友愿意和我一起交流学习NLP技术我也是非常欢迎的,可以加我QQ联系,后面有联系方式。最后希望大家多给下star,毕竟整理这些也挺花时间的,在这里先谢谢大家了。 比赛链接 金融信息负面及主体判定: “技术需求”与“技术成果”项目之间关联度计算模型: 互联网金融新实体发现: 特别说明 上面的开源代码是在我最终版代码上修改而来的baseline,因为有些代码涉及到我队友,不方便全部开源,因此我特地整理一个比较好的基线给大家作为参考,这个基线的分数应该是该赛题开源的基线中分数最好的,并且距离最终版代码差别不是特别大。 GPU最低要求:2080Ti
2022-12-16 23:27:56 10.82MB Python
1
2020 CCF BDCI 遥感影像地块分割_训练集 测试集A榜.zip
2022-06-16 09:04:58 1.3GB 测试
整体介绍 我们的队名是:鹏脱单攻略队后面改为“天晨破晓”最终我们团队成绩在复赛AB榜均排在第一名,识别准确率达0.996952 团队成绩:2019CCF-BDCI大赛最佳创新探索奖和“基于OCR的身份证要素提取”单赛题冠军 系统处理流程图 方案亮点 我们采用条件生成对抗网络(CGAN)处理赛题中的水印干扰,取到了比较好的效果,展示一下效果图片: 仿真数据二进制文件,生成仿真训练数据训练去水印模型和文字识别模型 执行方式介绍 完整执行示例: CPU执行,单进程: python main_process.py --test_experiment_name test_example --test_data_dir ./test_data --gan_ids -1 --pool_num 0 参数详解: --test_experiment_name:实验名,将决定中间数据结果存放目录 --test
2022-06-10 16:16:43 1.87MB Python
1
2017-CCF-BDCI-AI评审 这是我近期参加的一个数据挖掘比赛,CCF大数据与计算智能大赛(BDCI)中的一题:法官。但是由于时间冲突与一些个人原因,我只参与并完成了初赛任务(罚金)在初赛成绩中,取得A榜第5 , B榜第7 (最高1.68% )的成绩(这个成绩实际上只用了if-idf特征和Word2Vec特征,该项目在初赛结束后进行过多尝试和改进,效果应该会更容易初赛)。 该项目是我的第一个有关文本分类的项目,所以在做这题之前,我没有任何自然语言处理(NLP)的知识积累。因此,通过参与这个比赛,我的初衷是希望学到一些自然语言处理的基础知识,所以名次对于我来说没有那么重要了。 是一个,我
2022-01-11 13:57:25 211KB nlp data-mining ccf 2017
1
CCF_BDCI_2019_datafountain350 CCF BDCI 2019 互联网新闻情感分析 复赛top8 代码 开源方案见知乎:
2021-12-08 21:00:26 135.15MB JupyterNotebook
1
2020 CCF BDCI 成果汇编电子版 涵盖2020年 CCF BDCI 大数据与计算智能大赛所有赛道前五名的算法思路和解析。
2021-11-29 14:09:38 764.12MB CCF BDCI 大数据与计算智能大赛 算法思路
1
CCF-BDCI-Sentiment-Analysis-Baseline 1.从该中改写的 2.该模型将文本截成k段,分别输入语言模型,然后顶层用GRU拼接起来。好处在于设置小的max_length和更大的k来降低显存占用,因为显存占用是关于长度平方级增长的,而关于k是线性增长的 模型 线上F1 Bert-base 80.3 Bert-wwm-ext 80.5 XLNet-base 79.25 XLNet-mid 79.6 XLNet-large -- Roberta-mid 80.5 Roberta-large (max_seq_length=512, split_num=1) 81.25 注: 1)实际长度 = max_seq_length * split_num 2)实际batch size 大小= per_gpu_train_batch_size * numbers of gpu
2021-11-17 19:34:01 1.03MB Python
1
2017-CCF-BDCI-Enterprise 这是我的第一个数据挖掘比赛,CCF 大数据与计算智能大赛(BDCI)中的一题:。最终取得复赛 A 榜第 3,B 榜第 9 (Top 1.58%) 的成绩。 这个比赛 12 月中旬就结束了,硬是被我拖到现在才来总结,我这拖延症真的是……现在回忆起这个比赛,比赛时的那种郁闷感依然记忆犹新。我在复赛的第 5 天便达到了分数 6924,但之后一直无法提分,这种烦躁感当时给我带来了挺大的困扰(当然最后还是提升到了分数 6930)。等比赛结束之后,我回过头来看,其实当时我参赛的心态是不端正的,功利心太强,这样带来的问题就是比赛心态的爆炸,自己的眼界会被约束,提分方式的想象力也会被限制。最好的心态应该是抱着学习的心态参赛,只要能够学到一点点新的东西,就会感到惊喜。 另外一个想说的点是,我们团队在复赛 A 榜中排名第 3,但是切换 B 榜之后,便跌到第 9
2021-10-27 09:53:53 21KB data-mining ccf binary-classification 2017
1