2016-ccf-data-mining-competition text classfication 大数据精准营销中搜狗用户画像挖掘 rank61/880 2016-ccf-data-mining-competition 大数据精准营销中搜狗用户画像挖掘 竞赛简介 在现代广告投放系统中,多层级成体系的用户画像构建算法是实现精准广告投放的基础技术之一。其中,基于人口属性的广告定向技术是普遍适用于品牌展示广告和精准竞价广告的关键性技术。人口属性包括自然人的性别、年龄、学历等基本属性。 在搜索竞价广告系统中,用户通过在搜索引擎输入具体的查询词来获取相关信息。因此,用户的历史查询词与用户的基本属性及潜在需求有密切的关系。 举例如下: 1、 年龄在19岁至23岁区间的自然人会有较多的搜索行为与大学生活、社交等主题有关 2、 男性相比女性会在军事、汽车等主题有更多的搜索行为 3、 高学历人群会更
2023-04-05 15:30:47 1.88MB Python
1
USTC中科大机器学习与知识发现小作业之classfication,自己写的,给以后学弟学妹一个参考
2022-01-13 14:46:59 389KB USTC中科大 机器学习 知识发现 小作业
1
中文文本分类数据集合
2021-12-16 22:17:00 76.88MB 中文文本分类数据集
分类是数据挖掘、机器学习和模式识别中一个重要的研究领域。通过对当前数据挖掘中具有代表性的优秀分类算法进行分析和比较,总结出了各种算法的特性,为使用者选择算法或研究者改进算法提供了依据。 解决分类问题的方法很多 ,单一的分类方法主要包括:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等;另外还有用于组合单一分类方法的集成学习算法,如Bagging和Boosting等。
2021-10-31 15:42:40 255KB data mining classfication
1
楼主自己整理的,网上关于CTC的资料参差不齐,一些比较好的资料都是英文版的,因此在这里祭上全网最好的CTC中文版学习资料,图文并茂,容易理解,欢迎下载。
2021-10-08 17:52:01 1.94MB CTCLos 损失函数 自动对齐 变长序列识别
1
中文文本分类数据集 数据来源: 今日头条客户端 数据格式: 6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们 每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词 分类code与名称: 100 民生 故事 news_story 101 文化 文化 news_culture 102 娱乐 娱乐 news_entertainment 103 体育 体育 news_sports 104 财经 财经 news_finance 106 房产 房产 news_house 107 汽车 汽车 news_car 108 教育 教育 news_edu 109 科
2021-07-12 16:12:23 25.67MB Python
1
baseline feature.py 抽取特征 corpora corpus1.txt 远程监督标注语料 sents.txt 还原的标注句子 sents_with_pos.txt 标注格式变换 dict 字典 数值化转换 entities.dict 实体字典 nes.dict 实体标记字典 postags.dict 词性标记字典 rels.dict 关系字典 libsvm-3.22 svm算法实现工具 result 结果 feature2libsvm.csv 符合libsvm格式的输入文件 features.pickle 抽取特征的结果 features.vec.csv 特征数值化后的结果 grid.out 参数优化结果 grid.png 参数优化结果 model.txt 模型 test.vec 测试语料集 test_vec.scale 数值缩放后测试语料集 train.vec 训练语料
1
使用matlab 开发的分类工具箱,包含svm,plsda ,knn,simca ,lda等,可以直接使用,方便简洁。源代码完整,不容错过。
2020-01-03 11:17:41 692KB matlab svm plsda
1