2016-ccf-data-mining-competition text classfication 大数据精准营销中搜狗用户画像挖掘 rank61/880 2016-ccf-data-mining-competition 大数据精准营销中搜狗用户画像挖掘 竞赛简介 在现代广告投放系统中,多层级成体系的用户画像构建算法是实现精准广告投放的基础技术之一。其中,基于人口属性的广告定向技术是普遍适用于品牌展示广告和精准竞价广告的关键性技术。人口属性包括自然人的性别、年龄、学历等基本属性。 在搜索竞价广告系统中,用户通过在搜索引擎输入具体的查询词来获取相关信息。因此,用户的历史查询词与用户的基本属性及潜在需求有密切的关系。 举例如下: 1、 年龄在19岁至23岁区间的自然人会有较多的搜索行为与大学生活、社交等主题有关 2、 男性相比女性会在军事、汽车等主题有更多的搜索行为 3、 高学历人群会更
2023-04-05 15:30:47 1.88MB Python
1
涂子沛先生的新著《大数据》,已经完成,是一部300 多页的大作。最近 他将这本书的打样稿送来给我看,并且要求我作序文。可惜的是,我将要远行, 而他索序甚急,我只能在浏览一遍之后,发抒自己一些感想。至于细细咀嚼和 消化这本有趣作品的内容,必须要在一两个月以后,也就赶不上涂先生大作的 出版时间。我事先声明,这些只是我浏览他大作以后的一些感想,非常立即的 直觉,也一时谈不上深刻的见解。
2023-04-04 19:29:53 17.51MB 大数据 涂子沛
1
使用Scala编写spark工程代码,将MySQL的shtd_store库中表user_info、sku_info、base_province、base_region、order_info、order_detail的数据增量抽取到Hive的ods库中对应表user_info、sku_info、base_province、base_region、order_info、order_detail中。 1、 抽取shtd_store库中user_info的增量数据进入Hive的ods库中表user_info。根据ods.user_info表中operate_time或create_time作为增量字段(即MySQL中每条数据取这两个时间中较大的那个时间作为增量字段去和ods里的这两个字段中较大的时间进行比较),只将新增的数据抽入,字段名称、类型不变,同时添加静态分区,分区字段类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)。使用hive cli执行show partitions ods.user_info命令,将结果截图粘贴至对应报告中;
2023-04-03 23:50:43 550KB 大数据 大数据赛项
1
基于hadoop的电商销售预测分析系统HDFS+MapReduce+springboot报告文档 源码:https://download.csdn.net/download/weixin_46115961/86338894
1
1.1 实验介绍 3 1.1.1 关于本实验 3 1.1.2 教学目标 3 1.2 实验任务 4 1.2.2 任务二:开通数据库服务 MySQL 13 1.2.
2023-04-02 21:37:53 4.72MB
1
搜狗数据的数据格式: 访问时间\t 用户 ID\t[查询词]\t 该 URL 在返回结果中的排名\t 用户点击的顺序号\t 用户点击的 URL 其中,用户 ID 是根据用户使用浏览器访问搜索引擎时的 Cookie 信息自动赋值,即同一次使用浏览器输入的 不同查询对应同一个用户 ID
2023-04-01 15:06:15 965KB 大数据
1
大数据汽车数据文件2222
2023-03-30 14:12:26 19.74MB big data 汽车 大数据
1
测序技术推进科学研究的发展。随着第二代测序技术的迅猛发展,科学界也开始越来越多地应用第二代测序技术来解决生物学问题。比如在基因组水平上对还没有参考序列的物种进行从头测序(de novo sequencing),获得该物种的参考序列,为后续研究和分子育种奠定基础;对有参考序列的物种,进行全基因组重测序(resequencing),在全基因组水平上扫描并检测突变位点,发现个体差异的分子基础。在转录组水平上进行全转录组测序(whole transcriptome resequencing),从而开展可变剪接、编码序列单核苷酸多态性(cSNP)等研究;或者进行小分子RNA测序(small RNA sequencing),通过分离特定大小的RNA分子进行测序,从而发现新的microRNA分子。在转录组水平上,与染色质免疫共沉淀(ChIP)和甲基化DNA免疫共沉淀(MeDIP)技术相结合,从而检测出与特定转录因子结合的DNA区域和基因组上的甲基化位点。
2023-03-28 11:01:06 17.75MB 高通量测序
1
测序技术推进科学研究的发展。随着第二代测序技术的迅猛发展,科学界也开始越来越多地应用第二代测序技术来解决生物学问题。比如在基因组水平上对还没有参考序列的物种进行从头测序(de novo sequencing),获得该物种的参考序列,为后续研究和分子育种奠定基础;对有参考序列的物种,进行全基因组重测序(resequencing),在全基因组水平上扫描并检测突变位点,发现个体差异的分子基础。在转录组水平上进行全转录组测序(whole transcriptome resequencing),从而开展可变剪接、编码序列单核苷酸多态性(cSNP)等研究;或者进行小分子RNA测序(small RNA sequencing),通过分离特定大小的RNA分子进行测序,从而发现新的microRNA分子。在转录组水平上,与染色质免疫共沉淀(ChIP)和甲基化DNA免疫共沉淀(MeDIP)技术相结合,从而检测出与特定转录因子结合的DNA区域和基因组上的甲基化位点。
2023-03-28 10:47:18 65.67MB 高通量测序
1
大数据,用户画像
2023-03-28 08:24:18 2.78MB 用户画像 大数据 百分点
1