IJCAI-18 阿里妈妈搜索广告转化预测总结(0.13966,53/5204) 赛题内容 本次比赛以阿里电商广告为研究对象,提供了淘宝平台的海量真实交易数据,参赛选手通过人工智能技术构建预测模型预估用户的购买意向,即给定广告点击相关的用户(user)、广告商品(ad)、检索词(query)、上下文内容(context)、商店(shop)等信息的条件下预测广告产生购买行为的概率(pCVR),形式化定义为:pCVR=P(conversion=1 | query, user, ad, context, shop)。 结合淘宝平台的业务场景和不同的流量特点,我们定义了以下两类挑战: 日常的转化率预估 特殊日期的转化率预估 评估指标 数据挖掘流程 数据探索与特征使用方案:业务逻辑和特征覆盖率 数据采样:样本采样与过滤 根据特征使用方案构造特征:基础特征、平稳特征、动态特征、高阶特征、文本特征、偏好
2022-06-24 22:04:49 452KB JupyterNotebook
1
Python交互式数据可视化简介 -使用Plotly / Dash-进行数据可视化和Web应用程序构建 该存储库是“ Python交互式数据可视化简介-使用Plotly / Dash和Web应用程序构建进行数据可视化-”一书的支持网站。 这本书的标签是#plotlydashbook。谢谢你。 这本书的大纲 我们将练习可以在Python网站上发布的交互式探索性(读者自由)可视化工具。它详细说明了Plotly(它便于进行数据分析),Dash(可以为应用程序创建用户界面)和Dash Cytoscape(在网络图中比较强大)。 目录第0章简介第一章情节速成第2章plotly.py简介第3章中的各种图形plotly.py 第4章plotly.py应用程序第5章Dash简介第6章破折号布局第7章Dash回调第8章标准破折号组件第9章其他Dash组件第10章Dash Cytoscape简介第11章Das
2022-06-23 23:50:50 22.71MB JupyterNotebook
1
WBC图像分类
2022-06-22 19:31:13 184KB JupyterNotebook
1
mobile_classification 这个项目完全是使用机器学习技术和其他库在python 3.8中创建的。 这个mobile_classificaton模型将借助其功能对移动设备“ price_range”进行分类, 在此项目中,使用了不同的python库,例如#pandas用于数据操作和加载数据集,#matplotlib用于数据可视化。 绘制不同类型的图。 #sklearn用于不同类型的分类模型,例如“ RandomFprestClassifier”以及其他mean_absolute_error,confusion_matrix,accuracy_score。
2022-06-22 17:12:47 117KB JupyterNotebook
1
RecSys挑战赛2018 D2KLab团队的RecSys Challenge 2018脚本。 安装依赖项 pip install -r requirements.txt 数据集 我们将原始JSON文件转换为等效的CSV版本。 python evaluation/mpd2csv.py --mpd_path /path/to/mpd --out_path dataset python evaluation/challenge2csv.py --challenge_path /path/to/challenge.json --out_path dataset 我们将MPD数据集分为训练,验证和测试集。 验证和测试集反映了正式质询集的特征。 python evaluation/split.py --path dataset --input_playlists playlists.csv -
2022-06-22 00:01:43 2.28MB JupyterNotebook
1
在Pytorch中使用RNN进行序列学习 这里介绍了很少使用RNN进行序列学习的问题。 维护主要是出于学习的敏锐度。 如果您正在寻找可重用的最佳解决方案,那么此回购协议就不适合您的要求我将尝试添加更多的解释性数字,并在将来进行撰写 目录 序列2 Se2Seq对齐 没有对齐的Se2Seq 顺序存储Kth整数 这里的问题是在可变长度的数字序列中存储第k个数字。 假设如果序列为9,7,0,5,6且k = 3,则网络应输出0。这是一个问题的序列,其中输入数字使用一个长度为10的热向量表示输入数字(因为有10个数字) ) 二进制字符串加法 这个问题为序列学习示例引入了一个简单的序列,其中的任务是使RNN学习二进制加法。 问题被建模为seq2seq,其中输入和输出序列对齐。 输入字符串中的相应位在每个时间步形成2元素输入向量,目标位或期望位是输出二进制字符串中的相应位。 在此之前,如果输出字符串有
2022-06-21 15:57:35 1.57MB JupyterNotebook
1
员工离职调查 在这个项目中,我的目标是分析员工满意度。 我使用了两个从和获得的数据集。 我打开并清理了数据以进行分析。 在此过程中,我使用了Pandas和Numpy库。 我删除了空值,或者更改了它们的值以更有效地使用它。 另外,我对一些列进行了分类以使其易于理解。 我进行了探索性分析。 最后,我使用matplotlib可视化了我的结果。 结论 我创建了一个条形图,其中显示了不满意的员工工资率。 特别是,“安定下来”的员工不满意率最高。
2022-06-21 11:14:58 74KB JupyterNotebook
1
Titanic-dataset:泰坦尼克号数据集Kaggle
2022-06-21 00:25:39 972KB JupyterNotebook
1
内容 AIRBNB数据集分析 我们的研究 纽约市AirBnb租赁数据于2017年10月包含有关airbnb列表的信息。 它的位置由纬度和经度以及附近的自治市镇决定。 它也有其每晚的价格,数量的卧室,浴室等。 我们研究的目的是探索由Airbnb列表产生的数据,并寻找可能导致Airbnb成功的因素。 此外,找出是否可以找到任何模式并预测清单的位置和价格。 根据我们的预测,我们构建了机器学习模型,以帮助正在考虑租房的人们更好地了解挂牌价格。 技术栈 在此分析中,我们使用python作为主要的编程语言,因为它具有丰富的工具组合,这些工具使数据分析变得异常困难。 我们使用的一些软件包是 图书馆 描述 Matplotlib是功能极为丰富的工具库,用于生成易于解释和定制的交互式图。 Numpy是一个流行的库,用于数组操作和向量运算。 它广泛用于需要科学计算的python项目中。 Pamdas是另一个
2022-06-19 14:11:10 18.3MB JupyterNotebook
1