ETL项目 项目的ETL流程最初是使用Kaggle的两个数据集进行的。 一个数据集包含有关印度食品配方的信息,另一个数据集包含有关常见食品和产品的营养价值的信息。 数据集的两个链接都可以在这里找到: ETL的EXTRACT部分首先使用简单的pd.read语句将这些数据集中的CSV加载到我们的Jupyter Notebook中。 读完CSV文件后,ETL的TRANSFORMATION(清洗)部分要求我们从包含成分类型的两个数据框中拆分或拆分列。 我们使用了split函数将每种成分分解为单独的列。 我们还需要从每种成分之间的原始数据框中删除逗号。 最终结果在两个干净的数据框中显示了不同成分的多列。 一旦两个数据帧都干净并包含将其加载到我们的成分数据库中所需的所有数据,就初始化了ETL的LOAD部分。 在使用pgAdmin之前,我们必须在Jupyter Notebook和PostGres
2022-07-12 14:36:36 1.26MB JupyterNotebook
1
有毒评论分类 这是我在主持的有毒评论分类比赛的代码。 从的基本代码完全修改到另一个级别 要下载数据集,请运行get_data.sh 任务 数据集包含来自Wikipedia对话页编辑的评论。 这是大量的维基百科评论,被人类评分者标记为有毒行为。 毒性类型为: toxic severe_toxic obscene threat insult identity_hate 该方法 创建一个整体模型来预测每种评论的每种毒性的可能性。 记录了我的方法的完整解释 安装先决条件 运行install.sh,然后运行pip install -r requirements.txt 尖端 确保使用嵌入原始预处理,以确保可以导入最高百分比的嵌入
2022-07-08 10:47:02 2.92MB JupyterNotebook
1
系统管理员
2022-07-07 17:45:38 424KB JupyterNotebook
1
image_classification KNN,SVM,随机森林方法的比较分析
2022-07-06 20:29:18 4KB JupyterNotebook
1
电影推荐系统使用自动编码器和DNN 混合自动编码器和基于DNN的电影推荐模型
2022-07-02 15:50:32 1.4MB JupyterNotebook
1
NLP-2 检测评论是否具有讽刺意味使用Tensorflow和keras识别句子是否具有讽刺意味
2022-07-02 13:33:33 30KB JupyterNotebook
1
logistic_regression 回归处理预测模型技术。 它显示了独立变量(也称为预测变量)或因变量或目标值之间的关系。 当输出为分类格式(例如yes / no,1或0,true或false,高或低)时,将进行逻辑回归。 与线性回归一样,我们获得的输出值在较大范围内,但对于分类输出,其输出值应介于1到0之间,因此,线性回归曲线应限制在1到o之间,这是使用逻辑回归执行的,为此,我们使用asigmod功能。 阈值的概念:用于确定输出值(在o和1之间)是否四舍五入以给出输出为0(低)还是1(高)。 阈值(0.5)和1之间的输出值四舍五入为1,低于阈值的值四舍五入为0。 对数似然的概念:使用线性回归的概念: 将上述值放在S型方程中: 现在,通过从伯纳利的特征中获得启发,我们找到了对数似然函数并将其微分,从而找到了梯度上升更新方程。 因此,可能性定义为: 对数似然变为:
2022-07-01 12:53:07 62KB JupyterNotebook
1
汽车预订系统 这是我在tkinter for gui的帮助下用python设计的简单的汽车预订系统。
2022-06-30 20:04:50 13KB JupyterNotebook
1
GDELT冲突数据集1.0(2021) 免责声明 我将此数据集构建为个人项目。 它没有任何保证。 随意将其用于您自己的项目或文章,但请承认我。 并记住要引用GDELT项目及其 我将来可能会发布新版本,但不能保证。 如果您分析数据,请告诉我。 我很想看看你发现了什么。 介绍 该存储库记录了2021年GDELT冲突数据集的来源。 可对世界各地的新闻媒体进行持续监控。 它的档案可以追溯到1979年1月1日。该数据库据说每15分钟更新一次。 他们的任务是“建立世界所有国家的人类社会规模的行为和信仰目录”。 GDELT冲突数据集利用GDELT来检查过去40年中冲突的演变。 它汇总了1979年至2021年期间从258个国家的媒体报道中提取的超过8,300万个事件的信息。 这些事件分为32个类别,描述了各种规模的冲突行为,例如“没收财产,进行自杀炸弹袭击”,“占领领土”。 希望该数据集可以
2022-06-27 16:54:29 11.18MB JupyterNotebook
1
带注释的StarGAN v2 我对StarGAN v2的推动,用于个人学习 原作: 论文: : GitHub: : 原始文件 StarGAN v2-官方文档 StarGAN v2:多个域的多样化图像合成*,* *,*,在CVPR 2020中。(*表示相等的贡献) 论文: : 视频: : 摘要:良好的图像到图像转换模型应学习不同视觉域之间的映射,同时满足以下属性:1)生成图像的多样性和2)在多个域上的可伸缩性。 现有方法解决了其中一个问题,即对于所有域而言,其多样性有限或具有多个模型。 我们提出了StarGAN v2,这是一个可以同时解决这两个问题的框架,并且在基线之上显示出明显改善的结果。 在CelebA-HQ和新的动物面Kong数据集(AFHQ)上进行的实验验证了我们在视觉质量,多样性和可伸缩性方面的优越性。 为了更好地评估图像到图像的翻译模型,我们发布了AFH
2022-06-25 02:21:40 28.02MB JupyterNotebook
1