案例系列:美国人口普查_预测收入超过50K_TabTransformer二分类 本示例演示了如何使用进行结构化数据分类,TabTransformer是一种用于监督和半监督学习的深度表格数据建模架构。TabTransformer基于自注意力的Transformer构建而成。Transformer层将分类特征的嵌入转换为强大的上下文嵌入,以实现更高的预测准确性。在这里,我们定义数据集的元数据,这些元数据对于读取和解析数据为输入特征以及根据其类型对输入特征进行编码非常有用。# 数值特征的名称列表"age", # 年龄"education_num", # 受教育年限。
2024-05-03 13:39:37 28KB transformer
1
人口普查数据下载器 从美国人口普查局下载《,并将其重新格式化以供人类使用。 有什么 该存储库处理的所有数据文件都发布在文件夹中。 可以通过其原始URL将它们调用到应用程序中,例如 命令行界面 该库可以作为命令行界面安装,可让您按需下载文件。 安装 $ pipenv install census-data-downloader 命令行用法 现在有一个名为censusdatadownloader的工具为censusdatadownloader准备就绪。 Usage: censusdatadownloader [OPTIONS] TABLE COMMAND [ARGS]... Download Census data and reformat it for humans Options: --data-dir TEXT The folder where you want to dow
2024-03-03 21:27:09 4.5MB python news pandas
1
通过多模型监督学习算法进行收入预测 寻找慈善捐助者 胡安·罗隆(Juan E.Rolon),2017年 项目概况 在此项目中,我采用了几种监督算法,以使用从1994年美国人口普查中收集的数据准确地预测个人收入。 我们执行各种测试过程,以从初步结果中选择最佳候选算法,然后进一步优化该算法以对数据进行最佳建模。 此实现的主要目标是构建一个模型,该模型可以准确地预测个人的收入是否超过50,000美元。 在非营利机构中,组织可以靠捐赠生存,这种任务可能会出现。 了解个人的收入可以帮助非营利组织更好地理解要请求的捐赠额,或者是否应该从一开始就伸出援手。 虽然直接从公共来源确定个人的一般收入等级可能很困难,但我们可以从其他公共可用功能中推断出此价值。 该项目是从Udacity获得机器学习工程师Nanodegree所需条件的一部分。 安装 此项目需要Python 2.7和已安装的以下Python
1
货币预测器 使用美国人口普查数据预测工资的示例Shiny R应用程序。 实时版本可以在这里找到: : 数据集来源:
2022-06-17 20:16:51 3KB R
1
人口普查API Python脚本 该脚本通过美国人口普查十周年人口普查API创建了一个熊猫数据框和csv文件,该文件可按性别,年龄,种族等访问人口数据,并按占用率,空置状态和任期访问住房数据。 只需几个简单的步骤,您就可以查询自己内心的内容。 1)请求人口普查API密钥 这很简单! 又快! 请访问 2)识别变量 您需要一个要收集的变量的csv文件。 它看起来应该像这样: 年 多变的 column_name 2010年 H0110004 housing_renter 2000 H011003 housing_renter 下载模板。 模板具有用于label和concept的列,可以从Census变量参考页(下面的链接)中很好地剪切和粘贴。 脚本会忽略多余的列。 随时删除它们! 或添加更多! 该脚本仅使用前三列: year , variable和column_name 。 按
2022-01-21 19:52:01 6KB Python
1
2015年美国各州人口数量,来源美国统计局公开网站,可用于数据库基础数据。 来源data.world/uscensusbureau。供研究、学习用。
2022-01-16 18:40:36 14KB 美国 人口 统计
1
kaggle-美国人口普查年收入比赛,随机森林Python版本有很可以调用的库,使用随机森林非常方便,主要用到以下的库: sklearn pandas numpy
2022-01-06 09:49:53 626KB AI
1
D3作业-数据新闻和D3 背景 欢迎来到新闻编辑室! 您刚刚接受了主要Metro纸的数据可视化职位。 您的任务是分析影响人们生活的当前趋势,并创建图表,图形和交互式元素来帮助读者理解您的发现。 该编辑希望撰写一系列有关特定人口统计学所面临的健康风险的专题报道。 她指望您通过筛选来自美国人口普查局和行为风险因素监视系统的信息来探究第一个故事的想法。 分配中包含的数据集基于2014 ACS 1年估算值: : ,但您可以自由研究其他数据集。 当前数据集包括各州的收入,肥胖,贫困等方面的数据。 教育部代表“误差范围”。 在你开始之前 为此项目创建一个新的存储库,称为D3-challenge 。 不要将此作业添加到现有存储库中。 将新的存储库克隆到您的计算机。 在本地git存储库中,为D3挑战创建一个目录。 使用文件夹名称来对应挑战: D3_data_journalism 。 该作业同
2021-11-28 14:56:53 10KB JavaScript
1
这个 Simulink 模型预测了 21 世纪美国的人口。 根据美国人口普查局的数据,2010 年人口被定义为年龄和性别的函数。 出生率、死亡率和移民率也被定义为年龄和性别的函数。 计算固定比率投影,使用户能够生成 2100 年的多个人口统计图表。包含 MATLAB 代码以生成人口金字塔和动画,显示人口随时间的变化。 预计老龄化人口将达到 4.12 亿。
2021-10-27 15:31:34 19KB matlab
1