自1948年引入信息论以来,信息论已被证明在分析与压缩、存储和传输数据有关的问题方面起着重要作用。例如,信息论允许分析数据通信和压缩的基本限制,并在几十年的实际通信系统设计中发挥了作用。近年来,在使用信息理论方法解决数据压缩、数据通信和网络之外的问题方面出现了复兴,例如压缩感知、数据获取、数据分析、机器学习、图挖掘、社区检测、隐私和公平。在这本书中,我们探索了信号处理、机器学习、学习理论和统计的接口上的一系列广泛的问题,其中源自信息论的工具和方法可以提供类似的好处。几十年来,信息论在这一界面上的作用确实得到了承认。一个突出的例子是在1980年代使用互信息、度量熵和容量等信息理论量来建立估计的极大极小率。在这里,我们打算探索这个界面的现代应用,这些应用正在塑造21世纪的数据科学。 当然,标准信息理论工具与信号处理或数据分析方法之间有一些显著的差异。从整体上说,信息论倾向于关注渐近极限,使用大的块长度,并假设数据是由有限的比特数表示,并通过一个噪声信道观看。标准结果不关心复杂性,而是更多地关注通过可实现性和反向结果表征的基本限制。另一方面,一些信号处理技术,如采样理论,专注于离散时间表示
2022-06-27 22:04:54 9.13MB 机器学习
Python是访问、操作和从各种数据中获得见解的理想选择。Python for Data Science通过根植于实际示例和实践活动的边做边学的方法向您介绍Python的数据分析世界。您将学习如何编写Python代码来获取、转换和分析数据,为业务管理、市场营销和决策支持中的用例实践最先进的数据处理技术。 您将发现Python丰富的用于基本操作的内置数据结构集,以及用于数据科学的健壮的开源库生态系统,包括NumPy、pandas、scikit-learn、matplotlib等。这些示例展示了如何以各种格式加载数据,如何简化、分组和聚合数据集,以及如何创建图表、地图和其他可视化功能。后面的章节将深入展示真实世界的数据应用,包括使用位置数据为出租车服务提供动力,市场篮子分析来识别共同购买的商品,以及机器学习来预测股票价格。 这本书从数据处理和分析的概念介绍开始,解释一个典型的数据处理管道。然后,我们将介绍Python的内置数据结构和一些广泛用于数据科学应用程序的第三方Python库。接下来,我们将探讨用于获取、组合、聚合、分组、分析和可视化不同大小和数据类型的数据集的日益复杂的技术。随
2022-06-25 20:05:30 2.35MB python
Phormatics:使用AI最大化锻炼 F1:首页(GIF乍一看可能有点断断续续,但是我保证这是值得的) 创建人:Jason Chin 林查理 黄Huang ,胡文vin 项目开发了36个小时,专注于使用AI和计算机视觉来构建虚拟的个人健身教练。 能够将2D人体姿势估计与商品网络摄像头一起使用来评论您的表格并计算重复次数。 该项目获得了颁发的“最具启动性的黑客”奖。 二维人体姿势估计: f2:在繁忙环境中的生活姿势估计; 注意:此处用户已经过度伸展了右臂(图像已镜像),在这种哑铃式肩press式压力机变型中,该形式被认为是不好的形式,因此出现了消息。 姿势估计基于的 。 由开
2022-06-21 17:07:07 59.86MB python opencv flask data-science
1
数据会议 :clinking_beer_mugs: _ .- ' ) ( ' .( OO )_ ,--. .- ' ),-----. .- ' ),-----. ,--. ,--.) | | .- ' ) ( OO ' .-. ' ( OO ' .-. ' | `. ' | | | OO )/ | | | | / | | | ||
1
Intro-to-Python-for-Computer-Science-and-Data-Science
2022-05-22 00:09:59 101KB JupyterNotebook
1
机器学习 此存储库包含与使用 R 编程语言的营销和业务分析问题相关的项目。 机器学习可以显着提高营销绩效。 项目 1:营销活动优化 - 我们能否确定要定位的正确客户? 第一个项目的目标是提高银行的活动营销响应率。 营销部门需要了解什么是重要的。 我们如何将资源分配给更有可能响应的客户。 这是一个经典的二元分类问题。 我们有转换或未转换的客户。 在这个项目中,我通过逻辑回归和决策树来预测营销响应率。 通过此模型的输出,营销部门可以获得与过去营销活动成功转化的客户相似的客户资料。 这是我要发送给营销部门的个人资料。 Marketing should contact customers with these characteristics: 1. marital status - single 2. education - tertiary 3. had respond
1
足球数据 来自各种网站/ API的足球数据包装器的集合。 您将获得:具有合理的,匹配的列名和跨数据集的标识符的Pandas数据帧。 数据在需要时下载并本地缓存。 示例Jupyter笔记本位于Github存储库中。 足球,如果你是异教徒 数据源: fourthirtyeight.com ( ) 2016-17赛季欧洲和美国顶级联赛的预测和结果。 数据不再在fourthirtyeight.com上可用,我已将其 football-data.co.uk ( ) 英国,苏格兰,德国,意大利,西班牙,法国,荷兰,比利时,葡萄牙,土耳其和希腊联赛的历史成绩,赔率和比赛统计数据,包括多个较低级别的联赛。 详细程度取决于联盟。 clubelo.com ( http://clubelo.com ) 所有(?)欧洲联赛的一线队相对实力。 每回合后重新计算,包括历史记录。 路线图: 添
2022-05-19 10:13:45 2.09MB python data-science pandas soccer
1
飞行延迟预测 介绍 延误是任何运输系统中最令人难忘的性能指标之一。 值得注意的是,民航业者将延误理解为航班延误或推迟的时间。 因此,延迟可以由飞机的起飞或到达的预定时间与实际时间之间的差异来表示。 国家监管机构有许多与航班延误的容忍阈值有关的指标。 实际上,航班延误是航空运输系统中必不可少的主题。 2013年,欧洲有36%的航班延误了超过5分钟,而美国有31.1%的航班延误了超过15分钟。 这表明该指标的相关性如何,以及无论航空公司网格的规模如何对其产生影响。 为了更好地了解整个飞行生态系统,每时每刻都会收集来自商业航空的大量数据并将其存储在数据库中。 淹没在传感器和物联网产生的大量数据中,分析人员和数据科学家正在增强其计算和数据管理技能,以从每个数据中提取有用的信息。 在这种情况下,理解领域,管理数据和应用模型的过程被称为数据科学,这是解决与大数据有关的挑战性问题的趋势。 在此项目中,我
1
OilMap-Web :world_map: :oil_drum: :glowing_star: 使用OilMap可视化国家地图上的石油数据 OilMap是一项独立的计划,旨在监视全球的石油和天然气行业,以提高决策和投资的透明度和问责制。 执照 此项目已获得MIT许可证的许可-有关详细信息,请参阅文件。 作者 Roque Leal-初步工作 社区 资质认证 ODI- *开放数据证书* -ODI 致谢 MapBox-地图-MapBox 灵感-大赦溢油-MapBox Labs
2022-05-17 21:04:45 1.38MB data-science world maps mapping
1
汽车价格预测-高度线性预测项目:一种线性回归模型,用于预测美国市场的汽车价格,以帮助新进入者了解美国汽车行业的重要定价变量。 高度全面的分析,详细说明所有步骤; 数据清理,探索,可视化,特征选择,模型构建,评估和MLR假设有效性
1