ds-week-12:数据科学周12
2021-03-04 15:07:42 3.03MB HTML
1
计算距离实验室 介绍 在本实验中,您将编写一些方法来计算各个邻居之间的距离。 再一次,我们假设$ x $坐标代表邻居的大街,$ y $坐标代表街道。 我们还将假设每条街道之间的距离和每条大道之间的距离是相同的。 我们将完成一个名为nearest_neighbors的函数,该函数给定一个邻居,查找其他最近的邻居。 入门 让我们声明一个变量neighbors并将其分配给字典列表,每个字典代表邻居的位置。 neighbors = [{ 'name' : 'Fred' , 'avenue' : 4 , 'street' : 8 }, { 'name' : 'Suzie' , 'avenue' : 1 , 'street' : 11 }, { 'name' : 'Bob' , 'avenue' : 5 , 'street' : 8 }, { 'name' : 'Edga
2021-03-02 13:05:28 10KB JupyterNotebook
1
3D渐变下降 学习目标 了解同时更改y截距和斜率变量时梯度下降的工作原理 了解偏导数的含义 了解取偏导数的规则 介绍 在上一节中,我们讨论了如何考虑沿3-d成本曲线移动。 我们知道,沿着上面的3-d成本曲线移动,意味着更改回归线的$ m $和$ b $变量,如下所示。 我们这样做的目的是使我们的生产线更好地匹配我们的数据。 回顾二维的梯度下降 在本课程中,我们将学习三个维度的梯度下降,但让我们首先记住当仅更改回归线的一个变量时它如何在两个维度上起作用。 在二维中,当仅更改一个变量$ m $或$ b $时,梯度下降意味着沿成本曲线前进或后退,并采用特定的步长。 为了确定是向前还是向后移动以及步长大小,我们假设站在此二维曲线(如下所示)上并感觉成本曲线的斜率来告诉我们如何移动。 朝一个方向迈进意味着我们的回归变量之一发生了变化。 因此,这是二维的下降。 什么是三维三维下降? 3维梯度下降
2021-03-01 18:08:19 556KB JupyterNotebook
1
应用数据科学峰会第5周
2021-03-01 18:07:48 81KB JupyterNotebook
1
介绍 在继续之前,让我们退后一步。 到目前为止,在我们研究的监督学习算法中,我们正在遵循我们的过程。 收集:收集并清理相关数据 探索:探索数据 训练:选择统计或机器学习模型(即工具或算法),并针对某些标准(例如,模型对我们的数据的预测程度)优化模型 预测:使用经过训练的模型进行预测 如前所述,在收集和探索数据时,我们主要使用我们的Python技能和有关领域的知识。 训练模型更多地是关于机器学习。 在线性回归分析中,我们的模型是一条回归线。 我们使用它来建模我们的解释变量和因变量之间的现实关系。 我们如何知道现实世界的关系是什么? 因为这是有监督的学习,所以它来自我们现有的实际数据。 因此,在我们一直使用的示例中,我们拥有的实际数据就是收入,并且我们通过开发一条回归线来训练模型,该回归线使实际数据与模型期望值之间的差异最小。 训练模型 这个训练步骤就是微积分进入的地方。通过训练模型,
2021-03-01 17:06:01 282KB JupyterNotebook
1
用功能表达 学习目标 了解说函数依赖于变量的含义 了解如何表达多元函数 了解如何表达由另一个功能组成的功能,以及为什么我们以这种方式表达功能 介绍 数学和代码中的概念趋于一致。 两者都是表达想法并为周围世界建模的机制。 现在是时候开始进行一些切线了,探讨数学中的表示函数与代码中的表示函数如何对齐。 这些概念中的一些可能看起来像是回顾,但是当我们继续探索其他数学主题时,巩固基础将为您提供清晰的信息。 表达功能 让我们找到一种通常讨论功能的方法。 我们将函数描述为$ f(x)$。 $ f(x)$是我们表达函数的通用方法。 我们并不是说输出等于$ y $或其他,我们只是说函数返回了输出。 例如,我们可以说以下内容: $$ f(x)= 3x $$ 上面的表达式表示输出等于$ x $的3倍。 请注意,该输出随输入而变化的数学表达式与以编程方式表示函数随输入如何变化非常吻合。 在编程中,我们可以
2021-03-01 17:05:57 35KB JupyterNotebook
1
生物数据DS2020 生物数据课程项目的存储库,帕多瓦大学数据科学硕士学位。 要求 可以安装所有必需的Python软件包来执行代码 pip install -r requirements.txt 在项目文件夹中时。 其余所有操作都是使用Linux x64计算机执行的,启动了data文件夹中的bash文件。 由于它们的大小,执行代码所需的所有数据库均未包含在存储库中,而是托管在此。 下载它们后,将它们放在data/part_2/original_datasets folder 。 由于所有模型的所有指标的计算都非常耗时,因此我们只是第一次进行计算,将所有结果保存在.csv文件中,然后在Notebook中读取它们。 要从头开始重新计算所有指标以测试所有计算,只需删除data/part_1/HMMs和data/part_1/PSSMs data/part_1/HMMs中已parsed子文
2021-02-26 11:05:37 65.59MB JupyterNotebook
1
许多年来,我一直领导谷歌搜索日志的数据科学团队。经常需要我们对一些乱七八糟的结果来赋予意义,对日志记录的操作来挖掘新现象,验证别人的分析,以及用于解释用户行为的度量指标。有些人似乎天生就擅长做这种高质量的数据分析。这些工程师和分析师常常被描述为“谨慎”、“有技术”。但实际上这些形容词是什么意思?您怎么做才能赢得这些标志?为了回答这些问题,我将Google公司的经验整理进一篇文档,并得意地将他简单命名为“好的数据分析”。令我惊奇的是,这篇文档比我在谷歌过去十一年做的其他任何文档的阅读量都高。在上次大改版之后的四年时间里,每次检查的时候,我甚至发现有许多Goolge员工翻看它。为什么经过这段时间,
1
数据可视化是指将结构的或非结构的数据转换成适当的可视化图表,可视化能够将数据更加直接的方式展示出来,使得数据从客观更有说服力。 R语言有自己的基础图形系统,如 graphics 包、 grid 包或者 lattice 包。相比于R语言自带的基础作图函数,如 `plot()` 能表现出更加丰富化、 多样化。
2021-02-25 16:10:22 983KB r语言 数据分析
1