|
主成分分析(PCA)是一种统计过程,本质上涉及坐标变换。它涉及将可能相关的变量正交变换为一组称为主成分的线性不相关变量。 StatQuest:主成分分析 (PCA),逐步 如果原始数据绘制在 X 轴和 Y 轴上,则主成分分析将修改这些轴,以便新的 X 轴位于数据中最大变化的方向。Y 轴将由 X 轴的选择来确定,因为 PCA 要求 X 轴和 Y 轴垂直。 如果有两个以上的维度,则第一个主成分分析轴位于变异最大的方向,然后以变异递减的方式定义轴。考虑下图,它是主成分分析的示例。 用原始相关数据绘制的前两个主成分轴 b. 用原始相关数据绘制的前两个主成分轴 b.来源——科学直接 每天都会创建超过 2.5 万亿字节的数据,并且数据只会不断增长。到 2020 年,预计地球上每个人每秒将产生 1.7MB 的数据。 为了更好地理解什么是主成分分析,我们先了解一下降维的概念。假设您需要预测特定公司 2020 年 3 月的股票市场价格。 想知道成为数据科学专家的途径吗? 下载详细手册并免费访问行业专家的实时在线演示课程。
日期:1月13日(星期六) | 上午 11 点 - 中午 12 点(印度标 Whatsapp 手机号码列表 准时间) 姓名(必需的) 姓名 * 电子邮件(必需的) 电子邮件 * 电话(必需的) 电话 * 现在,您将拥有大量过去的数据:棒波动、外部市场波动、买入订单详细信息、卖出订单详细信息、公司收入、公司毛利润等。绘制多个变量会带来严重问题。变量相关吗? 在这种情况下,统计学家往往会问这样的问题:仅考虑几组变量就能得到结果吗? 或者换句话说,您希望减少特征空间的维度,以减少变量之间的关系,这称为降维。降维有两种类型: 特征消除 特征提取 特征消除 特征消除涉及完全消除可能对最终结果没有影响的变量。 例如,在我们的股票交易项目中,您可能需要考虑影响股票市场价格的前 3 或 5 个变量,并放弃其他所有变量。 虽然这简化了问题,但由于变量的减少,也降低了项目的准确性。 特征提取 特征提取解决了特征消除导致的变量稀释问题。例如,如果您有 15 个自变量,则特征提取涉及定义 15 个新的自变量,其中每个新变量都是由 10 个旧自变量中的每一个的组合创建的。新的自变量以某种方式创建,以便最好地预测原始变量。
您可能想知道这如何解决拥有大量变量的问题,因为我们仍然有十五个变量。定义新变量后,您可以删除不重要的变量并使用前 3-5 个重要变量进行绘图。因为每个新变量都是通过考虑所有 15 个旧变量而形成的,所以您仍在使用所有信息。 主成分分析是一种特征提取技术。这解释了 PCA 为何有效——它为您提供了一种解决方案,可以合并所有可用的变量数据,同时减少变量和相关性的数量。 主成分分析示例 我们将解释主成分分析的工作原理和实施方式,但首先考虑以下主成分分析示例。考虑一组二维变量,包括身高和体重。 通常该数据集将沿 X 和 Y 轴绘制,如下图所示(原始数据集)。如果您应用主成分分析来梳理变异,您将定义 2 个新轴 – pc1 和 pc2,每个轴都有一个新的 (x,y) 值,从而考虑原始数据集的两个变量。 主成分分析示例 主成分分析示例来源 – setosa 现在您已经看到了主成分分析示例,让我们了解它是如何绘制的以及它是如何工作的。 主成分分析教程 为了应用 PCA,让我们考虑一下主成分分析教程。
|
|