粉丝1093获赞4200
大家好,今天我们继续分析第八章成对数据统计分析的第二节内容。 依然回归模型进行应用。若两个相关变量的散点图呈线形相关,也正相关或者负相关,我们通过可以三点图观测,或者是求 相关系数。二、中国样本数据算出相关系数,如果相关系数, 那绝对值比较接近一,这就说明这两个相关变量线性相关的程度比较强。那么这时候我们就可以利用一个回归直线进行磨 一元回归魔性参数的最小二、乘法古迹。对于两个具有现形相关变量的一组数据,我们可以找一个经验回归方程, 这个方程呢,不同于函数,所以我们有这样的写法,可以读作 y 间等于 b 间, x 加上 a 间, a 间和 b 间是待定系数,有最小二乘法得到 b 间。应该是这样一个关系, xi 减去 h 平均数,乘上 y 减去 y 的平均数,挨从一到 n 的和除以什么呢? xi 减去 x 平均数的平方,这样一盒,这就是 b 加啊,也可以写成是什么呢? x 一乘 y 一加上 x, 二乘 y 二, 一直加到 x。 三、 ln 减去 n 倍的 x 平均数乘上 y 的平均数,除以 x 的平方加到 x, n 的平方,减去 n 倍的 x 平均数的平方,就算出了经验回归方程的斜率啊,离家, 那么 a 加等于多少了? y 的平均数减去 b 加乘式 s 平均数,也就是回归经验方程要经过样本中心点, 因为我们通过三点读和相关系数知道两个变量要成线性相关关系,我们就应该考虑,哎,这个 y 和 x 应该是一个 b x 加一的形式,但是我们要写成 b, x 加一就是一个函数形式了,也就是说 x 不能完全解释这个 y, 那么还有其他因素影响,所以这里呢, y 的值应该是 bsi, 再加上一个随机误差一啊。 随机误差的鱼产生是因为 x 不能完全解释歪,就比如说孩孩子身高和父亲身高, 父亲的身高不能完全解释孩子身高因为还受到母亲啊遗传因素影响,以及你的生活环境,你的生活习惯影响,所以这些是由一造成的。午餐,所以模型呢,是一元回归模型, y 等于 bs 加 a, 再加上一个随机午餐, 这是 y, 称作是音变量或者响音变量,也叫做是观测值, x 叫做是自变量。解释变量 ab 均为模型的位置参数 a, b 是结局参数, b 是协力参数一是 y 与 bx 之间的随机误差。 对于样本点, x i y i 的随机误差的古迹值是 y i 减去 y i 间,也就是观测值,减去预测值就是参差啊。在 x i y i 处的参差。 我们也可以利用餐餐的特性作图,总坐标为餐餐横坐标,可以是样本编号,也可以是解释变量,也可以是餐饮变量。 这样就可以做出一个残叉图, 因为参差的均值为零 啊。方差是有固定的,根据总体的情况的一个方差啊,这个方是一个固定值常数,那么残差点如果均匀的落在水平带状区域,说明选一个模型比较合适, 其中这样的带状去宽度越窄,说明模型逆合的越合适。 我们要搞进去医院回归模型是怎么来的啊?为了研究两个变脸相关关系,建立医院回归模型啊。所以 y 抖音 bx 加 a 是一个直线, 但实际上 y 和 x 呢,并不是一个因果关系,所以他们还有其他因素影响,所以后面要加一个随机误差, 这样刻画两个变量之间的相关关系。 所以要注意寻找这样的一条合适直线,使样本点 样本的数据。这些散点在整体上应该和这条直线最为接近啊。我们画出一个,比如说儿子身高和父亲身高的相关关系,做出一些三点图,我们最好是要想找到一个比较接近的直线啊, 这直线呢?一个是测量这些直线啊,各个点到直线距离移动直线使这个距离呢? 这个距离呢?各个点距离应该比较小,但是不能够通过分部分析,一个点要所有的点和这个直线距离怎么来仅限就比较合适呢? 应该绝距离的和最小就比较合适。或者说是我画条直线以后,让各个三点呢,都比较均匀的分布在这个直线的两侧, 但是这样的话,分析各个点要考虑点在线的哪一侧,也不太好弄,所以最后就转化成了点到这个直线,我们考虑这个直线的距离 距离合,但是点到直线距离又算起来又是比较麻烦,我们可以用一下什么呢?这个点和这个直线的一个 数值距离,这样的话就得出了观测值和预测值,观测值 y i 和预测值 y i 间的一个差,而这个差呢,实际上就是参差,参差的绝对值相加, 那个参差可能是正的,可能是负的,这个绝对相加又存在一些问题,所以我们可以转化成什么?等价转化成参差的平方和, 哎,参差的平方核,也就是观测值减去这个直线,预测直线的上的这个预测值。我们说参差的平方,参差的平方核要小的话,也就是各个点到这个直线的距离也就最小, 如果达到这样的要求的话,这个直线就比较合适。那么运算呢?可以整理,整理出以后呢,这个参差的平方和就等于 y 减去 y 的平均数,减去 b 倍的 xi 减去 x 平均数,过去的平方直接合,再加上 y 的平均数,减去 b 乘上 x 平均数,再减 a 的平方。 那么到这时候以后呢,前面的这个 c 个马河是 我们给出的样本数据得出这个核,而后面这也是一个平方核,我们要使得参差平方核,科威必要最小,可以让后面的这个平方等于零,而这个平方一旦等于零,就是一个什么了, 相当于这个回归直线经过了样本中心点,回归直线就经过了哪个点的样本中心 s 平均数和 y 的平均数,这个点经过这个点以后呢?后面这个就等于零了, 后面等一年以后呢?参差平方和就是这样一个式子。最后整理以后是 b 的二次函数,那么根据二次函数取到最小值,就算出了 b 的值, 哎,二次函数最小值,顶点数取得最小值,求数 b 呢就等于哎, c 个嘛, x i 减去 l 的平均数除以 c 个嘛, x i 减去 x 平均数的平方,就求出了回归直线的斜率,同时由于直线呢过样本中心点,也就求出了他的拮据。 a 加就等于 y 的平均数,减去一加乘以二的平均数,这也就是回归直线。怎么求的?我们看这样一个题目,给出的样本数据, sy 六六八五九四十三十二二。 那么用最小二乘法求的建会方程是 y 加等于 b 加, s 加上四点三,让我们求下 b 加, 实际上呢,总结,据 a 家已经知道了,要想求 b 家实际上建立方程就行了。回归直线一定 样本中心,所以我们要算出 s 的平均数和 y 的平均数, s 平均数算出来是九, y 的平均数算出来十四,所以把四九啊九四这个点带进去,也就是 外加写成四啊四等于 b 加乘上九,再加上十点三,就求出 b 加等于负的零点七。 对一个是我们要注意回归直线当中,充分利用样本中心点,在回归直线上求一些参数问题。 当然呢,给出原始数据视线性回归问题,我们通过公式要会求助 b 加 a 加,确定回归直线方程可以做一些应用,解决预测的问题,学好数学,其乐无穷。
大家好,这里是极动科技,我是小木。今天将为大家讲解的是一元现行回归模型。然后在上一期当中呢,我们已经讲过最小而乘法,然后最大自然估计以及牛顿切线法。 然后在这一期当中呢,我们将会运用到这三个方法。然后呢就是主要研究的就是一元现金回归模型。然后接下来呢,就让我们来看一下他的基础背景。 医院先进回归模型,他的创始人创始人呢是英国统计学家和生物学家卡尔比尔逊。而比尔逊这个人呢,在前边也是有讲过一个比尔逊相关系数,然后相信大家也知道。 然后就是模型背景,最早的背景呢,可以追溯到十八世纪的平均数回归概念,然后及利用平均值的方法来 测官测值。那而卡尔培训则在二十世纪然后初期的时候呢,就系统的发展和推广了信息回归模型。 卡尔票训。在其著著作然后讲义统计学中呢,是详细介绍了信息规模型的理论基础和应用方法。 他提出了最小二乘法来估计模型中的参数,并且提出了相关系数来衡量变量之间的线性相关性。这些方法和概念呢,至今仍广泛应用于统计学和回归分析中 啊。接下来呢就是建模思想。然后几步骤我们来看一下建模思想。而基与自变量与因变量之间存在进行关系,然后并通过对数据进行统计分析,然后利用最小二乘法等方法来估计模型中的参数,然后从而进行预存 测法。解释。建模步骤呢,我们大致分为这七个步骤。然后第一个步骤呢就是收集数据,收不收集数据呢,这个是一提而句,他就是可能会给你数据,但也可能会让你收集数据。然后第二步呢,就是绘制散点图。 这绘制散点图呢,就可以让我们观察一下这个点的大致分布。第三步呢是确定模型关系。 第四步就是建立模型。第五步呢就是去估计,就是模型中的参数。然后第六步是就是模型评估。第七步呢就是模型的运用。就是我们举一个实际的例子,然后进行一个编程。 首先就是第一步收集的数据呢,它具有一定的特点,就是存在线性关系。然后通常呢是连续变量让并具有一定的变异性,那也就是离散度 及对不同数之间的差异性的度量。第二步就是绘制散点图,我们可以观察数据的分布和趋势。第三步呢就是确定模型关系。根据散点图以及对自变量和音变量之间的关系的了解,假设他们之间呢存在线性关系。 这是第四步。然后建立函数,这是有 n 组样本。这假设现在有 n 组样本, x 一 y 一,然后这是一组,然后有 x 二 y 二,这是第二组。然后呢总共有 n 组样本。然后就可以用这样一个表达式来表示他的一个关系。然后其中的 这个呢是一个随机干扰项,也叫做随机误差项。然后一般假设其服从正态分布,然后也就是服从期望为零,然后方差为三个方的一个正态分布。 然后呢就可以得到函数,就可以得到这样一个函数。然后呢就可以得到这个函数的期望呢,他就是贝塔零,加上贝塔一 x。 因为他因为随机干扰项目的期望呢是等于零的,所以加上就就,所以就可以变成这个样子,他的方差呢,他的方差呢是直接就是这样一个。 然后就可以得到 ii 呢,就服从这样一个整体分布。其中的 beta 零就是洁具。然后 beta 一呢是回归系数。 然后就是第五步估计参数。我们可以使用最小二乘法或者是牛顿期限法下的最大自然估计法来估计回归系数。那么及找到使预测值和实际观测值之间误差最小的参数值。然后其中的 beta 零一加 表示的是 beta 零的就是估计值。然后 beta 一一直表示的是 beta 一的估计值。 然后最小二乘法呢,在上一期视频当中呢,我们是有讲过的,就是主要就是通过最小化实际值与测值之间的误差平方和来拟合模型,也就是求下面这一个表达式。 然后呢就可以使参数估计问题变成求 q, 等于就是最小值它的极值问题。然后我们来求,就是求偏导,求两个参数的偏导,并令偏导等于零。然后就可以就是通过这样一个式子,我们就可以得到嗯,他的就是备胎零和备胎一他的估计值。 然后就可以得到这样一个表达式。然后呢就是最小二乘法,它的矩阵形式。矩阵形式就 有利于我们表达,也可以就是好理解。然后计算会比较简便一点,就不需要一直去迭代。 其中的 x 呢,我们就可以表达成这样一个形式。他前边的是一呢,就是因为他是一个只对应的是长数,然后所以呢不是 x, 所以要写成一。然后 y 呢,就就是写成一个列向量的形式,这是一个矩阵,然后这个就是随机干扰项, 这个呢就是我们的参数。然后一元线性回根模型呢,就可以表达为这样一个形式, 然后误差平方和呢就可以表达成就是他的逆来乘以他,然后求偏头并令其等于零,然后就可以得到。就可以得到 at 呢是等于 x 矩阵的转制矩阵,然后乘以 x 矩阵,然后这个矩阵的逆来乘以 x 矩阵的转制矩阵,然后再乘以 y 矩阵,那就可以得到参数。然后就是牛顿切线法下的最大私人估计。 然后在上一期视频中呢,我们是讲了牛顿切线法,然后以及最大自然估计法。这是一种基于概率统计的参数估计方法,然后适用于数据的误差,具有特定的概率分布性质。 他的试用条件就是如果对于数据的误差存在特定的概率分布,假设,如高斯分布,罗松分布等,然后就可以选择最大私人估计来估计参数。 他的思想呢就是最大私人估计呢,是通过找到是观察数据出现的概率最大化的参数值来拟合模型。然后现在呢,有参数,就是现在有,现在有 n 个样本,然后就假设这个嗯,随机误差就是随机 偶像呢,是服从这个正态分布的。然后现在 xi 呢,是与 yi 相关的非随机样本。呃, yi 呢就是在前边也是就是通过通过通过一系列推到,然后就可以得到他是服从这样一个的正态分布, 然后 y, i 的分布密度函数呢,就可以表达为这样一个形式,这个就是正态分布的一个一个分布密度函数的形式。然后这个在概率论与数据统计那本书当中呢是有的。然后呢就可以表达成这样一个形式。 然后样本,这 n 个样本呢,它的面联和 mid 分布函数呢,就可以表达成这样一个,这是它的连成, 然后就转化成这个形式,然后就和上面这个公式进行一个连地,然后就可以得到 这样一个公式。为了使用本金可能的发生呢,就要使离合密度分布函数最大。为了方便计算呢,我们就对他取对数,然后就是得到对数自然函数。然后也就是论 l 取对数呢,就是通过对数的预算呢,我们就可以得到这样一个公式,就是由这一步对他取对数,然后就可以得到下边一步。 然后这个应该是很好理解的。然后呢即对他求一个最大值,然后等价于呢等价于就求这个 就是这一个求和公式,他的最小值,因为他前面是一个负号,然后我们竟然要求他的最大值,然后我们就是求后边这一,就是这一个式子的最小值,因为我们可以观察到这前面这个式子中呢是没有 x 的。然后所以呢他我们可以不管他不会造成很大影响。然后呢就进一步等价 在于求其一街道就是为零的根,然后我们就令,这就是令这个式子呢,就是就是等于 q 贝塔零贝塔一。然后其中的 y, x, a 呢,我们都分别表达成矩阵的形式, q 的这一个等式呢,表达成这样一个矩阵的表达式, 然后求其最小值,然后也就是求其一些导为零时的根。然后这个时候呢,我们就来看牛顿期限法。 这是我们之前呢用牛顿切线法呢,是就是求得了一个迭代公式,然后也就是这样一个,他的就是 x 零的初始值呢,是等于 a 的,然后 x n 呢,就等于这样一个公式,就是他的迭代公式。 然后现在我们需要求得的是两个参数的一阶倒数和二阶倒数。然后通过第一个式子呢,就是对 贝塔一求偏倒,然后呢,我们可以求得这样一个表达式。然后呢,这个下边这个式子呢,就是对他求对贝塔一求二界倒,然后呢,就可以得到这样一个公式。 然后呢,这因为是对两个参数都要进行一个那个所以呢,除了对贝塔一求偏道,我们还要对贝塔零求偏道,然后也要求得他的一阶岛和二阶岛。 然后最后通过两部分的式子结合呢,我们就可以得到他的参数的,就是估计方估计的公式呢,就是这样一个公式。 然后就是第六步进行体检验。体检验呢,就是在前边我们也是有提到过的,它是一种检验,是对它进行一个检验,然后它是一种统计方法,然后用于估计线性回归模型中,然后自变量,也就是我们的预测变量,它的系数被它 一是否显著不等于零。那 t 值呢? t 值分布呢?就称为 t 分布。那么假设 x 服从正态分布,然后也就是 x 服从,服从 n 零一的分布,然后 y 呢,服从咖方分布, 这是呃,这是自由度为 n 的开放分布。这个式子呢,就是一个提分布的式子。在第一步呢,我们就会提出原假设和被子的假设。首先提出原假设 h 零,然后备胎一是等于零的。 然后接着呢我们提出贝泽假设,那就是 h 一,然后它是贝塔一呢,不等于零。然后第二步就是给出检验统计量 t, 那么检验统计量呢,就是这样一个表达式。 其中的 l x, x 呢是用 x i 的,就是每一个 x 值去减去 x 它的平均值,然后它的在平方,然后再求和, 那就得到了 l s, s。 然后呢,贝塔一就是贝塔一的估测,就是估计值呢,是服从这样一个分布的。嗯就可以就是服从自由度为 n 减二的 t 分布。 然后其中的其中的这个 ej 呢,表示的就是这样一个公式。最后我们就可以得到就是检验同剂量 t 的公式呢,就是这样一个。 第三步呢,就是根据就是自由度为 n 减二的提分部以及显出性水平而法给出临界值。而法呢,我们是通常取零点零五,然后也偶尔也取零点一或者是零点零一, 如果贴大于等于零戒指呢,我们就拒绝原价设,然后说明自变量 x 呢,对应变量 y 有显著的影响,反之呢,就接受原价设。 它临界值是怎么得到的?就是根据就是根据自由度,然后就是根据自由度,然后以及以及 rf。 然后在这个表中呢查到一个值,然后再跟我们计算得到的 t 进行一个比较。然后接下来呢,我们就来进行建模。 然后呢,我们来进行编程。首先呢,我们还是要来先我们来导入 number。 接着呢我们来导入 pandas, 因为我们要画图呢,所以我们还要导入一个画图的库,然后就是 matprod leave。 导库完成之后呢,我们就来导入数据,就等于 p d 点 read, 然后是从 excel 表格中导出呢,所以我们是写 excel, 然后呢是 r。 接着呢我们去复制文件地址。 我们可以来看一下数据,数据呢,总共有二十个对象,就是有二十个样本, 就是有二十个样本组。然后呢分为两列,第一列呢,表示的是诶,就是表示的是 y, 第二列呢,表示的是 x。 然后呢,我们来读取它的值,就是点 volus。 接着呢,我们就来将 x 和 y 呢分别提出来。首先提的就是 y 是 data 数据的第零列,然后呢是 x, x 呢就是数据的第一列。 我们呢就是提取完 x 和 y 之后呢,我们可以来简单的画一个图,然后来看一下它的分布以及趋势,那就是 画一个省点图 schedule, 然后就可以得到这样一个图。就是根据这个点吧,我们其实还可以大致的看出来这是一条这样式的曲线,就有点像那个 saying cosin 还 数。然后呢,接着呢我们来进行参数估计。 参数估计呢,我们介绍了有三种方法。然后一种呢是就是通过求,就是不是转化成了求极值的问题吗?然后我们就来求极值,然后通过求他的偏导,然后另偏导等于零,然后来求得参数。 然后第二种呢,就是通过就是最佳二乘法,它的矩阵形式来进行计算。然后第三种呢,就是牛顿切线法与最大自然估计的一个结合。然后首首先呢我们来看第一种方法。 首先呢我们来设一个参数,就是参数 a, 这个参数 a 呢,我们可以就是假设,这样就是运函数呢,就是 y 等于 a, x 加 b, 这样一个 a 呢,表示的就是 是 x 前的系数。然后就等于根据根据刚刚的公式呢,我们就可以就是根据刚刚的,嗯, 对,就是根据这样一个公式,我们可以来求 a。 然后根据这这一个公式呢,我们就来求 b。 然后可以来看一下 number 点上 x 减去 x 的,这是平均值,然后来乘以这是 y 减去 y 的平均值。 然后来除以什么呢?然后来除以我们的安排点 some, 这是 x 减去 x, 平均值 十,然后他的求和 有平方。然后这样呢我们就求得了 x, x 就是参数 a 的,它的一个就是系数。然后呢,紧接着呢就是长数,那个参数就是 b, 就是用 y 的均值呢,去减去 x 的均值,乘以 b, 那就是乘以 a, 就是我们上边得到的 a。 然后我们就计算得到了 a 和 b, 首先得到的 a 呢,就是我们的就是就是,就是 x 浅的系数 a 呢是这么多。然后长数的参数,长数参数 b 呢,就是这这么多。然后接着呢我们来用就是矩阵的矩阵形式。 然后这个就是第二种方法矩阵形式来进行计算。 根据 ppt 我们刚刚介绍的呢,我们是有 x 矩阵, x 矩阵呢是分为两列, 然后呢我们就都用 e 来进行一个填充 两列,所以这是二。然后呢 y 矩阵呢,我们知道的是只有一列, 那填充呢,就和它一样,就是都用 e 去填充, 那我们知道 x 矩阵,它的第就是第一列,这是第顶列,然后就是一因为它是长数的关系。然后呢,第一列呢,表示的就是 x 它的原始值。然后所以呢,它的第一列呢,我们是要用原始值去填充的,也就是等于 data, 这是 data 一啊 data。 然后呢, y 呢,我们是也是用原数据进行的一个填充, 然后这是他的第领略。然后接着呢就是 我们的一个矩阵的,就是计算公式,就是这样一个公式,我们来计算得到参数,就是计算得到就是参数矩阵贝塔贝塔零贝塔。一首先呢就是它的腻, 我们可以来看一下,这是它的密,这是 x, 它的转制矩阵,然后乘以 x, 然后这个呢就表示 x 转至矩矩阵,乘以 x 矩阵,它的就是逆矩阵。然后呢,接着呢要乘以 x 矩阵的转制矩阵,然后再乘以 y 矩阵。 这样呢,我们就求得了参数,那其中的这个值呢,就是表达的是我们就是是表示 的是 beta 零, beta 零呢,是我们的,就是我们可以看一下 beta 零呢,表示的是我们的长数长数参数。 然后呢,所以呢,这个表示的就是长数参数 b, 然后这个呢就是长数,这个就是 x 前的系数,然后参数 a, 然后是和上边计算得到的是一样的。然后接着呢我们就来用第三种方法,然后就是最大自然估计与 最长私人估计与那个那个那个那个牛顿切线法。然后这个是第三种方法。那么首先呢,我们来就是设他的初始值, a 零 b 零都等于零。然后呢,再设置变量,然后将它接住。 设置完之后呢,我们知道我们需要求要求参数 a b, 然后它的二阶一阶岛,二阶岛,然后都是需要求的。然后在这呢我们先求,然后这是参数 a 的,这是一阶岛。然后我们就低于这样一个函数,它其中参数呢是有 a 有 b 的,然后所以呢 就是这样一个它的返回值。返回值呢,就是就是,就是我们刚刚的公式里边的, 这是 a 呢,是 a 呢,是那个参数,那是那个就是 x 前的系数。那么所以呢就是备胎一,就是用这样一个方式是它的一阶道,然后这是它的二阶道,然后我们可以来将 让他写出来,只能拍点 some, 就是负二乘以 y, 减去 a 乘以 x, 然后再减 b, 然后呢再乘以一个 x, 然后这样就是它的一阶岛,然后它的二阶岛呢,我们就用 s a 二来表示 s a 二就等于呢派点上就是二 x 平方,这是二乘以 x, 然后它的平方。 那接下来就求长数,参数就是 b, 它的一阶段。然后呢,同样的其中的参数是 a 和 b, 然后呢反 返回值呢,我们就让它返回, 这是返回我们的 e 阶道,这是 number 点上 就是和上边呢是一样的,就是但是少了一个乘以 x, 然后它的 r g 岛呢,就是 r, 就是 r n, 这是通过计算我们是可以得到的,就不用呢配点 some 二来表示了。然后就直接就直接来写二 n, 然后其中的 n 呢,就表示的就是 data。 点 shift 零, 然后紧接着呢我们需要来就是来设计一个 for 循环,就是多次进 进行下边的操作,然后就是来达到我们的要求,就是我们来假定设置个一千字,然后呢就是 a n 一,就是其中的 a n 一呢,表示的就是就是我们的 呃,表示的就是这样一个, 我们可以来一起,然后就等于 a s, 那它的负一, 然后 b n 一也是一样的,那就等于 b s, 然后它的负一, 然后就是这样一个公式,然后就是就要来写这样一个公式,就是 a n, 然后等于就是刚刚的 a n 杠一,然后我们可以来写 a n, 就等于 a n 杠一,减去减去刚刚的我们求到的一阶档,然后除以它的二阶档,然后就是 s a 一, 然后其中的参数呢,就是就变成了这个,然后来除以二阶段, b n 呢也是类似的,就是也是一样的, 就等于 b n, 然后它的一街道,然后来除以它的二街道,然后这样我们就可以得到这个然后呢我们用 a 杠 s 来将它接住,然后就等于 a n, 然后呢 b s 等于 b n, 然后接着呢我们需要来设置一个,就是设置一个 if 渔具,就是总 al, 我们当它的误差要小于一个值,然后来结束,然后不可能一直的计算下去,然后呢也没什么意义。然后呢就是 a n, 然后 b n 这样一个误差呢,再来加上 它就需要小于一个值 s e e, 然后呢在前边呢我们就将这个值给它,就是设定一个值,然后就设定为 e 的,就是 e 的 过十字方,然后这个值呢就挺小的,然后当它小于就是我们设定的这个就是误差值,之后呢我们就来就可以结束了,就可以 break, 然后这样呢就是我们得到的,然后我们可以来看一下最后得到的参数, 我们可以看到和前边我们计算得到的 a b 呢是一样的。 然后计算得到参数之后呢,你就需要将参数然后带进那个方程,然后再将 x 的原始值带进去,然后我们就可以得到 y 的预测值,那 y 的预测值呢?我们就用大 y 一来表示,然后就等于 monpy 点。就是首先还是用就是一给它填充,然后就是 让他得到这样一个形状的, 嗯,接着呢就是来进行一个佛佛循环,然后就是让就是每一个 x 带进去,让得到它对应的 y, 写不灵 到它对应的 y, 然后所以就是 a, 然后呢就等于 a s, 然后它的 b 就是刚刚计算得到的参数,乃乘以 x, 这是这是第二个 x, 然后位置上的 x, 然后呢乃加数,加上长数那个参数 b。 最后呢我们就可以得到我们计算得到的 y e, 那就可以得到这样一就是一串数据,那么它就是我们预测得到的 y e。 然后接着呢就是最后一步,我们要进行 t 检验, 这是 t 检验。在 t 检验当中呢,我们首先计算了一个,就是一个呃变量,然后就是 l x, x。 然后我们可以来看一下, 就是我们计算得到了 l x, x, 然后它就是 x, 就是每一个 x 减去平均值,然后它的平方,然后再求和,然后就可以 写出来呢,就是 number one, 这是 x 减去 number 点命 number two, 然后呢要平方,然后再求的和。然后呢接着呢就是检验统计量 t, 今天统计量 t 的公式呢,就是这样一个,然后其中的这个嗯,这个一加呢表示的公式呢就是这样一个,这个就是方叉的估计值,然后我们就可以来写一下, 就是他要开一个方,然后刚刚在公式当中呢我们可以看出来,然后呢然后呢来除以就是 n 减二分之一, n 减二呢是我们的自由度,然后我们就用 data 点 shift 零,然后来表示的是 n, 然后减去二,然后接着呢我们来乘以 number one 减去 n y, 然后就是我们的减去我们的预测值, 然后来方,然后再开方,然后这样呢就可以得到我们的预测值那对,这样就可以得到我们的检验统计量 t, 然后呢就要计算得到了检验统计量 t 呢是等于二点几。然后我们是要和就是将计算得到的 t 呢和 我们的显著性水平而发进行一个比较,就是而显著性水平而发呢是零点零五,然后对应的查表,然后就是自由度呢是 n 减二,然后是等于十八,查到的 临界值呢是一点七几,然后明显的是小于我们这计算得到的 t, 然后二点几。然后所以呢就就是拒绝原假设,然后就说明字变量,然后 x 呢对因变量 y 呢有显著的影响。然后呢以上呢就是今天的所有内容。
朋友们好,本个视频我们来讲解一元线性回归模型及其应用。 其实整个概率这一块,很多同学会感觉他比较抽象,我们就简单直接来说,在上一个视频当中,我们知道就是在统计学当中,我们会经常涉及到统计出来很多数据,比如以我们上节上个视频举的这个例子, 子女的身高和父亲身高的比值比例关系,或者是他们之间的一个相关性啊相关性,我们得到这么一样一些散点图意外线性回归模型呢?就是我怎么样找到这么一条最优的直线 来估测这个子女和父亲身高之间的这种关系,那也就是说这条直线呢,我们把它写出来肯定是一个直 直线方程,就是这种形式, y 等于 bx 加 a 加 e 这种形式,它就是 y 关于 x 的一个线性回归模型。结合到这个例子当中,也就是子女的身高和父亲身高之间的一个估算的一个关系, 其中 y 呢称为音变量, x 称为自变量,也就是说我先有已知父母的身高身高,我由这个模型来预测一下,或者说估算一下子女的身高就可以了。 所以的话,现在呢,那关键的问题就是我们怎么样找到这么一条直线,使得这一条直线模拟这些散点图的这个效果是最优的, 是最优的。那么这个直线方程呢,我们是结合最小二乘法来得到的,来得到的这个公式,这个 课件当中没有写全啊,我在这个位置再给他写一下,这个呢,我们就将外间等于 b 间乘以 x 加 a 间称作外。关于 x 的一个经验回归方程,也就是我们由内一些 一堆三点图,一堆数据,然后得到这么一个方程,来估算父亲和孩子身高之间的一个关系。这个方程呢,我们称为经验回归直线,或者说经验回归方程啊。 那么这里面的这个 b 间和 a 间是怎么得到的啊?我们通过我们得到的一大堆的这些数据,就是 x 一一直到 xn 这一堆数据。 b 间呢,就等于上面是一个求和公式, i 从一到 n, 对谁求和呢?对 x i 减去 x 杠, 乘一个 y, i 减去 y 杠,然后除一个。下面也是求和,爱从一到 n, 对谁求和呢?对 x, i 减去 x 杠,括号的平方求和。 在这个公式里面啊,我们解释一下 c 个码,爱从一到 n 就是对他们进行求和,也就是我 x 一带进去, y 一带进去, x 二带进去, y 二带进去,每得到这这些数,对他们求和。这个 x 杠呢, x 杠就是 x 一到 x n 的均值, 也就是平均数,外杠呢,就是外一到外 n 的均值也是平均数。由这个呢,我们就得到了这个 b 间,这个 b 间。另外呢, b 间还有一个常用的公式,我给他写到下面啊,要下面可以用它啊,也就是 c 个嘛, i 从一到 n, x i, y i 减去 n 倍的 x 杠成一个 y 杠, 除一个 c 个码, i 从求和, i 从一到 n, x i 的平方减去 n 倍的 x 杠的平方,用它也可以更多的,我们 更多的时候是用这个公式啊,就直接把 x, i, y, i 分别带进去求和,后面呢, x 杠, y 杠就是他们的均值,算出来,直接带入运算就行了, 这个我们就得到了 b 间。 b 间呢? a 间呢? a 间就比较简单了, a 间直接就是由 y 的平均数减去 b 间,成一个 x 的平均数就可以了,就 ok 了。然后呢,我们由我们得到的从一到 n 这一组,这一对,这一堆数据当中,我们算出来 b 间, 算出来 a 键。好,所以回归方程得到了,就是它,我们就可以拿这个方程,然后来估算。比如再给我们一个父亲的身高,让你估算孩子的身高,那我就可以用这个模型来估算了,就是这个意思。好,那下面我们思考两个小问题,第一个 经验,回归方程一定过他的这些点当中的某一个点吗?我们看一下这个方程, b 间、 a 间,这个可不一定啊,记得,这个不一定啊, 不一定啊,不一定的。就像我们上面画的这个图,这一条直线虽然是你和效果最优的,但是他一定过其中当中的某一个点吗? 不一定,极端的一种情况,比如我们得到的这样一些数据,很对称很对称的两端,那这个直线肯 肯定是在他俩中间的位置啊,不一定过某一个点啊,不一定过某一个点。然后看第二个小问题, x 杠 y 杠,也就是 x 均值, y 均值在经验回归线上吗?这个是在的啊,这个是在的,因为我们这个 b 间、 a 间都是由这个 y, 你看看这个就是由他得到的,所以我们把 x 杠外杠均值带进去之后啊,带进去之后他肯定是成立的啊,他肯定是成立的。好,这个就是关于这个一元线性,呃,一元线性回归模型, 一元线性回归模型它的定义以及它的长这个公式啊公式。
如何使用 r 你和一元现行回归模型并进行模型诊断?一元现行回归模型是最简单最常用的回归模型,它可以量化输入变量与输出变量之间的现行关系。 首先我们加载 teddy verse performance, staggazer 这几个包,然后加载自带的数据及 mt cars。 这是一份关于汽车设计与性能的数据。 接下来我们需要对数据进行预数里,我们考虑将马力作为输入变量,耗费每加吨汽油行驶的阴理数作为输出变量。因此使用 c like 的函数选择 hp 和 mpg 这两个变量。 在以后回微模型之前,我们可以可视化输入变量与输出变量之间的关系。首先可视化 hp 与 mpg 之间的线性关系。 可以看到伴随着 hp 的增加, mpg 呈现出明显的下降趋势。然而根据三点途中的点的分布情况,我们发现直线并不能很好的你和二者之间的关系。 然后我们考虑可视化 hp 的二次项与按 pg 之间的关系。 可以看到相比直线关系,二次型的抛物线能够更好的你和 hp 与 mpg 之间的关系。基于可视化分析的结果,我们使用 lm 还是 分别你和以 hp 为输入变量的回归模型和以 hp 的二字向为输入变量的回归模型。然后是用 stagakes 函数对比两个模型。 根据输出结果,我们可以写出两个模型的表达式。我们也可以很清楚的看到两个回归模型的孤寂。西楚军事统计显著的。 这里我们对第一个模型的系数进行解释,估计的截距为三十点零九九,这表明当 hp 为零时, mpg 平均为三十点零九九, 估计的斜率为负零点零六八,这表明 hp 每增加一个单位,按 pg 平均减少零点零六八个单位。值得注意的是, 第一个模型的二方等于零点六零二,第二个模型的二方等于零点七五六,这表明第二个模型对 mpg 的解释性更强,即第二个模型又与第一个模型。 最后是用 check model 函数对模型进行诊断。我们需要关注的主要是对模型的现行假设、同方插假设、残插正态假设的诊断。 对第一个模型而言,线性假设对应的诊断图中的线不是水平的。同 方插假设对应的诊断图中的线不是水平的。残插正态假设对应的诊断图中的部分点明显偏离对角线,这意味着第一个模型的三个假设均不满足。 对第二个模型而言,线性假设对应的诊断图中的线基本是水平的。同方叉假设对应的诊断图中的线基本是水平的。残叉正太假设对应的诊断图中的点基本围绕着对角线分布, 这意味着第二个模型的三个假设基本满足。综上所述,第二个模型比第一个模型能够更好的描述 hp 与 mpg 之间关系。 以上就是对一元现行回归模型在啊语言中的始终介绍,下期想学习什么,在评论区中告诉我,期待您的点赞和收藏,祝您早安午安,晚安!
哈喽,大家好,我是到这里,今天我们来学习线线回归分析。线线回归分析是指呢求出独立变量和从数变量之间的线形式,再给出独立变量的值时呢,预测从数变量的值等等等等,也就是说通俗一点来讲呢,也就是说 a 和 b 之间 有没有影响关系,或者 a 对 b 产生了怎么样的影响?是正的影响呢?还是负的影响呢?还是没有影响呢?我们就要通过回归分析呢来判断好。我们来看一个研究模型, 首先呢我通过大量的一个参考文献呢,以及理论的推导呢,来提出过程品质和结果品质作为独立变量对这个信赖直接的影响关系的探究。我想验证一下过程品质和结果品质是否对信赖直接有影响关系呢?有怎么样的 影响关系呢?是正的影响关系呢?还是负的影响关系呢?这样的话呢,我就要进行这个回归分析。如何进行回归分析呢?嗯,首先打开 sports 同级学软件。 好,这还是我们上一次涉及到的数据,这个结果品质,过程品质对信赖以及顾客来做影响。首先呢我想要判断过程品质和结果品质对信赖之间有没有影响关系,或者有什么样的影响关系呢?首先点击分析,找到回归线性 好字变量呢,也就是我们的独立变量,首先是两个结构品质和过程品质,我们一起选上之后呢,导入到字变量当中,这个线性回归分析呢,也分为一亿元线性回归和二元线性回归。一亿元线性回归呢,也就是说字变量呢,只有一个 多元性回归,就是二元性回归呢,是自变量,有两个级以上方法是一样的,我们这边以这个多元性回归来进行一个讲解。好,我们因变量呢为信赖来看统计进行一个贡献性诊断,继续, 其他的呢,其实我们可以默认,然后就直接点击确定即可。好,我们来看一下这个分析结果。 好,首先看模型摘掉 r r 方以及调整后的 r 方,这个这个代表的意思就是说这个 独立变量,对这个音变量也是从数变量有多少的这个解释能力,看到这个调整后的二房零点五二三,也就是说这个过程品质和结构品质呢,对这个信赖有百分之五十二 二点三的解释能力。嗯,还是比较可以的啊,一般在百分之五十以上都是比较不错的。 来看一下这个 lr 分析,看到显著性的 p 是小于零点零五的,也就是说我们要这个检验的过程品质和结果品质呢,对信赖是有影响关系的, 但是到底是有如何的影响关系呢?或者是谁对他有影响关系呢?是一个呢还是两个呢?有怎么样的影响关系呢?我们就要看下面这个系数。这个表格 好,我们首先来看这个长量啊,显著性是大于零点零五的结果品质,我们主要判断的是结果品质和过程品质 对训练的影响,我们就要看到 p 值, p 值两个全是小于零点零五的,也就是说结果品质和过程品质呢,对训练有显著性的影响呢?但是到底是正影响呢还是负影响呢?我们就结合这个 贝塔值,结果品质的贝塔值呢是零点二七七,过程品质的贝塔值呢是零点四二七,全部是大于零的,也就是说具有正向的影响关系,结着结果品质和过程品质越好呢,越吸引来是正向影响关系的。 但是我们通过这个表格呢,还可以判断,过程品质呢,它的影响力呢是大于结果品质的,因为它的贝塔值是大于结果品质的。那我们来看一下贡献性统计 v f, 它的值呢?哎,全部都是小于五, 是不存在贡献问题的啊,好,这就是线性会分析的一个过程和结果解读,我们来看一下如何在论文当中进行结果解读呢? 首先呢,我们需要对我们分析出的表格呢进行一个汇总,首先呢将 r r 方修正后的 r 方呢要体现出来,然后将结果品质的背它值和写入 字呢,哎,都要体现出来的。然后我们进行这个文字说明,为了验证他们之间影响关系呢,采用了回归分析,然后为了验证他的多重贡献性问题呢,检讨了 v f 的值,他是小于十的,一般来说小于十是可以的, 然后不存在贡献问题,然后我们就要看他的解释能力,而方的解释能力呢是五十二点三,百分之五十二点三,也就是说他的解释能力在百分之五十二点三,独立变量,对,从事变量, 让我们再来看这个皮值,都是小于零点零五的,也就是说结果品质和过程品质,对信赖有显著的正向分享关系的贝塔值全部都是大于零的。好,这就是我们在文章当中,哎,如何做解释,好,今天的课程就讲到这里。
同学们好,我是来自北京师范大学附属中学的唐乔老师。本节课我们一起学习一元现行回归模型的第一课是, 首先我们来看三则新闻播报,一、一九九九到二零零八年,俄罗斯 gdp 增长率与国际石油价格的相关系数为零点八六。 二零零九到二零一四年,该系数达到零点九八二。瑞士洛桑国际管理学院对企业国际竞争力的研究也显示,公司文化与企业管理竞争力的相关系数在几个因子中是最高的。三、 分析表明,一九九零年至二零一一年,我国财政收入与企业注册资本之间的关系呈高度线性相关,其相关系数高达零点九八七,而斜率竟为零点一四八, 你能猜出其中相关系数的含义吗?这里的斜律指的又是什么呢? 学完医院线性回归模型之后,你就会对他们有一个比较完整的了解。下面我们来看这个问题字型选择标准将下列变量之间的关系分为两类,并分别阐述每一类中变量关系的特点, 一、圆的面积啊四、与半径 r 之间的关系二十六岁学生的体重 w 与身高而且之间的关系 三、商品销售量 q 与销售价格 p 之间的关系四、匀速运动的物体,其运动的路程 r 四、与时间 t 之间的关系五、科技创新能力外与人才培养近亲繁殖率 x 之间的关系 六、学习成绩 f 与平均学习时间 t 之间的关系我们可以把一四分为一类,剩下的为另一类。一中 r 四等于派 r 方 r 确定了 s, 也就确定了 四中。我们可以设速度为 v, 那么 r 四就等于 v t t。 确定了 r 四,也就确定了。一与四都具有我们学过的函数 关系,其中一个边量确定了,另一个边量也就唯一确定了。 二中身高确定了,体重并不能确定。身高越高体重可能会越重,但是体重还可能会受遗传因素、饮食等等影响。 三种销售价格越低,购买的人可能会越多,销售量可能会越大,但是销售量可能还会受到季节等因素的影响。 五中人才培养近亲繁殖率 x 越大,科技创新能力外可能会越小,但是 x 确定的时候,科技创新能力并不能确定。 六中行军学习时间替越长,学习成绩可能会越好,但是学习时间相同的时候,学习成绩并不一定相同。 二、三、五、六中的两个变量都不具有明确的函数关系,这些两个变量之间有一定的关系,但没有达到可以互相决定的程度,他们之间的关系带有一定的随机性,统计学上称为相关关系。 下面我们来看例一,已知某班级学生数学成绩与物理成绩的对应表如下, 第一行是数学成绩,第二行是对应的物理成绩,第三行是数学成绩,第 四行是对应的物理成绩。那么这个班级学生的数学成绩与物理成绩之间存在相关关系吗? 从上表中,我们想要直接看出数学成绩与物理成绩之间是否有相关关系是有一定困难的。我们可以在保持成绩配对方式不变的前提下,按照数学成绩从小到大的方式排列。 可以看出数学成绩增加时,物理成绩大体上也增加。为了更加直观的看出数学成绩与物理成绩之间的关系, 我们可以在平面直角坐标系中以数学成绩为横坐标,物理成绩为重坐标,把这些成对数据用 点表示出来,这样做出来的由点组成的统计图称为散点图。 而且我们可以发现,这些散点大致落在一条从左下角到右上角的直线附近,表明数学成绩增加时,物理成绩大体上也增加。 并且在允许一定误差的前提下,我们可以用依次函数来近似的刻画数学成绩与物理成绩之间的关系。 像这样,如果两个变量之间的关系可以近似的用依次函数来刻画,则称这两个变量线性相关。此时,如果一个变量增大,另一个变量大体上也增大,则称这两个变量正相关。如 如果一个变量增大,另一个变量大体上减少,则称这两个变量负相关。下面我们来做这个练习。如果将下列两个变量之间的关系看成线性相关,则哪些是正相关,哪些是负相关? 一、十六岁学生的体重与身高之间的关系。 身高越高,体重可能会越重,所以是正相关。二、商品销售量与销售价格之间的关系。 销售价格越高,销售量可能会越低,是互相关。三、创新能力与人才培养近亲繁 值率之间的关系。繁殖率越高,创新能力可能会越弱,是富相关。四、学习成绩与平均学习时间之间的关系。平均学习时间越长,学习成绩可能会越好,是正相关。 接下来我们来看例二,某地区从某一年开始进行环境污染整治,得到了如下数据, 这里面第一行是年份,第二行是污染指数。做出这些成对数据的散点图,直观的判断污染指数外与 x 是否现行相关。如果是进一步判断是正相关还是负相关,我们做出散点图, 可以看出这些散点大致落在一条直线附近,所以视线性相关, 而且 x 增大时,外大体上减少,所以是负相关。那么你能找出近似描述外与 x 之间关系的一词,函数表达是吗? 为了找出一次函数表达式,我们可以先做出一条直线,使得这些散点大致落在直线附近。比如通过点一六和七三确定的直线外等于负零点五, x 加六点五就满足条件。 那么请同学们思考一下,类似这样的直线有多少条呢?我们发现 有很多条直线都可以使得这些散点落在直线附近。那么刚才所找的外等于负零点五, x 加六点五是最好的直线吗?衡量标准是什么呢? 我们可以计算一下由这条直线得到的预测值和实际值之间的误差。 当 x 等于一时,由这条直线得到的预测值就是负零点五, x 加六点五,也就是六。 当 x 等于二十,由这条直线得到的预测值是负零点五乘以二加六点五,也就是五点五。类似的,我们可以计算出剩下的预测值,那么误差 实际上就是实际值减去预测值。当 x 等于一时,误差就是六点一减六,零点一。当 x 等于二十,误差是五点二减五点五,负零点三。类似的,我们可以计算出剩下的值。 我们还可以在图中直观的来看一下误差。我们做出以年份为横坐标,预测值为纵坐标的点, 那么误差的绝对值实际上就是蓝色的点与对应的黄色的点之间的距离。比如当 x 等于三十, 误差的绝对值就是这段距离,实际上就是散点与直线的纵向距离。 显然我们希望这些散点在整体上与直线最接近,也就是说纵向距离越小越好,即误差的绝对值之和越小越好, 但是含着绝对值不好计算。所以在统计学中,我们规定最好的直线是使得误差平方和最小的直线。 可以证明这道题中使得误差平方和最小的直线是外估等于负零点四七五 x 加六点三。我们可以在图中做出这条直线, 我们把这条使的误差平方和最小的直线,它的方程称为外观与 acc 的回 规直线方程。那么回归直线方程是如何通过计算得到的呢? 也就是说,设变量 x 与 y 的 n 对成对,数据为 x i y i i 等于一二三,一直到 n 求出 y。 关于 x 的回归直线方程,外估等 b 估 x 加 a 股, 实际上我们需要求出其中的待定系数 b 股和 a 股,使得误差平方和最小。 下面我们把误差的平方和表示出来。对于每一个已知的数据, x i 都可以由回归直线方程得到它的预测值 b 公 x i 加 a 股,我们把它记做外艾股, 那么误差的平方和就是实际值。减去预测值的差的平方和,也就是 c 个码爱从一到 n, 外爱减外爱孤的差的平方, 也就等于 c 个码 i 从一到 n, y, i 减 b 估, xi 减 a 估的差的平方。 现在我们需要寻找 b 姑和 a 姑,使得这个柿子的值最小。同学们仔细观察一下这个柿子, 他可以看作是关于 b 股的二残数,也可以看作是关于 a 股的二残数。因此我们可以利用二残数在对称轴处取得最值的方法,求出使的这个柿子最小的 b 股和 a 股的值。 感兴趣的同学课后可以推倒一下。我们把这种使的误差平方和最小的求回归直线方程的方法称为最小二乘法,其中的二乘指的就是平方或者说二次方。 我们根据最小二乘法可以得到 b 估等于 c 个码 i 从一到 n, x, i 减 x 八的差的平方。分支 c 个码爱从一到 n, x, i 减 x 八乘以 y 减 y 八。 这个式子可以变形为 c 个码 i 从一到 n, x, i 的平方减去 n 倍的 x 八的平方。分支 c 个码爱从一到 n, x, i, y 减 n 倍 a 的 x 八乘以 y 八, a 估等于 y 八减 b 估 x 八。其中 x 八等于 n 分之一, c 个码 i 从一到 n, x i, 其实它就是变量 x 的平均值。外拔等于 n 分之一, c 个码爱从一到 n, y, 也就是变量 y 的平均值。 我们把其中的辟谷称为回归系数,它实际上就是直线的斜率。 下面我们来看这个练习验证。例二中外关于 x 的回归直线方程为,外估等于负零点四七五, x 加六点三。根据回归系数的计算公式,我们需要计算出 x 八外八以及每个 x 减 x 八,每个外减外八,还有每个 x 减 x 八呈上对应的外减外八,以及每个 x 减 x 八的差的平方。我们先来计算每个 x 减 x 八, 第一个 x 减 x 八就是一减四等于负三,第二个 x 减 x 八就是二减四等于负二,类似的,我们可以计算出剩下的值。 下面我们来计算每个外减外八。第一个外减外八就是六点一减四点四、一点七,第二个外减外八就是五点二减四点四、零点八,类似的,我们可以计算出剩下的值。 接下来我们来算每个 x 减 x 八与外减外拔的成绩,第一个成绩就是负三乘一点七等于负五点一,第二个成绩就是负二乘零点八等于负一点六,类似的,我们可以计算出剩下的成绩。 这一行的核实际上就是 c 个码 i 从一到七, x, i 减 x 八乘以外, i 减 y 八等于负十三点三,它就是辟谷的分子。 我们再来计算每个 x 减 x 八的差的平方,第一个 x 减 x 八的差的平方就是负三的平方,也就是九。第二个 x 减 x 八的差的平方 就是负二的平方,也就是四。类似的,我们可以计算出剩下的值。这一行的核实际上就是 c 个码爱从一到七, xi 减 x 八的差的平方等于二十八,它就是辟谷的分母。 因此我们可以得到辟谷等于二十八分之负十三点三等于负零点四、七五。 然后我们把 b 估的值带入 a 估的计算公式,可以得到 a 估等于六点三。 这里面 b 估实际上就是直线的斜率, a 估就是直线的长竖向。因此我们验证了外观月 x 的回归直线方程确实是外估等于负零点四七五, x 加六点三。 下面我们来总结一下求回归直线方程的步骤。第一步,计算 x 八外八。 第二步,列表求和计算 c 个码 i 从一到 n, x, i 减 x 八乘上 y 减外把,以及 c 个码爱从一到 n, x 爱减 x 八的差的平方。 第三步,带入 b 股和 a 股的计算公式,计算出 b 股和 a 股。第四步,直接写出回归直线方程,外股等于 b 股, x 加 a 股。 下面我们继续看这个练习的。追问一,你能估计出该地区第八年的污染指数吗?当 x 等于八时,有回归直线方程,我们可以得到外估 等于负零点四七五乘以八加六点三,也就等于二点五。所以我们可以估计该地区第八年的污染指数为二点五。 我们发现利用回归直线方程可以进行预测。追问二,第八年的污染指数一定是二点五吗?答案是不一定, 因为污染指数可能还会受除年份外的其他因素的影响。不过我们可以利用回归直线方程预测出该地区一八年的污染指数在二点五左右。 下面我们来总结本节课学习的内容。第一部分内容是相关关系,两个臂量之间 具有一定的关系,但是还没有确切到可以由其中一个变量去精确的决定另一个变量的程度。这个时候我们称这两个变量具有相关关系。 如果两个变量的关系可以近似的用依次函数来刻画,则称这两个变量线性相关。 如果其中一个变量增加时,另一个变量大体上也增加,则称这两个变量正相关。如果其中一个变量增加时,另一个变量大体上减少,则称两个变量负相关。 我们第二部分内容是回归直线方程。我们证明了给定两个变量外语 x 的成对数据之后,回归直线方程外, a 股等 b 股 x 加 a 股总是存在的。而且我们根据最小二乘法,也就是使得误差平方和最小的方法得到了 b 股和 a 股的计算公式。利用回归直线方程,我们可以进行预测。 那么回归直线方程中回归一词是怎么来的呢?我们一起来看一下。 回归是由英国著名生物学家兼统计学家高尔顿提出。一八八九年,他在研究祖先与后代身高之间的关系时发现,身材较高的父母,他们的孩子也较高, 但这些孩子的平均身高并没有他们的父母的平均身高高。身材较矮的父母,他们的孩子也较矮, 但这些孩子的平均身高却比他们的父母的平均身高高。高尔顿把这种后代身高向总体平均值靠近的趋势称为回归现象。 后来人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析,这就是回归一词的由来。 本节课的作业是人教社必版课本第一百一十一页练习 a 第二题和第一百一十二页练习 b 第六题。本节课到此结束,谢谢同学们的观看。
来讲一个一元线性回归模型,分三个方面,一个是公式的记忆,第二个是两种题型,一种是线性的回归模型,还有第二第三个是非线性的回归模型。 我们先来说公式,这两个公式必估他有两个公式,这两个公式必须得记住,因为有的时候题给了第一个公式,但是给了第二个数,第二个公式的数字数据,所以我们只能用第二个公式,有可能给了第二个公式,但我们得用第一个公式的数据,所以还是要把这两个公式记下来。 那这个公式呢?我们找规律去记。大家看一下分子分母,它都是求和呀,都是从一到 n 所有的数加起来求和,那分子是 x i 减 x 八, y i 减 y 八,这样我们去观察它的分子是个二次的,分母是不是也是个二 次的呀,并且形式也差不多啊,都是每个数减去他的平均数,就这样你就把他的公式记下来了呀。这里也是啊, x i y i 减去 n 倍的 x 八 y 八。这里要注意我们的求和,这个求和指到这里就结束了。 你就说这个公式前面是 n 个数求和,说后面这个减减去的是不是也是 n 个数呀,也是 n 个数求和,所以他还是对应的啊,这是二次的,这也是个二次。 下面还是啊,这个嘛, x i 平方减 n x 八的平方。前面这个求和公式也是到这里就结束了啊,是对 x i 的平方进行求和,你看这也是 n 个数求和,这个 n x 八的平方数也是 n 个数呀,所以他还是对应有规律的,上面是二次,下面也是二, 这样大家找着规律就把它记下来了啊,再有 i 股等于 y 减去 by 八减 bx 八,这个也是一般公式会给的,但是最好要把它都记住,包括这个二,相关系数也是这两个公式。 考试的时候题里边肯定会给一个公式,但是就怕把给的第一个公式,我们得用第二个公式,或者给第二公式得用第一个公式,所以大家还是把它按照规律记下来。这个二的规律和这个 b 是一样的啊,大家只要记住 b, 你看二的分子 是不是和 b 的分子是是一样的呀?我们就把分母,分母是不是他开了个根号,但其实还是二次的呀,我们就是原来是 x i 减 x 八的平方,我们再多一个 y i 减 y 八的平方,所以其实 这些公式啊,只要记住了一个,基本上就差不多了,按照规律去记好,这是记公式啊,大家一定要把它背下来,两个公式都要背下来。 第二个就是我们如何去做题,我拿两个例题来说一下啊,这个一个是线型回归模型,还有一个非线型,然后我,哦,还要说一点,就是我们背的这个 b i 还有二都是线性回归模型才能用的,也就是我们的,我们的方程一定是 y 等于 b, x 加 a, y 股等于 b 股, x 加上 a 股,就是我们的这些点啊,这些散点一定得是一个线性的,这样的点可能在一条直线的周围,这样的, 这样的一个,嗯,三点图我们才能用这个模型,包括这个二也是必必须得是线性的三点图才能用我们这个公式。那么来看一下例二, 嗯,越接近高考啊,焦虑越强啊,然后呢?有个焦虑啊,这个反应,我们就做了一个调查, x 是周数, y 是焦虑的程度, 那 x 是离高考六周,离高考五周,离高考四周,三周,两周一周,可以从这里看出来,是不离高考越近,他的焦虑的程度就会越大呀。 那,呃,下面是不是大家看一下公式是不是也给了呀?那给了第二个公式,那具体我们到底用第二个还是用第一个,再看给的数据是不是 其实用的还是第二个数据啊?所以这样的话,我们这个公式就不用改了,不用改成第一个公式,那我们再看跟第一题啊,做出三点图,那我们做一下啊,六的时候是五十五, 三点图说大概是一个线性的,是个负相关的线性的关系。然后第二问,用最小二乘法 求出回归直线方程,就是我们关键区,就是去求 b 股、 a 股,那我们看一下 b 股的这些数字,其实这个数是不是一四五二已经有了呀?下面这个数是个九十一呀, 那剩下的就是 n x 八 y 八, n x 八的平方。哎,那我们要算他是不是就得把这个数 x 的平均数和 y 的平均数算出来啊?啊,这样 x 的平均数我们算一下,嗯, 应该是个对称的哈,那就取他的中间值,三和四的中间值,那就是个三点五 y 的平均数,那我们就把所有的加起来,除以六,是不是就行了呀?这个可以教大家一个技巧,就是我们可以取一个底呀,就算的数太大了,我们就可以取个底,比如说我取个八十的底,加上 一个平均数啊,这样算的数就小一些,你取个八十的底,是这个减八十,是变成负二十五了,这个变成负十七啊,这变成负八,这个是零啊,这变成十,这变成十九。 那这样的话,我们这样就可以约掉啊,剩个二,这两个约掉,剩的是个也是个二啊,这样二十五约掉四,就剩下负二十一,除以六,我们就可以算出他是个多少负三点五啊,所以我们就可以八十 减去三点五,这样平均数很快就算出来了。七十六点五,对吧?这是一个算平均值的技巧 哦,那这样的话,辟谷是我们就可以直接代数就行了呀,他的分子分母就都有了呀,分子是一千四百五十二啊,减去六乘以 x 的平均数啊,三点五, y 的平均数是七十六点五, 分子呢,九十一减去六乘以 x 的平均数的平方,三点五的平方,是吧?剩下的就是计算了呀。那这个计算呢,我就直接说一下结果啊。 嗯,我们算的是负的三十五分之三百零九啊, 再来个月等于负的八点八三,因为说要保留两位小数嘛,月等于八点八三。那下面 a 股 a 股是不是也是有公式的呀?用 y 八减去 b x 八, 这里需要注意的什么呢? y 八七十六点五减去 b 估 x 八,这个 b 估必须得是个准确值, 准确值,这也就是我在这里为什么我会先写一个分数,先写一个分数啊,再写一个约等于的保留两位有效数字。因为我们去去算 a 股的时候,必须得用 b 股的准确值去算 a 股。 那就说我这里哈只能写的是三十,只能写三十五,加上三十 三点五分之三百零九,再往三十五加上三十五分之三点零九,三百零九再乘以三点五。 但是这也是个很巧的事,这样的话,是不是约掉了呀,剩个零点一呀,这样我算起来也是比这个负八点八三好算,对吧?其实就算是 没有这种能约掉的这种巧合,我们也是必须得用分数去算爱估的,不能用这个估计值去算爱估啊,这样的爱估误差就会大了。必须得用必估的准确值去算爱估啊,这样我们算出爱估就是一百零四点,一百零七点四 四零啊,注意啊,不要写一百零七点四,一定是保留两位小数的,那这样我们 a 估 b 估都算出来了,说回归直线方程就有了呀, y 估就等于负到八点八三 x 加上一百零七点四零。嗯, 好,这是第一题啊,线性的。那我们再我再强调一遍啊,线性的一定要找准了分子和分母啊,基本上这些数啊,题里边都会给的,我们只要往里边带数就行了啊。这里还有一个强调的算瓦海拔的一个小技巧啊,大家可以用一下 啊,在有需要注意的地方就是我们去算 i 估的时候,一定是用 b 估的准确值,所以大家养成习惯,在这里先写一个分数,再去写月,等于再去算 i 估的时候,因为用这个分数值去算 i 估。 嗯,好,这是第一题啊,线性的回归模型。那这个第三问我就不做了哈,大家自己做一下吧,因为也没太有 空隙。好,我们再看第二种题型,非线性的模型。 那这里讲了个什么?是呢? x 呢?表示电池使用的时间,电动车电池使用的时间 y 呢?是电池剩余的电量, 那使用时间越长,剩余的电量就越小越少了呀。嗯,电量不足,零点七电池就需要充电啊。由于电池放电的特点,剩余电量 y 与 x 满足的关系是,你看这个题里边给了一个模型,但这个模型说明显不是个线性的呀。 通过三点图可以发现啊, y 和 x 之间具有相关性啊,他说的也是很很很很准确的,他说的是相关性对吧?人家没有说 y 和 x 之间是线性相关性, 所以它本来也不是个线性啊。设奥米卡等于老影 y 啊,利用表格中的前九组数据啊,这些关键字都要画出来,求出相关系数二,并判断是否有百分之九十九的把握认为 x 和奥米卡之间有线性关系啊,不是 x 和 y 之间有线性关系。那 x 和奥米卡之间为什么会有线性关系呢? 其实我们在不算这个二的时候,我们也是可以得出来。你看他令欧米伽等于 lowing y, a lowing y, 那我们这边取个 lowing y, 这边是不是也要取个 lowing 啊?也就是说他我们两边同时取的对数啊。 lowing y 等于 lowing a 乘 e 的 b x 四方是吧?接着往下写啊, lowing y 是不是帧数相乘展开就是相加呀? lowing e 的 b x 四方啊,那接着往下写啊, low in y 等于 low in a 加上 b x。 诶,这会儿大家看一下,这个 x 是不是就变成了一个一次了呀,一次就变成线性了呀?当然不是, y 和 x 是线性,是 amiga 啊, in amiga 等于烙印 y 哎,也就是说 omega 等于烙印 i 加上 bx 啊,这个烙印 i 是不是一个常数啊?不用管它啊,那就是 amiga 和 x 是不是就是一个线性关系了呀?啊,这里也需要注意啊,我们最好啊养成一个习惯, 把这个所有的点,就像我刚才讲的三点图,不管我们是求 b 估 a 估还是求相关系数啊,是不那些点都是线性的点才行啊,所以我们要注意把这个点改一下,那个点是不是变成 x i 哦,没改 i 这些所有的点是线性的了呀,对吧,因为这个方程是个线性的方程嘛。那这样让我们去算二的话,你看二的公式是不是也给我们了呀?不过你看这个二的公式上改的是 v mu, v muv mu 啊,你看我们这个点是不是也没有 v 和 mu 啊, 所以大家还是要把我们课本上面的公式给他记熟练了,记熟练了我们就可以去改公式了呀。嗯, 我们只要在这里把公式改了哈,那这个 v 是不是应该是个 x? 嗯, x 八,这个应该是个 amiga amiga 吧, x x 八平方啊,奥米卡奥米卡吧。那这样的二其实就很简单,这些数是不是也不用我们算?课本上面这些表格里边都有的呀?嗯,那我们找一下分 是不是对应这个分子,这个是分子是要用的,还有呢,分母啊, x i 减 x 八的平方啊,还有一个奥米卡减奥米卡的八的平方是不就找到了呀,就代数就行了啊,负十一点九八 除以根号六十,乘以根号二点四三。那你看这边也有啊,根号十五,根号二点四三,是不都给我们了呀,当然这个计算呀,是还是不简单。嗯,肯定是要花些时间去算的, 这个就需要大家平时的积累了呀,平时遇到遇到计算一定要好好算一算啊,这样我们算出的二呢,就是等于负的零点九九,等于负的零点九九。那再再读题啊,他说二的绝对只是大于七点八九,就有百分之九十九认为 相关了,那我们就是零点九九或者二的绝对值,二的绝对值等于零点九九大于零点七八九啊,所以有百分之九十,有百分之九十的把握, 就可以认为两个是线性关系了,那他俩是线性关系的时候,我们就可以去求一个线性回归直线方程了呀。啊,那再看第二问, 求线性回归直线方程,当然我们求的是还是欧米伽等于 b g x 加上 ig, 对吧?求的还是欧米伽和 x 啊,当然我们这个点是不还是 x i 和欧米伽 i 这些点才是个线性的点呀。 好,再看 b 股啊,我把公式往上提一提,公式是吧,还是这个点是 x i 奥米改。哎呀,我们就把把这个公式啊,就在题里面改就行了啊, x 八奥米改啊,奥米改八啊, x i x 八在平方。其实改完了之后,大家会觉得这个题啊,也没有那么复杂呀,你改完了之后直接找分子,分母表格里边是都有的呀,五到十一点九八, 再除以六十啊,就可以约等于大概是个负的零点二零啊,注意这个零点二零啊,看看题里面有没数啊。说了啊,保留两位小数啊,我们就不要写零点二,写零点二就错了啊,一定要算出数啊,算出数才能给这个步骤分啊。 哦,再次再算 a 把 a 股啊,那 a 股还在不在?我们看啊,其实题里面公式也都是给的,所以说也不用太害怕这样的题, 你看题里面的公式是不?我们接着改公式啊,这个应该是个 omega, 对吧?这个应该是个 x 啊,那我们就改成 omega 八减去 b 股 x 八, omega 八 减去辟谷 x 八。哎,这里一个遇到一个问题,我们的欧米伽八是不是他的平均数还不知道呀,但是我们同学啊,千万不要往这里边算平均数,问题又错了呀,我们的点啊,不是 x 和 i 和 y, 我们的点是 x 和欧米伽。来再找表格,表格是不是这里有啊? 那我们的 amigaba 是不是就可以算出来了? amigaba 是不是就是 一点五五除以九啊?注意啊,这是九个数是吧?用前九个数去算的呀,当然, x 八是不是在这里? x 八除以九,那就是个五五九四十五。 哦,那他就是九分之一点五五减去啊,注意啊,加上十一点九八除以六十,再乘以五啊。大家看一下,我是不是还是用分数用 b 的准确值去算 a 股啊, 千万不要用这个小数啊,用小数用这个越等于就有可能会出现误差了。好,这样,我们算出的 i 股是个一点一七, 一点一七。哎,那我们的回归直线是不是就算出来了呀?负零点二零 x 加上一点一七啊?再注意最后一步啊,我们要求的是 y 和 x 之间的关系,不是求奥米伽和 x 之间的关系,所以我们之前换了圆,要换回来令奥奥米伽等于 loin y, 对吧?奥米伽是个 loin y, 也就是 loin y 等于负零 零点二零 x 加上一点一七,那我们的 y 是不是这对呼唤 e 的负零点二零 x 加上一点一七四方呀?好,这样我们就把这个 x 和 y 的关系算出来了。嗯,会新鲜回归直线方程就算出来了。嗯, 好,那我们就讲到这里了。呃,那我再把这个题再捋一遍哈。呃,一些需要注意的地方。嗯, 一个是换元啊,他一开始不是个现行关系,换元换元需要注意啊,这个题里边给了个什么字母咱就咱就用什么字母,千万不要改 啊,他是欧米伽的,就是欧米伽啊,大家可能会换元令 t 等于老引 y 啊,这样就麻烦了呀,你看我们的这个表格是不是都是欧米伽呀,你换成 t 就更找不着了啊, 不会查表了啊。所以题里边给了奥秘感,咱就用奥秘感,不要换啊。再有一个就是我们换完圆之后一定要把这个点给写下来, 这个点是不是 x i 和奥梅卡呀?点啊,再把这些表里边,然后你看,刚才我们就可以说把这个去掉,这些带 y 的其实都是干扰我们的呀,直接给他打个叉去掉就行了,就不要找这些数了,这些都是错误的数字,用不着的啊。再有下面就是把题里边的公式都给改了, 都换成我们现在的脸,这样你再去找分子和分母是不是就很简单了呀?嗯,当然呢。呃,最重要的步骤啊,还是要把它算出来啊。这个二要算出来才有分啊, b 姑挨姑都是要算出来才有分的, 最后就是换元,换元之我们求的是 x 和 y 的关系,所以换元最后要换回来。好的,嗯,这是这节课,希望对大家的学习能有所帮助。
大家好,我们来学习一下八点一一元线性回归模型及其用一元线性回归模型生活经验告诉我们,儿子的身高与父亲身高不仅线性相关,而且还是正相关。也就说一般情况下,父亲的身高越高,孩子的身高 通常也较高。为了进一步研究两者关系,有人调查了十四名男大学生的身高及及父亲的身高,得到如下数据, 那我们大致看一下表,父亲的身高啊逐渐递增,而孩子的身高一般的情况下也是越来越高, 但是呢,也并不完全一样。内部前面表示的数据方式以横坐标表示父亲身高,中坐标表示儿子身高。建立这条标记, 再将上板中的成对样本数据表示为三点图,如下图所示。可以发现三点图大致分布在从一个左下角到右上角直线附近。我们来看一下这个三点图,那么可以看出他是一个正相关的, 表明儿子身高。儿子身高与父亲身高线性相关,利用统一软件求的样本,相关系数是二等于零点八八六,表明儿子身高与父亲身高正线性相关,且相关程度呢较高。 那么在上上秒的数据中,存在负极身高相同,而儿子身高不同情况。例如第六个和第八个观测的负极身高就为一米七二,而对应的儿子身高是一米七六和一米七四,同样第三四个两个关键中,儿子身高是 一米七,而父亲身高分一米七三和一米六九。可见儿子身高和父亲身高之间不是函数关系,也就不能用函数模型刻画。那我们看这并不是一个函数,为什么不是函数呢?因为这里有一个 x 对应两个 y 的情况。 在散点图中,散点大步大致分布在一条直线附近,表明儿子身高和会增高这两个变量之间有较长的线性相关关系。因此我们可以用一次函数来刻画父亲身高对儿子身高的营养,而把营养儿子身高的七大因素,如母亲身高、生活、饮环境、饮食习惯等随机误差 啊!这些我们作为随机误差得到了刻画两个变量之间的现象恢复模型,其中随机误差是一个随机变量,那么得到了什么呢?我们来看得到一个 模型,就是 y 等于 b, x 加一加一,而这个 e 呢,就是我们的随机误差。而随机误差我们一般设他的期望是零方差是一个定值的平方,也就是行码的平方, 我们称一是为 y。 关于 s 的一线一元线性回归模型,其中 y 成为因变量或强变量, s 成为自变量或解式变量, a 和 b 为模型的未知参数, a 成为洁具参数, b 为斜距参数。我们看这条直线呢,是 y 等于 b, x 加上 a 加 e, 那么我们只看 y 等于 b, s 加 a, 我们就考虑这个问题,这是一个直线,那么 这个 b 呢,其实就是斜率,而这个 a 呢,就是结距,而这个结距呢?我们来看这个 a 呢,其实是 s 的零时, y 的值,也就是 y 的 a, 那么它其实是 y 轴的结距。 e 是 y 与 b, s 加 a 之间的随机误差,也就是 e 等于 y 减去 b, s 加 a。 模型中 y 也是随机变量,其值虽然不能由 x 变量值确定,但是却能表示为 b s 加 a 与 e 的和, 前一部分由 x 确定,后一部分是随机的。如果一点零,那么 y 元之间关系可用一元线性函数模型来表示。也就是说, 如果没有这个一或者说一等于零的情况下,我们就明显看中他是一个一元线性函数,也就是我们的直线方长。对于父亲身高 s 和儿子身高 y 的一元线性恢复模型,一种 可以解释为父亲身高为 xi 的所有大男大学生的身高组成一个总体,该总体的均值是 bxi 加 ag, 该子总体的均值与父亲身高是下一行还是关系。而对于父亲身高 xi 的某一个单, 某一名大男大学生,他的身高 y 并不一定为 b i s 加 a, 他仅是该总体中的一个观测值,这个观测值已禁止存在于误差,而这个误差就是我们说的 e i 等于 y, i 减去 b f i 加一。我们举个简单例子,比如我们 x 等于一百六十九厘米而使劲 得到的 y 啊,实际啊,就是说实际测量得到 y 是一百七十四,而我们用那个公式 y 等于 b s 加 a 来说,你带到这里的时候,这个 y 并不一定是一百七十四。那么这句话说的就是这意思。要理解它 在研究儿子身高与父亲身高关系时产生的随机误差,原因有,一,除父亲身高外,其他可能婴儿 身高,比如母亲身高、生活环境、饮食习惯和锻炼时间等。而二,在测量儿子身高是由于测量工具测量经度所产生的测量误差,那么这个呢,就是我们物理中的误差。 第三,实际问题中,我们不知道儿子身高分身高经过关系是什么,可以利用姻缘现象回归模型祭祀这种关系。这种祭祀也是产生非机误差的原因,因为我们可能表示的方程他并不是真实的,他只是我们人为模模拟出来的, 所以呢,他并并不是确切的关系,他是一个祭祀这种关系,所以呢,因为是祭祀,所以他也产生了误差。那总共呢,大致就分为这三种情况,都会产生误差,那我们怎么去求呢?因为现在回购模型参数的最小二乘法,我们来学习一下, 利用这个二乘法来求。在一元线下回归模型中,表达是 y 的 bs 加一加一刻画的是变量 y 与变量 s 之间线性相关关系,其中拆除 ab 位置需要根据成对样板数据进行估值。 有模型的建立过程可知参数 a 和 b 刻画的变量 y 与 s 线性关系。因此通过成对样本数据估计这两个参数相当于寻找一条适当的直线,使表示成折对, 表示成对样本数据的这些散点在整体上与这条直线最接近。那么这段话什么意思呢?就是我们要找到 a 和 b 达到拟合的最好效果,也就是最接近。 我们来看,若变量 s y 具有先行相关关系,有 n 个样本数据 s i y i 则回归方程。这里是这样的, 那么 y 帽等于 b 帽, x 加上 a 帽,而 b 帽等于是这样的 a 帽是等于 y 八,也就 y 的平均数减去 b 帽乘以 x 八。所以呢,我们来说这里 我们会得到一个方程,而这个方程一定要过定点,这个定点呢,就是 s 八到五 y 码,这个点也称为样本点的中心。 我们将 y 帽等于 b 帽, s 加上 a 帽成成为 y。 关于 s 的经验回归方程,也称经验回归函数或经验回归公式,其图形成为经验回归直线。这种经验 回归方程,那求法叫做最小二乘法。求 b 帽 a 帽叫做 b, a 的最小二乘估计,那么最最小二乘估计,这里的二乘其实就是平方的,该图形必过样本中心。 这个结论是既是检验所求回归之间方程是否准确的依据,也是求参数的依据。也就是说我们有一种题型,就是需要用这个中心来验证这个方程是否成立呢? 对于图表中的数据,可以利用上述方程求出, b 帽等于零点八九八三九, a 帽等于二十八点九五七,得到儿子身高,关于父亲身高的经验回方程,那我们说求完之后呢,他得到了一个方程, 就是外贸的零点八三九 x, 加上二十八点九五七,我们来看这条直线,红色直线就是这个直线回勾方程的直线, 而我们发现这些点均匀的分布在这条直线两侧。对于响应变量 y, 我们刚才说了这个 y 叫做响应变量, 通过观测得到数据成为观测值,通过经验回放成得到的外贸成为预测值啊。也就是说我们预测值和观测值中间一定是一般情况下是有差距的,比如 这些图中大部分是不经过这个直线的,那么也就是说我们看出,比如这个点,如果 经过这个点向挨着做垂线,然后和这条直线相交于这点,那么这个点是我们预测出来的外值,而这个外值呢,他大约等于一百八,而实际呢,他并不是一百八,他比一百八十厘米小, 所以呢,我们观测值减去预测值称为残差。残差是随机误差的统计结果,通过对残差分析可以判断模型刻画数据的效果,以及发现原始数据中可疑数据。 那么怎么发现呢?比如说我们残渣分析发现大部分都在某个区间,而单独有几个或者一个这个 残差过大,那我们就发现这个可能是可疑的。需要对啊,统计时数据进行核对,是否在统计方面出现了 操作错误,那么这方面工作我们叫做残差分析。为了使数据更加直观,用附近身高作为横图标,残查作为重图标,可以画出残差图,那么这个就是残差图。 我们观察上表可以看到残差有这个负残差的绝对值,最大值在四点四一三,观察残渣的三点图,可以发现残差比较均匀的风波落在风波落在水平的带状区内,这样的区域宽度越窄,说明模型拟合度越高,也就是说他的观测值 和预测值之间的差值越小,那就证明我们的模我们的拟合精度越高,说明残差比较符合一元现行回归模型的假定,是均值为零,方差为写码方的随机变量的 观测值。可见,通过观察残差图,可以直观的判断模型是否满足一元线性回归模型的假设。那么残差图呢,是辅助我们了解我们 你合出来的一元现金回购模型是否准确,也可以比较我们准确度的一个方法, 我们还可以用绝对系数二方来刻画回归效果,那么这个公式呢,就是二方等于一点啊这一些,那么自己看一下, 在还有一个节日变量线性模型中,二方恰好等于相关系数二的平方,二方越大表明残差,平方和越小,即模型的你和效果越好。那我们看这里,他依旧用残差的平方和。为什么要用平方 盒呢?因为残差我们看上一个残差,图中他有正有负,如果不用平方盒,你可能相互抵消了,那么并不能比较出他的精度。 所以呢,我们还是用常见的手法,就是表示他的平方盒,平方盒越小,那么拟盒的效果越好,而平啊,二方越 二方越小,那么残差的平方和越大模型的你和效果越差啊。大家要注意啊,二方他是等于一减去这个上边是 残差和的平方,所以二方越大表示残差和残差的平方和越小, 二方越小表示残差的平方和越大。一定要这么去理解一下啊。 我们看一道例题,某地区二零零零七年至二零一三年农村居民家庭纯收入万元啊,这条注意单位是千元的,数据如下表, 求外关于 t 的线下回归方条。第二个,利用第一个中回归方条分析二零零七年至二零一零一二零一三年该地区农村居民存收入的变化情况,并预测该地区二零一五年农村居民家庭人均存收入。 那么这里呢,我们需要把它的回馈方程求出来,然后呢,再把二零一五年对应的 t 值带进去进行预测,那么得到的是预测值,那么给,一般 情况下是给到我们的公式,我们把所得的数据,把它 t 的平均数取出来,把 y 的平均数取出来,再把 t 减去 t 平均数的平方, 再合出来,然后再取出来之后我们把这个所有的数据带到这里,得到的 b 帽是零点五, a 帽是二点三,这样呢,我们就得到了一个 y 帽等于零点五, t 加上二点三。 然后呢,我们看第二问,我们观察表格中,二零一七年是一,二零一八年啊,不,二零零七年是一,二零零八年是二,二零零九年是三,二零一零年是四,二零一一年是五,二零一二年是六,二零一三年是七。那么正常情况下,二零一 四年他对应的 t 应该是八,二零一五年他对应的 t 应该是九,这样呢,我们就可以把 t 零九带到这里, y 帽等于五九,四点五,加上二点三等于六点八,然后呢是单位是千元。 那么这这些就是我们预测出来的二零一五年农村居民家庭纯收入的具体数值。 而我们看 b 帽是大等于零点五的大减零的,那么他也就是说斜率大减零,他是增加的,也就是说二零零七年至二零一三年,该地区农村居民家庭人均纯收入 逐年增加,而且平均每年增加的是零点五千元。 我们来看第二题,某学生为了测试煤气灶烧水如何节省煤气的问题,设计了一个实验,并获得了煤气开关旋转旋钮旋转的弧度 x 与烧开壶烧开一壶水使用的时间的 y 的一组数据,且做了一定数据处理。 我们先看这是一个三点图,然后呢,这是一个表格,把这些数据呢,他已经给出来了,而且这里是 s 八, y 八给了一个 w 八,而这 w 呢,看出它是 x 方分之一。我们首先来分析一下这里呢,根据这个三点, 我们推断他肯定不是一个线性的,那么不是线性呢?我们借助这道题来了解一下非线性时怎么去做。 根据三角形判断, y 等于 a 加 bs 与 y 等于 c 加 x 八分之 d, 哪个更适宜做烧水时间与 y 关于开关旋转 旋钮旋转弧度 s 的回归方程类型,那么很显然,我们刚才说了,他并非是线性的,所以这个不适合,这个适合根据判断结果和表中数据建立 y 关于 s 的回归方程,我们来看 这里有 y 等于 c 加 s 方分之 d, 我们选这个方程,那么当我把 w 设成 s 方分之一的时候,那么这个就是 y 等于 c 加 d w, 那么看 y 加 c 加 d w, 这是一个先行方程。而我们需要了解的是 s i 和 w i 的对应关系,很明显他们的对应关系就是 w i 等于 s i 方分之一,也就是说 y 和 s i 方分之一是一个线性关系,这样呢,我们就转换成功了。 我们来看一下具体过程,因为 y 等于 c 加 x 方分之 d 更适应,更适于做烧水时间 y 关于开关旋钮 转的弧度 x 和回归类型。第二位,我们根据公式呢,宽出 d 帽等于二十, c 帽呢等于五,这样呢, y 帽就等于五加 二十倍的 w, 而 w 是等于 s 万分之一的,所以外贸等于五加 s 万分之二十。然后呢,我们看一下第三位, 第三位是若旋转的弧度数 s 与单位之间内煤气输出量提成正比,也就是 t, 它等于 k x, 这是正面列,那么 s v 多少值?烧开一壶水最省煤气。设 t 得 k x, 煤气量用 w 表,用 m 表示,那么大 m 就等于 y, t, y 等于啊, y 又等于五 s 加上 s 八分之二十 t 等于 ks, 那么 y 乘以 ks 就等于 ks 乘以五加 s, 八分之二十 等于五 k, s 加上 s 分之二十 k。 根据不等式,大于等于二倍的高下,五 k, s 分之 s 分之二十 k, 然后就等于二十 k, 那么当前锦囊他俩相等时,也就是 x 等于二十去掉,所以当 x 等于二十,烧开一壶水最省人气。 我们来说一下求非线性回归方程的步骤。那么非线性回归方程的步骤第一步就是确定变量,做出三点图。我们一般情况下看出三点图,如果不符合线性的,再根据 在图选择强大几个函数。不符合线性呢?我们需要置换变量置换,通过变量置换把非线性回归问题转换成线性回归问题,并求出线性回归方向。比如我们选择一个函数,上一道题,我们选择了 x 方分之 d 加上 c, 那么这里它不是线性的。那我们把 w 设成 x 方分之一,那么 y 就等于 d, w 加 c, 那这是线性的。 第四步,分析拟合效果。通过计算相关指数或画残差图来判断拟合效果。也就是说,我们判断拟合效果,可以用计算阿尔方和残差图来判断哪个拟合效果更好。然后我们用哪个 根据相应的变化写出非线性回归方程,也就是我们刚才把 w s 方分之一带回来,得到的外贸等于五加 s 方分之二十,最后就切出就求出非线性回归方程了。
回归关系及一种用数学函数描述的变量的数量依存关系,而且主要是因果关系。无论实验性研究还是观察性研究,线性回归分析十分重要,尤其是线框调查和对列研究。 在线框调查中,回归分析既可以初步探索变量与变量的关系,也可以通过多变量的回归分析开展复杂关联性分析。 线性回归按自变量数量的多少可以分为简单线性回归和多重线性回归。简单线性回归也就是有一个自变量,数学上表达为一元一次函数,其模型可以表示为 y 等于 b 零加 b e x 公式中参数 x 表示自变量, y 表示因电量的预测值, b 零表示拮据, b 表示变量。回归系数, 其中关键的指标即为 b。 一称之为回归系数,反映的是 x 对外的影响力,是当 x 没改变一个观测单位时所引起 y 的改变。 原谅。值得注意的是,这里 x 是真实的变量值 x, 而 y 带了一顶帽子,并非是 y 的真实值,而是成为 y 的预测值或者估计值。 实际上,世界上所有的 x 和 y 没有严格上一一对应的关系。通过 x 产生的预测值, y 是接近于 y, 但不等于 y。 y 预测值与 y 直接的差值,我们称之为残差。 残叉反应了除了 x 和 y 之间的线性关系之外的随机因素,对 y 的影响是不能由 x 和 y 之间的线性关系所解释的。变异性 可以这么来理解,残差异我们对外的预测是不可能达到与真实值完全一样的,这个真实值只有上天知道,因此必然会产生误差,我们就用一来表示这个无法预测的误差。 我们通过引入了残差异,可以让模型达到完美状态,也就是理论的回归模型。残差异就是没有被解释的部分,是剩下来的变异是边角料。在通俗来 说就是 x 和 y 完美的关系是不存在的,通过 x 只能差不多预测 y 真实和模型总是有点差别,有些差别大,有些差别小。就如现在的美女们,照片的美女和实际真人残差很大,很以前的美女照片和真实简直一摸一样,残差小。 以前的照片残叉是粉底,现在的照片残拆都是手机惹的祸,你想要怎么美都行。结合残叉,真实的 y 和 x 关系如下, y 等于 b, 零加 b, 一 x 加 e。 同样的多个自变量存在的情况下,多重现性回归模型的表示如下, y 等于 b, 零加 b, e, x, e 加 b 2, x 2 加 b, t, x, k 加 e。 其中 bk 为回归系数,在多重线性回归中被称之为偏回归系数,表示每个字变量都对 y 部分产生了影响,意义与简单线性回归结果相似,反映的是 x 对 y 的影响力, 是当 x 没改变一个观测单位时所引起 y 的改变量。一个回归模型必然有残差,成功的模型必然也有相应的变量来解释 y 的变异,但是残差可大可小。一般来说,建立回归模型时,总希望残差尽可能小。 残差越小,往往意味着更多的 y 的变异被解释掉了。预测模型更加真实及 y 预测值更接近于 y 真实值。 这一残差越小越好的思维被运用回归分析中便成为了回归建模的基本原则,即最小二成原则。下一期视频我们将介绍如何在 spss 中进行回归分析。
这个视频我们来讲一下一元线性回归模型啊,首先啊,他的一个知识点,我们从一个例子开始啊,这个例子呢就是,呃,这是两个变量啊,一个父亲的身高和一个儿子的身高啊,这两个变量的一个一组数据, 一组数据,那么从这个数据上来看啊,我们通常认为啊,父亲身高,那么 呃,越高,那么儿子他的儿子呢?身高也就越高啊。我们从数据上来看,呃,你看这是两个父亲身高,两个有,这个是一七二, 那么一七二对应的儿子身高呢?这是一个一七六,一个一七四啊,都是一七二,那么但,但是父亲儿子身高呢?对应的有一七六一七四, 这显然他不是函数关系,如果是函数关系,那么一个自变量 x, 那么就会有唯一的外与之对应,这不是唯一的啊,所以说从这个数据我们随便找一个,我们就知道啊,他不是函数关系,不能用函数模型来刻画 啊。哎,我们通过这数据呢,我们把它的散点图把它画出来,画出来以后,我们发现啊,我们发现这个这个这些点呢啊,这些散点大致分布在 这一条这个直线啊,我们可以画一条直线,大概一条直线的附近啊,这这条直线啊,一条直线的附近,那,那这个儿子的身高和父亲的身高这两个变量之间呢?有交 强的线性相关关系啊,这说明从这个散点图上来说啊,他们两个变量之间呢,有较强的线性相关关系, 那我们他竟然是在一个一条直线,一条直线的附近,那我们就可以用一次函函数啊,这个直线的表达是就是一次函数啊,他来刻画这个父亲身高对儿子身高的影响 啊,我们可以引入一个随机误差啊,我们建立一个统计模型来表示他们的相关关系,而这个统计模型呢,我们称为一元,就是一元 线性回归模型。 这个模型是什么呢?那么就是两个变量,一个是,这是 y 啊,这是,这是 y 啊,这是等于 bx 啊, bx 加上 a, 那么这个就是一次函数,一次函数来刻画 这个父亲身高对儿子身高的影响的啊,那这个这个 y 呢?这个变量呢,就是儿子的身高的啊,这个 bx 加 x 呢,是这父亲身高啊,那么 bx 加上 a 呢?那就是这条直线的,这条直线呢,我们再引入一个,加上再引入一个随机,一个随机误差。哎,我们设为这个随机误差是 e 啊,这是 e, 那这个 e, e 呢?我们是做了个假设啊,这个 e 的,呃,均值呢,是等于零,它的方差是等于 c 个码 的平方的,那么这样一个模型啊,我们建立的这样一个模型呢,就称为一元线型回归模型啊,一元线型回归模型。那么这里面, 那为什么我们要把这个均值设为零呢?啊?那是因为,嗯,我们这这里面 他们的这个这是这是他的随机误差,这个误差呢,有正有负,有正有负,我们多次测量出现后,那正负误差会互相抵消啊,会互相抵消,我们假设他是等于他均值是等于零的 啊,那这个 y, 我们这是它是 y, 是响应变亮啊,响应变亮,音变亮啊,音变亮,或者叫响应变亮啊,我, 我们函数里面不是有字变量和音变量吗?外就音变量或者叫,我们这里面叫响应变量。 x 呢,称为自变量啊, x 称为 字变量或者是解释变量啊,解释变量,我们叫解或者叫解释变量啊, 那这个 a 呢?这里面呢?这个 a, a, 我们称为洁具参数啊,洁具参数 b 呢? b 啊,这是直线的一个斜率啊, a 呢,就直线的一节句啊,那我们称为 b 呢,称为斜律参数, 斜律参数,这个 e e 呢,我们称为随机误差, 随机误差啊,误差,我们假设这个模型呢,他的均值是零方方差呢,是 c 个码的平方啊, c 个码的平方,哎,这个就是我们的一元线性回归模型啊。我们看 后面的练习,第一题说明函数模型和回归模型的区别,并分别举出两个应用函数模型和回归模型的例子。函数模型,他们俩的区别呢?首先 函数模型,函数模型呢,我们知道能称为函数, 那么他是一个自变量对应,唯一,唯一的外与之对应,哎,就是自一,一个自变量有一个唯一的因变量与之对应,这是个确定的关系。所以说函数模型呢?函数模型,然后是刻画的两个变量之间的确定关系 啊,确定关系刻画的是确定关系,而回归默写 呢,回归模型刻画的是两个变量之间的相关关系啊,相关关系 刻画的是相关关系,这是他们俩最主要的区别啊,那我们举例子啊, 如先说这个函数模型啊,函数模型,我们先说函数模型,函数模型他是一个确定关系,你比如说啊,第一个,比如说我们正方形的面积啊,正方形的面积和边长的关系,正方形 面积与边长的关系啊?与边长,比如边长 a 的关系吧啊?边长 a 的关系,那我们 知道正方形的面积 s 呢?是等于边长的平方,那这个就是一个确定的关系啊,确定的关系,边长随着边长的变化,那么这面积在变换啊,这是很确定的,一的话他的面积是一,二的话他面积是四。 还有第二个例子,你比如说我们举个例子,比如卖书啊,我们卖一本书呢,赚一本书我赚十元, 那卖书的数量 x 和赚的钱 y, 他们的关系是卖书的数量啊,卖的数量我设为 x 啊, x, 那么赚的钱, 赚的钱数啊,钱是 y 为 y, 那我们的 y 呢?就等于你卖一本书是十元,你买卖 x 本呢,那就是十 x。 哎,这也是确定的一个关系,这是函数关系 啊,函数关系,那么这个是二次函数,那么这个呢?就是一次函数或者正比例函数啊,这是我们函数模型,我们建立了。那这个例子,那我们再看回归模型啊,回归模型, 回归模型,我们可以举举个例子,你比如说人的体重与身高,体重是 x 吧,与身高 啊,身高啊,或者是就是体重外与身高 x 啊,那通常是 越高的啊,是是他的身高越高,那么他的体重越越重,但是也不排除有的他矮,他,但是他很胖,体重啊,这个体重是他身高是体重的一个因素,不是决定,不是他还有其他因素啊, 胖瘦啊什么的啊,那么他们呢?只只能说是相关关系啊,这是相关关系,那我们就可以用回归模型来来做。还有你比如说我们的年龄和脂肪含量,年龄 与脂肪含量, 我们通常认为,哎,年龄越大,他的 脂肪含量就越大啊,这就是会容易发福,人人过了,过了四十啊,五十的人容易发福,容易脂肪含量增加。那也不排除有些人呢,运动习惯比较好,锻炼的比较好,他的 他四五十岁了,那么脂肪含量也很低啊,这是也存在的,所以说他不是确定的关系,他是一种相关关系。那么这个就是回归模型啊,这是第一题完第二题。 在一元线性回归模型一中,那么 b 的含义,我们的回归模型是,就是 y 等于 bx 加上 a 加上 e 呢,而这个 e 呢,它的均值是等于零的,它的方差呢?是等于一。呃, c 个码的平方啊,等于 c 个码的平方啊,这是它的,这是我们一元线性回复模型啊。参数, b 这个 b 的含义是啥呢? 他的他的含义就是指的是啊, b 的含义,那么指的就是变量 x 每增加一个单位啊,他就是斜率啊,就是直线的这个斜率,每增加一个单位。变量 y 呢?的均,他的均值将增加 b 个单位啊, b 个单位,那么就是电量 x 每增加一个单位。 变量外的均值啊,他的均值啊,你不能说变量外啊,变量外的均值的平均值将 增加 b 个单位啊, b 个单位 b 个单位弱。 b 呢?如果是大一点啊,大一点就是斜略它直线,直线呢,就是从从下,从左下到右上倾斜的,那我们就是 正相关啊,说明是 y 与 x, x 呢,是正相关。 若这个 b 呢小一点, 那个直线他是右上左下左下啊,就是这样倾斜的,那我们就,呃说外与 x 呢,是负相关啊,负相关,那么这个就是 b 的含义啊, b 的含义,他就像那直线的一个斜律。这第二题,我看第三题, 将这八啊,图八点二杠一的点,按父亲身高的大小次序用折线连起来,那么所得到的图形是一个折线图,那么可以用这条折线表示儿子身高和父亲身高之间的关系吗? 显然是不能的啊,不能啊,你画出他的折线图,你把它连起来啊,连,连一下啊,这样连一下啊,这,这是 啊,就比如这样,这样连,你点一下,这直线图你是不能得到的。这个,这是不能表示儿子身高和父亲身高之间的关系啊,不能。那么为什么呢?因为他们两者之间, 两者之间是相关关系,不是函数关系啊。另外一个,这组数据啊,这一这一组数据是总体的一个样本,不一定能很好的描述两个变量之间的关系啊,这是不能的啊,这是第三题完毕。
回归分析的基本概念?告诉你回归分析长什么模样?就是回归分析到底干嘛的,是吧?那他主要是起到预测的作用啊。呃,然后他是一个数学模型啊,和相关分析到底有什么样的关系呢? 回归分析和相关分析各自都干什么呢呢?那这个也是给大家讲了一下啊,然后又介绍了回归模型。那重点是一元线性回归模型,它的基本组成在这里边有一条直线,还有一个误差,像那这条直线里边的贝特零是什么? 就是拮据。白特一是什么?是斜率。那白特一表示什么意思?表示是 s 每变动一个单位 y 的平均变动量啊,这个就是白特一所代表的意思。
上期视频我们介绍了如何在 spss 上进行多重线性回归操作,并对运算结果进行了解读。本期视频我们继续来学习线性回归模型的诊断。 线性回归模型的运算有三个前提条件,即样本独立、残叉正态和自变量不存在多重共线性。只有满足了以上三个条件,那么之前得出的线性回归结果才是准确可靠的。 第一,样本独立性的判别及各样本之间不会相互干扰,通过模型摘药表中的得兵沃森及 dw 值来判别。如果 dw 值在二附近,意味着样本独立,本案例的 dw 小于二,但是偏差也不是很大,存在轻微的非独立性,但是影响不大,不会太影响回归结果的准确性。 第二,残叉正态的判别及模型的残叉服从正态分布。在直方图中,黑色曲线为正太曲线,而黄色柱子的轮 扩远远高于正态区线,意味着本次模型的残差不服从正态分布。出现这种情况的主要原因是模型你合度二方不高,自变量只能解释因变量变异的百分之十一点四。解决这个办法的问题是还要再多加入几个自变量提升模型的你合度,那么残差就会接近正态分布。 至于在加什么样的自变量,还需要大家根据自己的专业知识考察,加入一些极有可能会影响心率变化的自变量。 第三,自变量不存在多重贡献性的判别。通过系数表中的 v i f 值来判别。 v i f 值小于五,意味着变量之间不存在多重贡献性,不会影响回归结果的准确性。 对于经济类数据,关联性本来就很强,这是这个行业决定的。因此有些经济类数据 vif 的临界点可以放宽到三十多,都认为不存在多重贡献性。综合以上的现行回 规模型的诊断,可以得出回归模型的结果基本准确,可以基于这个结论给出相关的对策建议。最后,以上回归模型的结果可以采用 graphic present 会图进行可视化处理。
哈喽,大家好,今天分享一下如何用 spss 进行线性回归分析。线性回归它主要适用于自变量和音变量,都是定量变量的数据, 那如果只有一个字变量就叫一元线性回归,如果有两个及以上的字变量,那就叫多元线性回归。 假如说我们现在有一份数据有 y 和 x 一, x 二、 x 三,我们想看一下 x 一、 x 二、 x 三对 y 的影响程度,这个时候就可以用多元线性回归, 然后我们来演示一下操作,点击分析回归,然后线性 我们把音变量 y 放到音变量的框里,把 x 一、 x 二和 x 三放到这变量的框里面, 然后我们点击统计,这里勾选一个贡献性诊断,再点击继续,然后点击确定, 然后就会生成一个关于回归分析的结果表格,这里面我们主要看这个模型摘要, aova 以及系数这三个表。首先来看一下模型摘要的表,这里面我们主要关注的是阿方和调整后阿方, 这里调整后阿方的值为零点九二一,那就说明自变量可以解释应变量的百 分之九十二点一的变异程度,这个调整后啊方的取值越大,那就说明这个自变量对音变量的解释程度是越高的。 然后再来看 a n o v a 这个表,这个表里面我们主要需要关注的是显著性这个值 如果显著性是小于零点零五,那就说明这个回归模型通过了显著性检验,也就是说我们建立的这个回归模型是有意义的。 最后我们再来看一下系数这个表,系数表里面主要是描述了每一个字变量它的呃系数取值以及 t 值和 p 值,还有 v i f 值,这里我们可以先看一下这个 v i f 值。 b i f 代表的就是自变量之间是否存在贡献性,如果这个 b i f 值它是小于十的,那就说明这些自变量之间不存在多重贡献性。 呃,那就说明我们取的这些自变量是比较合理的。这里面的 v i f 值都是小于十的, 也就说明字变量之间不存在多重贡献性。然后我们再来看这个显著性,如果这个显著性值小于零点零五,那就说明字变量对因变量有显著的影响。 这里面可以看到 x 一和 x 三对应的显著性是小于零点零五的, x 二对应的显著性就是大于零点零五,那就说明只有 x 一和 x 三对 y 有显著的影响, x 二对 y 是没有显著影响的。然后我们再来看这个 b b, 也就是这个自变量对应的系数。一般我们只解释有显著影响的系数,这里 x 二的就不用解释了。然后我们来看 x 一的, x 一的系数就是二百二十五点一二,这个系数如果是大于零,那 x, 那这个自变量对因变量就是有正向的影响,如果他是小于零,那说明这个自变量对因变量有显著的负向影响。 这里面 x 一对应的系数代表的含义就是自变量 x 一每增加一个单位,因变量 y 就会增 增加二百二十五点一二,然后这个 x 三它对应的系数是二点五二五,也就说明 x 三对 啊因变量 y 也是有显著的正向影响, x 三每增加一个单位 y 就会增加二点五,二五以上就是回归分析的操作步骤和结果的解读。