粉丝4313获赞3.1万
要统计学入门,就必须先了解正态分布。正态分布是最重要的一个分布,也是统计学的基础。正态分布曲线是自然规律的一种呈现, 在对大量的随机事件进行统计后,发现正态分布曲线往往是必然的一种结果。正态分布曲线呈现一种铃铛形状,英语里叫 bell shipped curve。 这个公式是正态分布曲线的概率密度函数。大家不用害怕,本节课不要求大家掌握这个公式,本课程系列只对公式中几个参数的含义进行感性理解。 我们看到公式里有一个派,圆周率。你也许感到奇怪,正太曲线里没有圆弧或圆形啊,怎么会出来个派呢?这个问题我也回答不了,我只能说这就是数学的神秘之处, 也是发现这些公式的数学家的伟大之处。我们向那些骨灰级的数学家们致敬。 发现正泰分布公式的数学家是德国的高斯,所以正泰分布也叫高斯分布。高斯对正泰分布的应用与发现做出了人类发展史上最伟大的贡献。 这张图片是德国某个版本的史马克纸币中的高斯化背景,里面还有正太分布曲线和概率密度公式。 我们讲统计,也就肯定讲到概率。提到概率,大家肯定想到抛硬币。大家写英语作文时肯定都背过 every coin has two sides 这么一个陈词滥调。 抛一枚均匀的硬币,得到正反面的概率都是百分之五十。那么抛硬币与正态分布有什么关系呢?假设我们抛 同一枚均匀硬币,得到正面,我们用空心圆圈表示。得到反面,用实心圆圈表示。我们可能得到这么一个结果,共有六次正面,四次反面。我们把这抛十次硬币这样一件事,即为第一组实验。 我们再抛十次同一枚硬币,即为第二组实验,得到七次正面,三次反面。 假如我们进行了一百组这样的实验,得到一百个结果,我们把一百个结果中得到的正面数量都记下来,分别为七、九、四、七等等,共一百个数据。这一百个数据的取值范围是零到十的整数。 现在我们把这一百个整松的零到十出现了次数,用坐标轴上的柱状图来表示,正面次数零出现了零次, 所以什么都不画正面。次数一出现了一次,于是在坐标轴一这个位置画一个高度为一的柱状图,次数二出现了六次,就在坐标轴二这个位置画一个高度为六的柱状图,依次类推。 柱状图画完后,只出现一次正面的概率是百分之一,出现两次正面的概率是百分之六,三次正面的概率是百分之十二,四次正面的概率是百分之二十三,以此类推。然后我们发现这个柱状图的轮廓正是一个正态分布曲线。 实际上,在概率统计学中,抛十次同一枚硬币的实验,叫做十重伯努力实验。我们进行了一百组这样的实验,可以称为一百次十重伯努力实验。数学定理表明,大量的恩重伯努力实验的 结果就能够产生正态曲线。恩宠不努力实验这个概念不要求大家掌握,因为读起来和理解起来都比较拗口。但大家既然学了这门课,知道这个概念还是有好处。 以后有人跟你聊抛硬币时,你可以说,嗯,同级学上这个叫恩宠不努力实验,这样显得比较专业。 事实上,可以用更简易的一种方式来进行恩宠不努力抛硬币实验。假设有一颗均匀光滑的圆形豆子和一只均匀光滑的圆形钉子,豆子落在钉子中间后,会向左或向右落下左右概率都是百分之五十。 那么一个豆子落下,就可以看做抛了一次硬币,豆子向左或向右,就可以看做硬币的正面或反面朝上。假设我们有食行钉子,然后放落一颗豆子,豆子下落碰到 每一个钉子向左向右的概率都是零点五。十行钉子下面有十一个槽子,我们可以根据豆子落入哪个槽子来推断豆子经过十行钉子时几次向左,几次向右。例如, 假如一颗豆子落入中间槽子,那么这颗豆子肯定是五次向左,五次向右。假设向左代表抛硬币得到正面,向右代表抛硬币得到反面。如果一颗豆子经过适行钉子落入最左边第一个槽子, 我们可以看做抛了十次硬币,共出现了十次正面。假如落入第二个槽子,则共出现九次正面,一次反面,一次。类推,假如落入最右边的槽子,则出现了十次反面。下面我们用虚拟仿真程序来做这个实验,我们设定十行钉子落下一百颗豆子, 随着越来越多的豆子落下,槽子中的豆子逐渐呈现一个轮廓,这相当于做了一百次十重不努力抛硬币实验。槽子中的豆子轮廓正是一条正态分布曲线,和我们抛硬币得到的结果是一样的。这种豆子和钉子的实验叫做加尔顿板实验。 加尔顿板可以演示在看似混乱的随机现象中存在的规律,这个规律就是正态分布。顾名思义,加尔顿板是加尔顿发明的。 嘉尔顿是英国维多利亚时代的统计学家、博学家、社会学家、心理学家、人类学家、热带探险家、地理学家、发明家、七项学家、遗传学家和心理测量学家。他是最早提出通过指纹来鉴定个人身份的研究人员之一。报个料,他还是英国生物学家查尔斯达尔 轮的表哥。现在我们反过来看,这个轮廓虽然大致为正太曲线,但曲线的光滑度不高。这是因为我们只放了一百个豆子,规律表现的还不够明显。下面我们放一千颗豆子重新做一下这个实验,可以看到,从一百颗豆子到一千颗豆子, 正态曲线的光滑度提高了。这说明重复实验次数越多,我们观察到的规律性就越明显。 下面我们改变一下实验参数,我们把钉子行数记做 n。 刚才的实验是 n 等于十,十行钉子,现在改成 n 等于二十行钉子,再放一千个豆子落下来观察结果, 结果显示仍然是一条光滑的正台分布曲线。我们比较 n 等于十和 n 等于二十的曲线,发现 n 等于二十的曲线比 n 等于十 曲线要扁一点。这个结果也是可以直观理解的,钉子越多,豆子可以落下的岔路就越多,底下的槽子也越多,豆子必然更分散。 事实上,丁字行数 n 越大,正态分布的曲线就越扁,正态分布的方叉就越大。 n 越小,豆子越集中,正态分布的曲线就越窄,正态分布的方叉就越小, 方叉就是概率密度函数中 c 哥们的平方。关于方叉的概念,本课只做题集,后续课程会详细展开。 例如这个图中有四条正态分布曲线,蓝色曲线的方叉为零点二,方叉最小,所以蓝色曲线最尖。黄色曲线的方叉为五点零,方叉最大,所以黄色曲线最扁。到目前为止,大家可能觉得 杰克的内容没有什么意思,因为所有结果现象都是很直观的。再例如,豆子落下形成的正太分布曲线是对称的,对称轴就是最中间的那个槽子,这也是直观的,因为豆子向左向右落下的概率都是一半一半,肯定是对称的嘛。 下面我们再改变一下实验参数,来做一次加尔顿板试验,看是否会让你觉得神奇。我们仍然放二十行钉子,一千颗豆子,只不过我们把每行钉子向左向右的概率改成随机。 例如这一行钉子向左的概率是零点九四,向右的概率是零点零六,这一行向左的概率是零点五八,向右的概率是零点四二。每一行钉子向左向右的概率都是随机生成的。那么豆子下落后形成的轮廓是什么样的呢?在我上学期 板上,有的同学猜可能是一条比较平坦的一字型轮廓,有的同学猜可能是一条像股市大盘一样的参差不齐的曲线。 下面我们开始实验看一下结果可以看出,除了对称轴不在中间,草字豆子轮廓仍然是一条光滑的正态分布曲线。大家有没有感到有点神奇呢? 我们重复四次上述实验,每一次都是二十行钉子,一千个豆子,每一次每行钉子向左向右的概率都是重新随机设定的。 四次实验结果显示,斗字的轮廓都是光滑的正太分布曲线,只是曲线对称轴的位置有所不同。事实上,每次重新设定每行钉子的随机概率并且确定不变后,对称轴的位置是可以根据各行钉子的概率计算出来的。这个对称轴的值 就是概率密度函数中的 miu。 这个图中有四条正态分布曲线,有三条曲线的 miu 相同,所以对称轴也相同。只有一条绿色的 miu 不同,所以对称轴也不同。在本节课我们也不对缪做详细展开, 下面我们给出中心极限定理,非严格数学意义上的一个版本,方便大家感性理解。其数学表数为所研究的随机变量,如果是由大量独立的随机变量相加而成,那么他的分布将近似于正态分布。 其通俗表述为,如果一个结果是有大量的不相干的因素累加导致的,那么这个结果一定表现为正态分布。例如,某个省某年的高考,全部考生的英语成绩卷面原始分必定服从正态分布。下面我们来分 学习一下英语高考的成绩分布。一个考生的高考英语成绩其实受到了无数因素的影响,每一个因素都可能使最终英语分数更高一点或者更低一点。例如,性别、 出生地、教育水平是否上过幼儿英语,小学英语老师水平、中学老师水平、英语老师性格是否喜欢英语电影、接触外国人频率、 饮食营养、高考当天天气、高考当天健康水平、高考当天心情等等等等。有无数的表面上相关的或者不相关的因素, 我们无法证明每个因素对英语成绩的影响到底有多大。但遗憾的是,我们也无法证明每个因素与英语成绩无关,这也就是一些社会培训机构向家长贩卖焦虑的原因。每个因素对成绩所产生的影响, 就好比一颗豆子经过一颗钉子时,向左向右的概率说不清楚,但这个概率一般不会是左右各零点五。这个因素总能使分数更高一点或更低一点。我们把豆子向左表示为分数更高一点,向右表示分数更低一点。 一名考生从小到大的生活历程,包含了无数因素的影响,最终得到了一个高考英语成绩相当于一颗豆子经历了无数行钉子的下落,最终尘埃落定,落到槽子里。 某省某年,数十万计考生最后的成绩分布相当于数十万个豆子经过了无数行钉子落到槽子里。根据中心极限定理,其分布必然是正态分布。 现于程序页面的篇幅,我们只进行了三千颗豆子,一百行丁字的实验,结果可以看出,豆子轮廓是正态分布曲线。 上述的高考成绩的例子只是现实世界中无数例子中的一个。只要参加高考的人足够多,所有人的原始分数必然是正态分布,考最高分的人和考最低分的人必然都只占少数, 都分布在曲线两边的尾巴上,而大多数人必然都是在中间位置考一个不高不低的分数。 所谓中庸者,不偏不倚,无过不敌,而平常治理乃天命所当然。这里我们提一下相关的历史时期和人物, 我们的历史和文化都必须由我们炎黄子孙来背负,传承、发展与弘扬,此处不做展开讨论,但每个同学都应当认真死。最后,我们来说一下,一个人的分数若落在双边的尾巴上,那必然是一个小概率事件,因为一颗豆子 要想从一开始一路向左或一路向右落到草字里太难了,所以最两边的草字里几乎没有豆子落进去的。一个人的分数 若能够落在正太分布曲线双边的尾巴上,无论是考的太好或是考的太差,都是具有极端显著性的情形,必然引起人们的关注与研究。 你看,每年的高考状元都要上头条新闻,人们会研究他们的学习方法,每年落榜的都会经历无数次的来自内心和来自别人的心灵考,但这其实都是注定的,有人就有竞争,有竞争就有江湖,有江湖就有正态分布。 现在所谓的内卷不就是人为的来画一条正态分布曲线吗?抱歉,话又讲多了,下一节课我们将从中心极限定理的另外一个 通俗版本均值抽样,来研究正态分布和双边尾巴的极端情形。我们将这样一步一步的带大家走到体检验的面前,后续课程敬请期待,谢谢大家!
那么几大块,第一数据的种类,第二数据的分布,第三数据的中心表达就平均适合中数以及数据的离散的表达去 就是极差、方差和标准差,以及数据的分布的形态的表达,要正态分布图和正态概率图。最后一个叫数据的挖掘, 我们首先看第一个数据的种类,在统计学里面,我们把数据分为两类,一类叫计数型数据,一类叫计量型数据。所谓的计数型数据,我们也称为离散数据,或者叫属性数据啊,所谓的计量型数据,我们也称为连续性数据, 所以呢给大家一个区分的方式非常好。计量型数据顾名思义就是量测出来的数据,计数型 数据,顾名思义就是数出来的数据,这样记就对了。但是在我们的实际工作应用中,其实计数型和计量型可以互相转换的 好,那我们为什么要去学这个数据的类型呢?大概我们为了选择正确的工具和方法,这张表呢,大家可以不看,没有关系,这个是我们绿带,绿带和黑带学习的内容,但 是呢,我们为什么放在这呢?放这目的就是让大家知道,其实我们的 y 和 x 的数据类型就会决定我们的工具的使用。比如说我们举第一个例子,当 关系离散数据 x 也是离散数据的时候,我们看到了左上角这个框框里面叫一个卡方检验,这个时候我们就只能用卡方检验,其他的检验方法可能都失效。比如说什么叫离散对离散,比如说公司录取你和不录取你, 跟你是男的是女的有没有相关性?这个就叫卡方检验,因为录取不录取是离散的,男女也是离散的。 但是相反来说,如果我想看刹车距离和车速有没有相关性,卡方当然是失效的。为什么?因为刹车距离和车速都属于连续性数据,我们只能用右下角的回归分析来分析 这个例子呢。我们就举这么多,主要的目的就是让大家知道,一定在数据分析之前,我们必须知道数据的类型,才能选择正确的工具。
统计学是关于收集、分析、解释和呈现数据的一门学科。在统计学中,一个最基础的知识点就是描述性统计, 描述性统计是对数据进行初步整理和分析的过程,主要包括以下几个方面,首先第一个就是数据集中趋势的度量,这是用来衡量数据中心位置的方法,包括算数、平均数,也就是平均值、中位数和中数的。 第二就是数据离散程度的度量,这是用来衡量数据的分散程度,例如方差和标准差。离散程度比较大的表示数据分布比较广泛, 离散程度比较小的表示数据分布比较集中。第三就是数据分布形态的度量,这是用来了解数据的分布形态,比如说风度 和偏度。正态分布是一种常见的分布形态,它的特点就是数据分布对称,并且集中在君子附近。 第四就是分布位置的度量,这是用来确定数据分布的位置,比如说四分位距和百分位数。这些指标可以帮助我们了解数据分布的上限和下限,以及数据的整体水平。 通过以上几个方面的度量和分析,我们可以对数据进行初步的了解,为进一步的数据分析和建模打下基础。 下期我们具体介绍统计学中最基础的数据集中趋势的度量指标,包括平均值、中位数、重数。想要系统学习统计学的朋友,欢迎关注我,我们下期再见。
哈喽,同学们大家好,我是潇潇学姐。统计学一刷而过,第一个考点我们来学习一下统计数据的类型,我们可以从不同的角度将统计数据分为不同的类型。 首先我们按计量尺度来进行分类的话,可以分为分类数据、顺序数据和数值型数据。 对于分类数据是指对事物进行分类的结果,它是归于某一类别的非数字型数据,也就是说它的数据表现为类别,是用文字进行表述的。 第二种是顺序数据,它是归于某一有序类别的非数字型数据,它是对事物类别顺序的一个测度,同样表现为类别,用文字来进行表述。 第三种呢是数值型数据,它是按照数字尺度测量的观察值,它的结果表现为具体的数据。如果我们想要说明某一辆汽车它在一年内行驶了多少公里,这个具体的公里数据就是我们的数值型数据。 那么如果我们按收集方法来进行分类呢?可以分为观测的数据和试验的数据。 观测的数据是指在没有对事物人为控制的条件下,也就是说由自然而然发生得到的数据。 与之相对的是实验的数据。如果我们控制实验对象而收集到的数据的话,那么它属于实 试验的数据。在我们自然科学领域的大部分都属于试验数据,比如通过做实验得到的那种数据,就属于控制试验对象。 第三种,如果按时间状况来进行分类的话,可以分为洁面数据和时间序列数据。首先,洁面数据是指在相同或者是相近的时间点上收集的数据,它描述的是在某一时刻的变化情况, 也就是说在这一时刻,不同的事物他发生了怎样的变化。第二种时间训练数据, 他是指在不同时间上收集到的数据,比如我想研究某一现象,他随着时间变化的情况,那么这样 得到的数据就属于时间序列数据。我们来看一下一般考试是怎么考的, 指出下列数据的类型。首先,年龄二十一岁,应该是什么数据呢?第二,性别为男女。第三,汽车产量为两千一百一十辆。 那么我们可以看到第一种属于数值型的数据。第二种呢,我们将性别分为了男和女,很明显是分类型数据。第三个题,产量为两千一百一十两,为具体的数值,因此它属于数值型数据。 最后,我们来看一下本节知识的知识图谱,记得截图保存,关注潇潇学姐,轻松通关统计学!
大家好,我们已经学过了单双边体检验的基本概念和原理。这节课我将尝试通俗讲解一下体检验里的一个重要概念,自由。 do degrees of freedom, 简写为 df。 我仍然先杜传一个故事。小时候,我家门前有个小饭馆,里面只有几种简单的炒菜 菜单贴在墙上,价格从高到低排列下来是,红烧肉七块钱,宫保鸡丁六块钱,油焖茄子五块钱,鱼香肉丝四块钱,西红柿炒蛋三块钱, 青椒土豆丝两块钱,炒大白菜一块钱。有一年过年,爷爷给我二十块钱压岁钱,我准备带爷爷去小饭馆 搓一顿。我有两个目标,第一要点四个菜,第二,四个菜的价钱加起来正好是二十元。我要把压岁钱全部花光,一分钱都不剩。 我开始点菜,宫保鸡丁六块钱,鱼香肉丝四块钱和西红柿炒蛋三块钱。这三个菜可以说是我自由选择的,但第四个菜我就没得选了,因为前三个菜加起来是十三块钱, 要想凑齐二十块钱,第四个菜只能选七块钱的红烧肉。所以说, 虽然表面上是点四个菜,但为了满足总价等于二十块钱这个限制条件,我其实只能自由的选择三个菜,而第四个菜的价钱是被前三个菜决定了的, 第四个菜不能自由选择。换句话说,我点四个菜的自由度其实为,四减一,等于三。 假如我们把点菜看成抽样,那么这个样本就可以记做 x 一、 x 二、 x n x 四样本容量 n 等于四。限制条件是总价必须等于二十块钱,可以记做 x, 一加 x, 二加 x, 三加 x 等于二十。 变换一下形式就可以写成样本均值 x 八,二等于 x 一,加 x 二,加 x 三,加 x 除以四等于五。 样本中 x 一 x 二 x x 这四个变量能自由变动的只有三个,一旦其中三个变量确定了,第四个变量便也就确定了。所以说,第四个变量是不可 可以自由变动的。于是,在样本容量 n 等于四、样本均值 x 八等于五的条件限制下,这个样本的自由度 df 为 n, 减一等于三。 回到我们之前讲过稻田亩产量的丑样,其样本容量为 n 等于二十,样本均值为 x 八等于一千三百六十四。这个样本由二十个变量组成,这一组二十个变量中,能自由变动的变量只有十九个。 一旦其中十九个变量确定了,为了满足 x 八等于一千三百六十四这个限制条件,第二十个变量就只能计算出来了,是确定了的,是不能自由变动的。 所以,在样本容量 n 等于二十、样本均值 x 八等于一千三百六十四的条件限制下, 这个样本的自由度 dfvn 减一等于十九。这个就是自由度的通俗讲解,当然也是非严格数学意义上的,为的是方便大家感性理解。 那自由度有什么用呢?不同的自由度提分布的形状是不一样的,如图所示,这是一个通过理论计算获得的不同自由度的提分布曲线。 蓝色的曲线代表自由度, df 等于一的提分布。绿色的代表自由度,等于三的提分布,橙色的代表自由度,等于十的提分布,红色的代表自由度,等于二十的提分布。 我们可以发现,自由度越大,提分布的曲线就越尖,但是曲线不会随着自由度的增加而无线变得更尖。 存在一个天花板,这个天花板就是这条黑色虚线,这个黑色虚线代表的就是标准正在分布, 标准正态分布就是均值六等于零、标准差 c 个码等于一的正态分布。所以说自由度趋近于无穷大的时候, t 分布趋近于标准正态分布。其实在自由度等于三十的时候, 替分部与标准正态分布之间的区别已经不怎么能用肉眼分别了。聪明的同学又会问,为什么不直接用样本容量 n 来区分这些不同的替分部呢? 而非要再减去一个一变成自由度来区分替分部呢?这是因为我们目前讲到的 t 检验还是比较简单的单样本 t 检验, 例如上面这个稻田亩产量的体检验,就是单样本体检验及拿单个样本的均值和一个总体的均值去比较。单样本体检验中自由度等于样本容量减一。 但后面我们马上会讲到双样本体检验、配对体检验、卡方检验等,在这些检验中,样本容量和自由度的关系就不是减去一这么简单了,所以不能简单的用样本容量 n 来区分不同的替分部。 下面我们通过气氛部的虚拟仿真实验来验证一下不同自由度的气氛部曲线形状。 例如我们分别取样本容量 n 等于六和 n 等于三十一来进行单样本替分部抽样实验,获得的便是 自由度等于五和自由度等于三十的替分部。我们看到自由度等于五的替分部很扁,自由度等于三十的替分部很尖,这和我们刚才看到的理论计算出来的曲线是一致的。 这就是本节课关于自由度的通俗讲解,希望大家记住点菜的这个故事,总价一定点 n 个菜的话,自由度其实只有 n 减一。这节课就到这里,我们下节课见。
统计学的发展经历了许多阶段,涌现出了许多杰出的代表人物和理论。以下是其中一些重要的人物和理论,简要介绍如下, 卡奥皮尔森泥巴,五七到一九三六被誉为现代统计学的奠基人之一,提出了许多重要的统计方法和概念,如相关系数,卡方检验等。他的研究为统计学的发展奠定了基础。 sorry fisher, 一八九零到一九六二被誉为统计学的巨人,提出了最大自然估计、方差分析和设计实验等重要概念和方法。 他的贡献对统计学的理论和实践产生了深远影响。 jersey name in, 一八九四到一九八一于一,跟 pierson 共同建立了假设检验和制信区间的概念,奠定了统计推断的理论 基础。他的贡献被广泛应用于各个领域的实证研究。 abraham world, 一九零二到一九五零开创了序列分析和决策理论,对统计推断的发展做出了重要贡献。 他研究了飞机战斗机的脱敏区域,对二战期间的军事决策产生了影响。 tom is based, 一七零一到一七六一提出了贝耶斯定理,奠定了贝耶斯统计的基础。 贝耶斯统计是一种基于鲜艳知识的统计推断方法,对现代机器学习和人工智能领域有重要影响。 这些人物和他们的理论代表了统计学各个阶段的重要进展和突破。他们的工作推动了统计学的发展,并为我们提供了深入理解数据和做出科学推断的工具。
今天我们来聊聊投稿的时候你一定会遇上的,也会用得上的统计学最基本的小知识和操作, 可能很多研究生已经会用了,但是对于部分新生来说可能还不知道,如果不注意的话,投稿的时候有可能就会被拒搞,所以这些东西是非常重要的。 首先来看看这个表格,有这些变量,然后分成了两组,每组有五十个人,那么这是批职, 可以看到有些数据是这种形式表示,有的变量是 加减号的表示,他们有什么区别呢?看这里。那么两组数据进行比较之后,如果符合正 性分布,我们就用两样本体检验来进行,检验他们之间是否有统计学差异。 表示的形式就是用均值加减标准差,也就是这样的形式,说明这些都是符合正态性分布的。如果不符合正态性分布,就得用非参数检验, 用中位数括号,第一四分位数到第三四分位数来表示, 也就是像这样的说明这个变量年龄他是不符合正态分布的。 这是我从刘老师医学统计的公众号里面截图下来的,因为我觉得这几个都是需要注意的。首先 有没有必要做正态性检验呢?有的人说数据在我电脑里,其他人都不知道啊,但是有些高手一眼就能看出 你有没有做对,有没有做了正态性检验,所以我建议还是追求严谨客观的一个态度,最好还是检验一下。 第二个就是有的人可能会认为样本量足够大的时候,就可以默认数据是符合正态分布了,但是刘老师的观点是这种说法是不对的, 那么具体的原因大家自己可以看一下。第三个就是进行两组或多组间的比较时, 需要分组检验正态性,而不是合并进行。像刚才这样,这里有两组,我们不能把 有年龄的数据,把这组跟这组的放在一起去检验正态分布,这样是不对的,而是先检验年龄在这一组的数据是否符合正态分布,然后再检验年龄在另一组的数据是否符合正态分布。 只有两组都符合正态分布时,我们才能认为他符合正态分布,而只要其中有一组不符合正态性,那么就判定该变量不符合正态分布。 不符合正态分布就得用非常速检验,就得用这种形式来表示,只要有其中一组不符合都得这么办。 那么接下 下来就稍微演示一下。这是我一篇文章里面的举例。第一个表格,比如看中间这里年龄 不符合正态分布吧,运州符合正态分布。那么怎么求出这些数值呢? 我已经提前把数据导入了 spss 里面。首先我们进行正态性检验,按 analyze, 按第二个,然后按第三个 is floor, 把年龄和运洲,哦,我重新弄一遍, 把年龄和运周,也就是你需要检验的指标拉到第一个框里, 把主别放到第二个框里,要按 plot 勾选这个图形,然后最重点的一定要勾选这一个,因为这个就是检验正态形分布的,按 contineu 按 ok 往下拉,我们我们来看这个结果,这个结果就是正态性检验的一个结果。 一般认为当数据量小于二等于五十的时候,我们看这一边,如果当数据大于五十时,倾向于这一边为准。 如果当数据量很大,比如大于五千的时候,他软件只会显示这一边的结果。那么 我们现在来看这一边。年龄和孕周两个变量分成了 p 一组和 ctrl 组。首先来看年龄,在 p 一组的 p 值是零点三八二,大于零点零五的, 我们在正太性检验里面批值大于零点零五,就认为他是符合正太性分布的。 年龄在 ctrl 组里面他是零点零四七,他是小于零点零五的,他是不符合正态分布。刚说过了,只要有一组不符合正态分布,那么就认为年龄他是不符合正态分布的,我们就得用非参数检验 往下看。运州,他在两个组里面的批值都是大于零点零五的,说明运州在两个组里面 他都是符合正态性分布的。所以我们就可以用体检链来对比孕周这两组间的差异。 这是我文章里面的结果,你看刚才说了,年龄在其中一组不符合正态分布,所以我们就要用飞山术检验来对比,然后他要用中位数 和四分位数来表示。孕周他是符合正态分布的,所以我用了均值加减标准差来表示。 那么怎么求呢? 我我们先来看一下符合正态分布的运周,直接用体检验, 按 compamines, 按独立样本体检验。把熨州拉到这个框里,我们重新来做一遍。 这里把主别拉进来之后,要进行主别的定义,输入一跟二,因为我这里是一跟二,如果你这里是别的,比如零和一,那你这里就要输入零和一按, ok, 首先来看左边的方叉骑行检验,这里批值是小于零点零五的,所以就认为他的方叉是不齐的,不齐的就得看下面这一行,你看有两行,一行二行, 但他不齐,他小于零点零五是不齐,我们就得看第二行,第二行体检验的批子是零点零零零,也就是小于零点零零一的,你看这里, 那么这里就是运州在两组的均值命和标准差,比如他在 p 一组的均值是三十七点六六, 标准差是一点八五,因为我只保留小数点后两位。三十七点六六加一点八五,加减一点八五, 你看三十七点六六,加减一点八五,就是这么求出来的。体检验就直接可以看到 t 值和均值标准差, 那么年龄不符合正态分布,要用非参数检验来对比,怎么求呢? 非常速检验按这里, 不要,因为我是两组的对比,按这个 把年龄拉进来,把主别放到这里进行定义,然后默认勾选的这个很 ok。 看最后这里他的皮质是零点九一五,你看他的皮质是零点九一五, 但是我们怎么求他的中位数和四分位数呢?这个可能会有人有更好的办法,但是我的办法是这样的,比较麻烦。 你看在这个表格里面,年龄是把两组的年龄放在一起的,那么我们要对两组分别求出他的中位数和四分位数,所以我们要先把其中一组的数据删掉, 选中之后按键盘上的顶立, 这样就只剩下第一组的年龄的数据了。我们来到这里选择这一个, 我们把年龄输入这个框,要按这里,默认情况下是没有勾选的,那么我们勾选一下,这个是四分位数的意思,这个是中位数的意思,我们 ok, 这里就能求出来 第一组数据里面的中位数和四分位数的,你看有五十个值, 中位数是三十点五零,第一四分位数是二十六点七五,第三四分位数是三十四点零零, 和我文章里是一致的,三十点五零是中位数, 第一次分分是二十六点七五,二十六点七五,就是这样求出 过来的。然后我们撤回,撤回之后刚刚删掉数据就回来了,我们再把第一组的年龄的数据删掉, 这样就保留第二组的年龄的数据。我们再重复一遍刚才的操作, 这些都已经不用再重新选了。 ok, 他的中位数是三十点零零, 三十点零零,二十八到三十四,二十八到三十四,好的小伙伴们学会了吗?