粉丝239获赞4084
哈喽,大家好,今天是二零二二年一月二号,祝大家元旦快乐呀。那么今天这期视频呢,就是很多人一直催我的关 关于动态面板模型 gmm c 的操作。嗯,其实他的官方名称呢,是广义,据估计 原理就是回归,其实就是一种高级一点的回归吧。那么为什么要使用这个方法,和谁使用以及注意事项呢? 大家可以再去搜索学习啊,学问很多,这里我就直接教大家啊,实际的比较简单的 set 操作步骤是保证新手也可以看得懂,可以做出结果来,但还是建议呢,大家在使用这个模型之前呢,一定要了解一定的呃, 基础知识,比如什么是内生变量,外生变量,工具变量是相关等各类问问题。 嗯,如果不太懂,也没有时间学,就建议使用。嗯,最小二乘法呀,或者是固定模型这类比较简单的回归。 那么废话不多说,接下来就直接跟着我一步步操作吧。嗯,首先呢,我们还是打开我们最常用的一个教学数据,也就是我卫生费用的相关面板数据。呃,仍然是实际外是因变量,然后自变量是 x 一到 x 七, 那一般我们都比较常用,取对数之后的数据进行回归。嗯,如果是小于一的数呢,我们通常会建议可以转换为百分比,千分比,那么保证数值大于一。 那么原始数据的处理方式有很多种,大家可以自行选择。那么在做回归之前呢,我们一般 都会先做一个基础的一个相关性的分析。嗯,这里我把代码放在右边,就是方便大家观看啊,我们直接复制过来,然后回车键我们就看到相关性的分析就出来了,那么这块比较简单,我就不过多讲了。嗯,接下来呢, 我就直接开始我们的动态回归啊,先安装我们要用的秘密,我们现在最常用的 gm 呢,是 xtab 二,就是这个秘密,安装秘密还是 ssc in store 好了,我们安装好了这个呢,我们就开始呃,使用具体的一个例子来给大家教学示范啊。那么我先把这个语法粘贴过来,然后给大家讲解。呃,这个都是什么? 首先呢,前面 s t a b 二我们就不讲了,然后后面呢,请跟的是音变量外,实际我的是实际卫生费用,那你们的是什么?就先放在先放音变量外,你想放什么?取对数,呃, 拆分后的,或者是取对之后的形式啊,那你就变一下就行了。然后后面呢,就是把音变量的之后一节作为一个字变量放在模型后面,然后这两个放完,后面的 x 一到 x 呢,就是一系列的解释变量啊,比如说你的主要解释变量是 x 一,你的控制变量呢是 x x x x x x, 或者是 c 二 c 三 c 四,那你们就要把它全部都放在后面就可以了。那么这一部分呢,基本上就是固定不变的,要变也只能是变数据的形式,比如是否取对数呀,是否那个呀,那么 对号后面的都是可以调节的。嗯,那么这里呢, i 点一什么意思呢?就是 gm, 我们知道是自动控制了省份啊,也就是个体差异,如果你还想要控制时间,那就加上这个命令就可以了, 那这个也是可加可不加的。那么 gm m 和 iv 里面怎么变量怎么放呢?嗯,我这里是假设哈,假设我的 x 一是严格的外升变量, x 二是前置变量, 但是不不完全外伸,那么 x 三呢?是内伸变量,然后我们一般就会把 x 一放在这里, x 二 x 三就放在 gm 里面。那么这里具体反正放电量是多少放多少个变量,嗯,都是可以调节的。文献里面经常会把音变量的滞后一节放在 iv 里。 嗯,其他呢?非严格的外身变量就放在 gm m 里面。嗯,建议大家可以参考以往文献都是怎么放的啊?研究目的不同的可能放的面变量都是不一样的啊,这里我们我后面还会再提的。 那么后面这个参数呢, low level eq 就表示的就是呃,差分的 g m m 就是 dfres g m, 因为系统默认的是 system, 嗯,所以我们这里加入这个设置呢,就是代表我们做的是差分。然后我们按回车键 就可以看到我们就出现了啊,前面的回归结果,还有一些自相关检验和过度检验的结果,那么检验结果如何如何看呢?等我把命令讲完了,我再给大家分析。 那这是一个比较简单的一种形式,然后我们在这个形式上进行一定的更新。 嗯,接下来呢,我们经常刚才说了系统,呃,系统自带的是系统 gm, 那我们经常用的就是两部系统的 gmm, 我们只需要在后面这个参数,嗯,把它删除,更改为两部系统 gm 参数设置就是 t w o s t two stab, 然后因为两步估计比一步估计呢,就是容易呃,低估回归叙述的标准误差,所以我们一般加 too stab 就要加 robust, 呃,这两个也算是半捆在一起的感觉。然后这个,呃按回车键,我们就做的是两部系统 gmm, 我们可以看到明年输入输入之后他后面会有提示的。呃,看这里动态面板模型,两部系统 gmm, 我们可以放掉。 我上面的一个秘密啊,这里写着动态面板估计,然后一步的插分的 gmm, 那么接下来呢,我我们再在这个的基础,这个命令的基础上再进行一定的更新, 这种呢是比较常见的。嗯,那我们还可以看到。呃,这里的 gm 的变量里面呢,我们可以呃更新,比如说 gmm 的面料,我们可以设置一个之后下,嗯,通常呢会在后面, 嗯,在家里都好。一定一定要是英文输入下哈,然后 leg, 然后再括号也要是英文输入下的。呃,比如说二三这样子,那证明你的 leg ab 表示什么意思呢?就是把 x 三 xx 三呢?嗯,进行那个,然后再作为工具边上放进去,那么这里的这里的二三就是你放任何数字都可以,但必须是整数,然后那我们的二和三分别就代表最近和最远的最后接触,那么这两个接触你是可以呃 任意换的,并不代表就一定要是二和三。我就我就举个例子,然后呢在整个命令的后面呢,我们还可以加各种加各种参数,比如说我们家镂空赛的,就是我这里写了,呃, 就是不要缠住下,比如说减少工具变量的个数,我们就在这个 jm 里面,这里在这个逗号后面再加个 claps, 呃,比如说创造工具变的方式变换一些,我们就在这个后面命令的参数后面再加入这个单词就可以了。 嗯,那这里具体的各种加餐术呢?在我的知乎和 b 站里面,嗯,都有更加一个详细的一个文字介绍啊,大家可以自行的去学习,如果有什么不合适的地方,也欢迎大家批评尺寸。嗯,那么在视频里面呢,我就给大家介绍比较常见的命令形式。 那么命令讲完的接下来还有一个很重要的步骤,就是如何看结果呢?嗯,那我就以现在这个命令,呃呃,输入进去,然后给大家解释一下结果怎么看。 我们看这个命令输入进去了。嗯,我做的是两部系统的 gm 比较常见的一种形式。 那前面的就是一个简单的一个回归系数表格,那这里大家我就不过多介绍了,也就是回归系数标准 这只 p 值百分之九十五的可信区间,那一般来说,应变的之后一节,这里一般都是应该是显著的。嗯, 那接下来我们看后面的检验怎么看呢?呃,第一个就是 a r 检验, a ar 检验呢,就是一个字相关的检验,是检验脑脑动向的差分是否存在一阶和二阶字相关啊,保证这 m 的一致。估计一般而言呢,都会存在一阶相关,一阶 相关就是 a r 一,一般都必须是显著的,也就是存在呃,一届的字相关。那么二级的字相关呢,一般是应该是拒绝的, 所以最好是大于零点零五。呃,最好的情况是大于零点一,但是我们一般呢认为大于零点零五也是可以接受的,那这里如果 a r 二也 a r 二的批值也是小于零点零五,也 是啊,小于零点零五的话,我们可以检验 a r 三,那么检验 a r 三的语法呢?就是在呃刚才的这个密对, 刚才的这个命令基础上的后面再加一个呃,加一个 a r a r test, t e s t t test, 然后括号三就可以了,我们只要在这个后面再加上一个 a r。 哦,打错了, a r 太子三就可以出现 a r 三的值,你看,我们可以看到这边就出现了 a r 三的值,如果 a r 二实在是一直小于一点零五,我们可以再进行呃三阶相关,嗯,我们看一下,呃,就就要用三阶以及更高阶作为一个工具变量,所以我们在后面 再进行 a r 三 tes 就可以了。但是最好最理性的情况肯定是 a r 二,拒绝是最好的, 那么 a r 自相关检验讲完了,接下来就是呃后面的这个萨根检验和黑 n 检验,那这两个呢?都是过度检验,嗯,那么这这一种过度检验他的原甲设呢?是工具变量是有效的,那么 所以说 p 不显著,不拒绝原假设,也就是 p 只要大于零点零五才是说明工具变量是有效的。嗯, 所以说,呃,但是我们一般也是要呃萨根减压和黑 n 减,要大于零点一以上就是最好的,但是同时也不要等于一,嗯,等于一一般也是不合适的。嗯,一般我们应该是在零点一到零点二五之间最合适,但是由于一般 都很难通过,所以大于零点零五我们都算是合适的。那么至于这两个值,呃,我们是报告哪一个值呢?嗯,你可以自己选择,也可以自己领域里面的文献确定,也就是根据文献确定,那大部分时候可能都是哪个通过了,就报告哪一个吧, 我们可以看一下上面的,嗯,比如上面的这个黑色检验是通过的,然后三个检验是不通过的,那我们可以报告 a r 二和黑色检验,对吧?所以大家可以灵活的去处理。 最后呢,我想给大家说的就是,嗯,可能刚刚开始做动态面板模型的同学们经常会遇到,就是不管我们,呃,怎么调节,就是怎么调节内身边 外身变量,还有包括调节这里的工序变量啊,他的之后,他的这里的之后结束呀, 可能都做不到,可能都做不到就是满意的结果,要么就是三根检验,四检验不通过, 要么就是系数一个也不显著,然后我们拼命在网上搜索答案应该怎么解决,那么这里我就把也把我的时间经验给大家分享一下啊。 首先呢,我们就是要相信自己,只要你设定的这个模型是在一定的,呃,理论基础之上的变量也是比较正常的数值,就是文献中经常会用到的一些变量,你的动态模型就一定会成功的没有通过, 可能是你的模型设置那么暂时不适合你的数据情况,那么 gm 可以调节的地方是很多的,你都可以去试验一下, 就除了前面是比较固定的,后面这些都是可调节的,而且前面这个这种变量的形式,原始数据的形式也是可以改变的,所以你们要有一定的耐心,然后多多调试。 那另一方面可能就是因为动态模型的检验很难通过,所以很多时候哈,我们都被动的只能选择以结果为导向去调整我们的模型,就会觉得这个动态模型吧,就可能只是理论上比较成功,那么实际操作就有点鸡肋。嗯 嗯,可能听起来比较高大上,所以用的人还蛮多的。嗯,那么大家就自行体会吧。那么今天这期教学视频就到这里结束了,因为我,呃,给大家讲完了,我想出去过节了哈。呃,如果对大家有所帮助的话,呃,希望你们点赞关注 支持一下吧,然后祝大家节日快乐,谢谢大家。
哈喽,今天给大家讲一讲如何进行一个数据处理,那就我们进行公司金融的数据的时候,比如像这种进行公司金融的数据的时候,我们,呃,这些数据处理是如何进行的? 大家可以看一下这篇管理世界的文章,也可以看到哦,他还有很多,今天我们就给大家讲解一下如何进行数据处理。对,然后我们首先把 c 他打开,点击这里。对, 我们把这个死给它打开,打开完了过后,我们点左上角会会有一个 file, 然后 import, 然后因为它是 excel 数据,所以我们点击 excel 数据,完了过后我们把这个数据找到,因为这数据已经被我下载好了。对,在这里,然后点 open, 然后他会读取,因为数据有点大,然后涉及到控制变量都会。我今晚把三个报表出来的,是平常大家平常用的控制变量全部都搞齐了。对, 然后他正在读取,这电脑可能会有点卡,因为数据要比量太大了,从一一年到二二年的数据,然后应该有二十多个控制变量吧。对,三个报表都被我下下载了。 对,这是三三包,就是指甲附带表,现金流量表和那个表,然后我们三个表都会给他下下下载下来的 啊,所以整个数据会比较庞大。然后本期视频呢?呃,也分三个视频来给大家去逐步去讲解。然后第一个视频主要讲解的是,第一我们如何导入 数据,呃处理数据,然后第二步是我们如何进行剔除。呃,缺失值, st 企业、金融企业。对,这里这都是我们常用的,大家可以看到顶刊,顶刊也是会有这种处理方方式方法的,你看他看这篇文章的话,他就是说,哎,我用呼声 ago 数据,然后二零一一年到二零二二他是用的 八年的数据,然后他是第一剔除金融类房类房地产企业,第二个就是 st 和推迟企业,第三个就是说呃,针对 ipo 的这个和我们因为有些文章他需要,有些文章不需要,所以这不是一个 范式讨论,所以我们基本会处理第一类处于金融企业, st 和呃推市企业,然后呃这个也是看个人吧,我我是比较喜欢是三连冠的,对,三连冠以上的五连冠有点多的,然后剪刀再进行缩微检验。那我们首先第一步就是呃导入数据,大家可以看到 ok, 这个数据已经被我正在导入这里是状态了, ok, 这三包, 呃,这第一个是大家都可以看到,这,这财富代表,第二个就利润表,然后第三个就是 ok, 就其实就很简单,就是现金流量表,那我们首先做第一步, 对,然后第一步的话,哎,我们导出,导出完了过后,然后我们进行这个,首先我们进行公司规模的这个处理,公司规模,公司规模就是用 size 去来表示,大家经常用 size 表示,用 im 资产总计,然后就生成了一个,然后可以看到这有缺失三个数值,然后就生成了一个新的变量, 然后这边上你看为了之后我们方便了,我们可以进行 label, label 我们可以怎么去做呢?因为我们可以把它解锁了,然后直接在这里设置设置为公司规模,如果大家嫌麻烦的话也可以进行代码号,代码号就是 label verbos size, 然后双引号,公司规模。对,然后这第一步,然后第二个就我们常用的资产负债率,然后也是 也是一样的。对,那这里我就直接复制了。然后第三个就企业盈利性,我们通常用 r v 和 r o e, 他就这样去设置就好了,然后都是资资产周转率,然后我们把这个一整个全部,呃, 对,一整个全部类似的这些全部都撤场了,我这里就是直接复制吧,对,是 ato, ok, 我们设置到这里,然后这里可能这里就不需要了,对,这里就不需要了, 然后这里就我们就生成了很多新的变量,看,他们都已经找好,因为十一号他导出来,导出来就是中文的,因为导出来中文的话他会那么大。对,然后我们设置完了过后,啊,哎,对,好,还有 topic q, 哦,这里我们要设设置一个 id 啊,然后是不是有两个变量?看到没有亮红色就是没有,没有 replace, 我们没有设置好。 ok, 然后再补一下就好了,这没关系的。对,然后我们把这个全部都复制一下, 上面是设置了托宾 q, ok, 这所有的变量已经被我们处理好了,都在这里。对, 然后此时,哎,下一步我们进行干嘛?我们进行行业,大家可以看到,哎,这,这有行业,行业代码,但是好,你知道,大家知道的行业代码的话,大家要求的是除制造业以外只保留第一位,就是 a b, c, a, b, d, e 什么这些就只保留前面的英文就好了,数字不要,然后特,制造业它比较特殊,制造业要保留 后面的,就是连后面的这个数字也要保留,所以我们首先要我们也是一样的。呃,去第一个就是,嗯,设置一下这个行业,第一个就是 ok, 设置一下这是行业,然后 因为它专业比较特殊嘛,所以我们用衣服还是衣服?如果这个制造业是,呃,是 c 的话, c 就是制造业,如果这行业是制造业的话,那么我们就保留这个行业代码第一位到第二位,对,然后我们再把这个 label 设置一下就 ok 了,大家可以看到, ok, 有有这么一个行业,对, 设计联盟,对,然后大家可以看到此时的这个,此时的这个看到没有? 这行业已经是,那我们之后可以先对他进行复制化。今天视频就讲解到这,然后下一次视频就进行对大家进行,第一就是 t 除 st 金融企业,第二个就是所谓检验,对。
大家好,我是文龙,今天给大家讲一下调节效应,有熟悉飞行在座的小伙伴可以加我的微信。调节效应呢,也就是因变量 y 与自变量 x 的关系,会受到另一个变量 z 的影响,那么我们就把 z 称之为调节变量,比如说汽车速度与事故发生的概率, 汽车的速度有可能越大呢,他事故发生概率啊越大,但是呢其他其他因素呢,也会影响的事故发生概率,比如说疲劳驾驶或者喝酒,那么我们当疲劳驾驶或者喝酒的时候呢,速度越大,他会增加事故的发生概率, 那么我们就说疲劳或者疲劳或者喝酒,他就是一个调节变量。那么反映的发动式里面呢?啊,就是这样, y 等于 x 一, x 一呢,就是那个 啊,我们的自变量,然后 s 二呢,就是我们的调节变量,然后 s 一乘 s 二呢,就是我们的交互项,只要我们证明 x 啊,证明这个交互项他这个系数是显著的,我们就是可以证明他这个啊,调节变量他是有有调节效用的 啊,为什么呢?那比如啊,我们对这个公式做一个求导,我们会发现啊,左边就是 左边这个是 x 一对 y 的一个影响,然后右边呢就变成了一个 c, c 一加上 c 是三一个啊 x 二,那么当我们这个 c 是三显著的时候呢,并且它是正的时候呢,那么我们 s 二增加的时候呢, 他这个 s e 对 y 的显著,他也他也增加,那么我就我们就 只要我们证明 c 三它是显著的,那我们就能证明了我们这个调节效应是显著的,这调节变量是显著的,也就是调节变量是显著的。 呃,这个有四个结果,就是呃 c 字一是正,然后这个是这个 c 字一和 c 字三,它分别是正 正正负负正和负负,就是这这四个结果。然后大家自己读,我就不读一下了,自己自己看一下结果是什么意思啊?总结一下呢,就是除符号相同的时候,比如说正正负负就会增加啊,就会增强主效应,就是调节 呃,就是调节调节变量,会增加主线主效应,然后符号不同呢,比如正负或负正的时候呢,会会减弱主效应, 然后在 state 代码呢,就是呃,就是这个我们就可以在 state 里运行一下, 我们用这个网上线上的一个数据,这里我已经运行完了。 然后我们嗯产我们一个生成一个呃胶物,胶物像就是我们就用这个 m p g 和 wait 做一个胶物像,然后 这里我们通过 m 啊,通过 m p g 来预测这个车辆的一个价格 价格方程,这是一个方程,这个是 i price 呢,是那个音变量, m p g 是字变量,然后位位,这里位特是调节变量。然后我们首先是生成一个呃一个交互项 交互像,也就是也就是这个,然后我们证明 c s 三是不是显著的, 那么 c 三显著呢?就是说明我们这个呃调节调节效应是显显著的。 这里我们已已经生成完了 channel 这个 inter, 呃, inter m m w, 所以我就这个代码先不运行了,然后运行这两个回归做一些比较。 这个就是普通的一个回归,没加上调节调节变量,一个回归,然后这个就是加上调节变量的一个回归结果,我们可以看到这个交互像它是显著的, 那么我们就可以说我们的啊调节相应是显显著的, 然后这里我们会发现,因为我们嗯,我们的价格应该是随着公里数他会会减少的,因为这个这个数据是二手车的一个数据吗? 但是我们加入那个呃调节变量之后,他这个系数变成正的了,这是因为什么呢? 这是因为那个呃我们呃当我们加入了调节变量的时候,这里会产生多重贡献性?一种是呢,自变量 s 与那个交互项它的之间会可有可能产生呃贡献性, 调节变量呢也可能与那个交互项产生贡献性。还有呢还有一个就是自变量 x 和调节变量 z 之间呢,也可能存在存存在的贡献性, 所以呢为了解决这个问题呢,我们用的是去中心化的方法,去中心化的方法这就是 一个代码,其实他就是呃,他就是把这个呃自变量里边的减,同样都分别减去他的一个自己的一个平均值,然后再运行,再运行回归, 然后去中心化。这个代码呢是 center, 我们需要自己先没安装,先先安装一下, 嗯,这里我已经安装完了,我就不安装了。然后 center, 我们运行一下 center, 按 p g, 按 wait, 然后它最右边会新生成两个变量,就是 去中心化的两个变量,然后我们再通过啊,我们再生成一个交互项,就是通过这两个 再生成一个交互像, 然后我们再运行这个呃回归,这里面就是前面是一样的,和这个 这个呢是一样的,只是说这我们交互项一个是这是没去中心化的,这是去中心化的。然后我们运行一下, 我们会发现,嗯,这个系数现在变成了,变成了负的了,就是这是我们想要的,这就可以解释了,要不出来的结果他是正的,我们没法解释。同样呢这个交互项他也是显著的, 那么我就可以说我们的调节效应是显著的。 好了,今天就到这里,谢谢大家。
大家好,首先呢非常感谢呃各位读者,各位朋友选择呢我们呃这本 stitch 的相关的一个图书进行学习。首先呢我们也进入第一章,第一章呢是讲解了这个 stitch 的基本的操作,以及这个数据处理的相关的一些基础的知识 啊,也是 state 入门的一个最基础的一个东西,所以说大家一定要认真掌握。首先呢关于 state 介绍呢,其实不论是这个互联网上,还是我们在这个日常生活当中,可能大家都会设计的接触的, 那么但是在这呢,因为这个设计了入门的一个讲解呢,我还是简要介绍一下啊,关 s data 呢,它是目前最流行的计量软件之一啊,是一种功能非常全面的统计分析包,统计软件包,它呢容易操作啊,非常 容易操作,一般呢可以通过菜单,也可以通过命令啊,国内的读者呢,其实更熟悉的是通过命令见面呢,相对来说呃非常友好, 运行速度也很快,然后功能很强大啊,这个里边呢,本身呀,他就有一套这个预先编排好的一些分机和分析和数据功能,也就说读者可以直接输入命令,就可以调用相关的一些分析的程序完成相应的操作。同时呢,如果说这个预排的这些 分析要数据功能不能够有效的满足用户的实际的需求,那么读者呢,还可以根据自己的需要自己来编制程序啊,自己编制程序,然后用来分析自己的数据, 所以说他是一个非常开放式的一个软件啊,也是那个就是呃具有这个持续可优化空间的这么一个软件,所以 说呢,就是啊,自从这个软件被引入到我国之后啊,呃,不论是这个学者研究者还是我们这个企事业单位的很多的这个数据分析者都是非常认可并且愿意使用这种 state 在统计分析软件来解决自己的学术研究问题或者说应用实践问题。 呃, sd 的十六点零呢,是这个目前的 sd 的流行版本,呃,最新的呢,根据我的自己的了解啊,可能是出到了十七点零,但是十七点零呢, 并没有在中国范围内的广泛的这个应用开很多。这一个呃读者装的软件版本呢,可能还是十六点零啊,所以说呢,我们还是基于十六点零的这一个呃操作进行一个这个软件版本进行相应的一个介绍。 首先呢,我们这一个第一章主要是分为七节,第一节呢是 stat 概数,第二节呢是 stat 十六点零的窗口说明以及基本的设置。 第三节呢是这一个 stage 十六点零基本命令语句结构。第四节呢是 stage 十六点零运算符语函数。 然后第五节呢是分类变量和定序变量的基本的操作。第六节呢是常用的几种处理数据的操作。第七章呢就是对本章整个的第一章进行一个回顾, 当然呢还有就是配套的有练习题,呃,因为练习题呢,在很多的这个读者他是用来作为教材,所以说练习题啊,我这个地方呢就先暂不讲解。 首先呢我们来讲解一下第一节啊,关于第一节 ct 的概述的我简要介绍一下。 其实呢,我们这一个我们的教材当中呢,介绍的非常的详细,我也没必要再过多的去重复。呃,总之呢,就是他这里边呢,说了 state, 他的一个优势就是我们为什么要从那么多的统计分析软件当中要选择 state 进行学习, 可能呢,包括 spss, 包括 sauce, 包括 r 语言, matlab, 呃, passing 等等 一系列统计分析呢软件呢,都可以满足我们特定的统计分析需求。那么我们为什么愿意选择 state 来进行一个学习啊?这只是就,然后呢就是我们呢,呃, 就是基于是对他具有的种种的一种优势啊。刚才呢,我在前面呢其实也有所设计,就说他的运行速度快啊,他比较开放性啊,或者有持续的可深化空间啊。在此之外呢,他具有一个强大的图数据分析和图形制作功能, sleet 呢,还可以进行一个矩阵的运算。从我自身的这个学习研究经验和这个工作实践经验来看呢,身边的很多的同学老师,还有就是我们的同事领导们等等哈,大家呢用的都是 sleet 软件, 使用四 g 软件呢,一个是确实比较容易上手,再一个呢他确实是也比较简单啊。呃,我个人这里也是这样的啊,如果说真的想这个学精学懂, 弄通做透这个 state 其实是比较困难的,因为它这个里边的这种模块非常多。然后呢,他在那个也是紧盯这个学术研究的前沿,把很多最新的计量统计研究分析方法呢,也实时的补充到我们的 这个每一次的软件版本的更新中来啊。但是在此基础上呢,呃,这种这种基础性的一些分析,比如说回归分析,相关分析,统计报表这些制作这些这个基础的功能呢, 他也是就是这个不论是从界面上还是从这个使用的效果上来说是经久不衰的,也是非常容易上手的。 也就说不论是想利用 state 从事比较高深研究的这种呃学术研究型的呃人才,还是说我们只想就是掌握这个基础应用功能来进行 行这个自己的基本的学术研究,比如说我就想完成自己的毕业论文,或者说我们就想解决企业里边啊,可能就是说我们区别哪些是优质客户,解决这么一个特定问题的话,那我们只需要学其中的一点点,甚至只学一个命令就可以,那么斯里特也是非常容易上手的。 总之呢,就是 speed 它的这个受众人群是多样化的啊,能够很好地满足每一类层次的人员的实际的需求 啊。当然对于对斯对特的这种认知和理解包括评价呢,肯定是仁者见仁智者见智,可能有的呃,有的这个统计的学者就觉得斯对特不好用,那这一块呢,肯定也有他自己的理由。那么但是对于我本人来说,还有周边的很多的这个朋友来说,斯对特确实是一个非常好的 一个软件,值得大家投入足够的充分的时间精力去学习,并且呢把它有效的结合应用到我们的呃学术研究或者工作实践单位来。 而我本人呢,创作这本书的初衷呢,也是为了啊,让国内的这些有志于学习 stit, 掌握 stit, 应用 stit 来解决实际问题,能够学习的更为轻松一些。所以说呢,我不论是在一些 啊这个统计方法的介绍上,还是在这一个呃统呃相关命令的介绍上,以及这个对于 案例的举例,对分析结果的解读上,都倾注了大量的精力,也开展了大量的调研,然后呢,尽可能的把所有的事情呢都说明白,说透弄懂,让大家在学习的时候呢, 能够呃轻松一些 啊。这是第一章的第一节 state 概述的相关的内容,下面呢,我再来介绍一下我们的 state 十六点零的窗口的说明,以及基本的设置。 其实呢,与大部分的这个程序窗口类似, sleet 也有自己的菜单儿来呃工具来,它的特色呢,在主界面当中的五个区域,隶属窗口,隶属窗口呢,又称这个 history 啊,然后那个变量窗口, 变量窗口, 变量窗口啊,玩 airpods combod 命令窗口, result 接物窗口,接物窗口,然后 perfect 属性窗口啊,它主要展展示的是我们的变量啊相关的一些属性。 这五个窗口关于每一个窗口详细的介绍呢,这儿呢,我给大家再再汇报一下啊, 大家可以看到呢,我装的是这个 m p m p 版的这个十六点零, 这呢,大家在出散装的时候可能是英文界面啊,但是这个我这为什么是中文界面呢? 是因为我进行了相应的这种设置。怎么进行设置呢?我这儿也先给大家讲一下,在这个地方编辑编辑, 然后呢,在很多的这一个就是呃大家的这个现现在的界面呢,可能是叫 edit edit, 呃,然后这个 首选项大家可能是 prefer recess 啊,用户界面语言应该是 user in in interface language, 这个呢,我们在教材上也有所提及,然后点这个 我这呢,因为已经设置成了这个简体中文,大家呢可以根据自己的这个语言编号习惯进行一个设置,比如说改成英文版, 然后在下一次启动 ct 的时候,它就会发生改变, 大家可以看到现在呢,就回到了大家自己的这个刚安装好 state 十六点零版本的这个界面, 那么怎么把它设置成这个简体中文呢? edit preferences, user interesting language, 把它改成 chinese, ok, 关闭。下次再进入的时候,点开 就出现了我们的这个简体中文界面,然后呢,我们就可以,如果说是大家喜欢菜单操作的,可以通过从这个菜单当中进行 设置,找到对应的统计分析方法,然后进行这一个相应的呃操作。但也可以在这在命令窗口直接输入命令 历史窗口呢,它显示的是自本次启动 status 六点一零以来执行过的所有的命令。 命令产生的渠道包括两类,一类呢是用户直接在 come 的窗口输入的命令,无论命令是否正确,错误的,未被执行的命令他会被加上红色。另一类呢,是用户通过窗口菜单操作,这个是的是自动换算得出的命令, 也就说我们呢可以直接在这说,他会在这进行展示,也可以呢,通过菜单进行操作,他也会在这个历史窗户显示相应的命令。这个 呃这一个软件特性呢,就给我们带来了一种便利,也就是说,如果我们知道菜单操作,那大约知道这个菜单是怎么操作,但是不会写命令怎么办? 我们呢就可以先用菜单把它操作一遍,然后实际上自动的就会在这显示出相应的命令出来,那我们就可以把命令进行保存,或者说把它记下来,下一次再输输入命令就可以达到啊,跟这个菜单操作一样的效果, 相当于呢,跟着 skate 学习了一遍,如何这个编辑相应的命令, 然后这个变量窗口呢,它显示的是当前 stat 数据文件当中所有的变量啊,然后这个如果说是这个变量,这个单击它的时候啊,这个变量呢就会在 command 窗口出现啊, command 窗口呢,就是输入命令他的这一这么一个界面, result 呢,其实就是这个,这个倒是没有写哈,它这个呢,上面这一块它就叫结果窗口,无论成功还是失败, stat 这个 stat 都会显示执行了结果,如果失败了的话呢,它会以红色的信息显示,并且会告诉你的原因。 这个呢是属性窗口啊,每个窗口的大小呢,可以自由的调节。 然后呢这个地方呢,可以啊,可以把它关掉啊,大家如果觉得没有用的话,就可以把它关掉,也可以进行恢复啊,这个都没有问题啊, 比如说我们把变量窗户关闭了,后来觉得变量窗户有很有用啊,我们可以再把它找回来啊,对于属性窗户也是一样的道理。 当然呢,这个快捷键也是有用的啊,比如说我不用鼠标操作,我用键盘上的 ctrl 加一,也是能够达到同样的一种效果 啊。关于这个第二节呢,如何设定偏好的界面语言?在刚才呢,其实我也已经结合着呃我们这个 states 的界面进行了一个讲解。呃,读者呢,也可以按照这个教材上规范的 这样一种做法,自己进行一个灵活性的设置啊。啊,我们学习这个这软件呢,最重要的是要除了学会的同时更重要的是要应用,所以说呢,就鼓励大家在用的过程当中呢,自主的进行摸索啊,多摸索, 只要把数据保存好,数据不丢失啊,大家都是可以尽可能的根据自己的理解多操作几十次啊,在摸索当中呢,会自然而然的学会各种命令,各种这个菜单操作的一些具体的呈现,从而呢能够更好的学习,死罪他啊,这个学习, 呃,这个跟这个多尝试他是密不可分的,多尝试呢,肯定这个学习效果可能就会好一些。
好久没更新了,今天我们讲讲收敛型分析。收敛型常用的有西瓜、贝塔、俱乐部收敛等,用来衡量要素是否会实现同一稳态水平。 老规矩,先从一篇细看开讲收炼性分析、长河区彩衣、动态眼睛这些综合运用。具体用到的方法有我之前讲的这个基尼系数、空间计量和密度估计等等。我们可以看看这篇文章运用的方法还是比较丰富的。 文章做的是 sigma 和贝塔手链,贝塔手链优粉、一般手链和空间手链,具体优粉条件手链和绝对手链。这里 sigma 手链用到底是便衣习俗来衡量。那么怎样来判断是否存在 岁末收敛年文种真理分为全样本和粉样本边因悉数均呈现波动趋势,真理是一起从小于期末至判定,如果悉数呈现下降趋势,妈妈可以认定为存在岁末收敛。 贩子则认为不存在收敛,也走势发展差距逐渐扩大。再来看看贝塔收敛,这部分用的是空间贝塔收敛,当然也可以先用一般的贝塔收敛来检验。简单的来说,绝对和条件的区别, 四加控制变量,一个是五加,我们可以看看绝对收敛终点关注贝塔西数的正负显著性。简单来说,贝塔西数为互相显著及绝对收敛成立。当然空间计量我们还得 看肉或烂的稀疏是否显著。通常我们还要来分析一下各区域的收敛速度,也就是分样本的回归系数大小,绝对值越大,收敛速度越快。稳重。我们可以看到黄河流域的收敛速度最快,其次为长江流域。珠江 条件,贝塔瘦脸叶子已央开,冠珠西属征服极限诛心 抗抗,结果不再追书下面进入食草环节,这类书居是全轨两百八十五成丝的书资。紧急字数, 我们选择 c 果收敛,便以西数计算公式为数据标准差与均值的笔值,计算完可以看看数据列表中 c 股吗?西数大小随时间变化, 可以看看数值波动,取湿明显,但数值起凑值大于起摸值,呈现收敛取湿。再来看看贝塔收敛的做法,我们需要生成变量的之后香和茶香, 然后将擦粉箱作为被借式变量,之后像作为借式变量做回归,我们可以看到回归系数现诸为夫即存在绝对被他手里。由于我们是面板数据,我们还可以走好斯曼检验,确定一下是否用面板固定。 面板模型里我们加入控制变量及验证条件贝塔收敛是否成立。四处步骤跳过,我们看看空间贝塔收敛。首先我们看哈墨兰紫薯是否通过检验, ok, 没有问 题。由于我们生成了被解释变量的擦粉和之后,因此做空间收敛需要把缺失之先剔除, 然后走回到了我们之前讲过的空间计量部分,只是更准确的走法,我们要用 l、 m, x 等检验来确定使用的模型,为了节省时间,直接采用空间镀冰双固定效应模型, 结果还是一样,堪比哈有线珠星贝塔稀疏的征服极限珠星,我们这里的结果完全 ok, 空间绝对贝塔收敛成冰。再来看看条件贝塔收敛,把控制变量加进去就可以了。 条件贝塔收敛的条件完全成立,这样我们走的 c 罗贝塔都收敛了,当然也可以用别 地俱真来进行问艰辛戒烟想学啥?欢迎评论区留言点赞关注点赞关注!点赞关注!
每天一小步成长,一大步厚积薄发,打开知识的大门。哈喽大家好,我是 kid 老师, 那么专题一呢,我们已经通过两个课时来给大家介绍了一下我们 state 软件,还有计量经济学里面的一些 基本的一些概念。那么今天呢,我们就进入第二个专题的学习,那么这部分呢,主要是给大家再详细一点, 描述和介绍一下 stata 操作界面,以及 kate 总结的一些常用也是比较实用的一些啊,数据处理的语句 技巧。那么这部分呢,预计呢也是通过两个课时的呃时间来给大家 介绍。那么下面呢,我们就进入今今天的第一个课时,那么第一个课时呢,主要是给大家讲一讲这个 state 的一个操作界面。昨天呢,呃,在这个 呃在上一个课时里面呢,我们给大家介绍了一下 c 塔的操作界面,当时比较简单的,那么今天我们稍微把它介绍的更加全面一些。 好呃,这就是我们 data 的一个界面,这个呢在我们上节课呢,也已经给大家介绍过几个重要的 呃功能。那么首先呢是给大家介绍一下这个 do file, do file 呢是 data 里面的命令集合文件,在编程语言中呢,就称之为脚本 scripts, 那么是只为达到某一分析目的进行的数据读取,数据处理分析等的命令的集合。那么在编程语言里面呢,如果呃相当于甲把的话,那么我们在脚本 的语言里面呢,我们另外还有一个就是呃对象或者说类,或者说称之为函数文件,就是专门写一个函数,那么在我们这个脚本里面呢,可以通过函数调用的方式来啊,直接 把这个我们之前封装好的这么一个函数,呃把它的功能给引入到这个脚本里面,那么这个功能呢,一般来说在 stata 里面不会呃设计的太多,当然它具备这样 一个功能,但是他在 state 里面应用的时候不会涉及的很多。那么如果说在我们之后给大家介绍的这个 met lab 的呃基础课程里面呢,可能会涉及到呃这种函数 的一些设置的方法,那么我们这里呢,就先稍微略过一下,另外一个呢是我们的数据浏览的窗口,那么待会呢,我会把这个例子翻出来给大家演示一下。 好,我们先呃打开这个 stata 来看一下,那么可以给大家介绍的这个是 呃 state 十四的版本,那么目前 state 呢,应该是出到十五的版本了,呃它有一些新的模块,呃,比如说这个可视化的模块,还有一些比 比较新的一些模型会在更新的版本里面出现,但是我们目前的做研究分析而言的话,十四的版本基本上已经足够了。 呃,那么 state 呢?还有一个经典的版本是 state 十二的版本,那么这个版本呢,也是呃很有代表性,但是呢,呃十二跟十四的版本它有一个最大的区别啊,就是可以在做持证分析的时候有一个最大的区别呢, 主要是在于这个呃 csv 格式读取的时候,呃他读进来呢,他可能会有一些乱码的情况出现, 就比方说,呃在如果要在 data 十四里面运用应用这个 csv 格式的话,呃,因为这个 csv 格式实际上它是 tst 文本的格式,那 那么他要保证他另存为一个是呃 u t f 杠八这么一个编码的话,那么在 state 十四里面,他才能呃正确的识别这个中文的编码。那么 如果不是 u t s 杠八的话,那么在 stata 十二里面,它是可以正常的识别,但是这两种识别的格式它是不能兼容的,就是在 stata 十四里面, 它识别不了非 utf 杠八的中文的格式,然后呢,在 data 十二里面,它不能识取识别到 utf 杠八的这么一个 呃中文的编码,所以呢,大家在处理这个呃 c s v 格式或者说 t s t 格式的时候呢,一定要注意这一点。好, 那我们这面呢,都回到这个 state 十四的界面里面。呃,那么我们看到呢,左上角就是我们非常常见的这种工序栏,呃, file 了, edit 了,呃,比方说我们要 导入数据的话,其实这这里有一个 import 这么一个命令,你可以看得出来,它可以导入 excel 的。呃, csv 的 csv, 其实呢,它就是文本的格式,也就是我们平时看到的记事本的格式 啊,或者说 taste data in 固定的格式。呃 size 的,呃,一些数据的导入都可以啊,这里有很多很多可以选择的一些数据格式 啊,然后 addy 呢?就是呃,这里,呃,我看你刚安 装的 state 十四呢,它可能不是这种黄黄字,绿色字体,还有黑色底色的这种,那么它要改它的这种设置呢?在这里 ethic 里面的 reference, general preference, 一般呢,他应该是 standard, 然后把它改 classic 啊, keep 呢,比较习惯这种风格,所以选择了这种一直都用这种 好 data 里面呢,包括有,呃描述,统计啦,呃,还有就是生成变量,就是我们待会都会说到这些菜单操作,所以说啊,其实 data 呢,它是 兼容了有菜单操作和命令操作两种功能的一个软件, 所以呢,有时候你不知道那一行代码怎么写, 你也可以在这里翻一下。呃,比方说我这样想要实现什么功能,我可以在这里翻一下,那么,呃,你操作完之后呢,他会有一行代码在这里显示,那么你就知道他的这种你想要达到这种菜单操作,你是怎么样通过一个命令的方式来实现? 比方说绘图的,呃,各种类型的图都可以在这里选择,然后统计的,你看呢,这里有没有。 呃,相信回归模型的很多都有,其实它相当于就是我们平时用的 spas 的那种, spss 那种操菜单式的操作,但是呢,我们在用 stata 时候一般不用这个菜单,我们要用 呃命令,要用语句来实现我们的操作。好,呃,比方说,呃, 这个就是打开的读法,昨天也有简单的介绍一下。这里打开啊,比方说我们把这个课程二的代码导进来。好,这里面我没有写太多啊,我就就看一下。比方说第一行 cd 这一行就是读取这个数据所在的文件夹路径。好,读取完了。 然后呢,第二步呢,是 use use 啊,这个名称的数据,它是 d t a 格式的,如果是 d t a 格式,可以用 use 这个命令, use 这个命令,然后 clear 好,我们就可以把这个数据已经读取进来了。看到没有?刚刚这里还是空的,现在呢,就已经有了,呃,全部的变量名称,还有他们的 label, label 呢,就是对这个变量名呃来做一些 啊描述,就是让你知道更清晰的知道这个变量名的含义是什么啊?我们一般在,那么我们在做分析,在下面全部的命令里面呢,用的都是 name 这一行这个变量名,后面这个 label 呢,就是作为我们看了解知道这个变量的一个情况。 好,那么下面我们就看看怎么样数据导进来了,怎么样查看数据。就是也是这一行里面的,这里有两个按钮,一个是 data editor, 一个是 data 呃 bros 的, 呃,这种这种模式,这两个有什么区别呢?首先第一个 edit 呢,就是它可以修改的这么一个数据,就是你打开以后,它里面数据是可以修改的,可以修改的啊,比方说这里的 三,你看它是可以直接修改的,但是我们呢一般就比较少用这个,尤其是读取数据这种方式的话,我们一般都是用这个 pro 这种方式,就是呢它只能看,但是它改不了,比方说我要改为一是改不了的,看了也没有反应的 好,所以我们再呃把这个数据读起一下,就恢复到刚才的这个这个数据的格式没有被修改过的 好。然后我们在命令里面怎么样来查看数据呢?就是这个 bros 缩写啊,可以缩写,就是呢 set 里面有一些呃语句,它是可以缩写的,有一些是不行, 那我们之后再会给大家介绍一下哪些可以,哪些不可以,按照这个浏览数据就可以,他本来是 bros b r o w s e bros, 就这个 这个 bros, 但是我们呢在这里呢可以把它简写为 b r bros 简写,那我们选中这一行,点一点这个运行的按钮,那他就会把这个数据的窗口把它展示出来 啊,就是这个全部的数据都能都能查看得到啊,就是一共有五百二十六的样本容量,然后每个变量都可以在这里看得到,然后这里呢, 呃,这个数据窗口的右右边上方的是他的呃变量的一个一个汇总表,下面的是每个变量,你点中他,他会显示他的一些属性。那么如果我们想要查找变量,很多时候想要查找一下数据,那么可以在这里这个 filter 里面去找,他是会支持这种模糊 匹配的,然后我们查一下 b 秒啊,看到没有,我们输入 f 一,他就会把这个这些有 f 一的一些变量把它找出来了,包括他 f 一呢,把 label 里面的内容也搜索了,所以我们就可以把有一个 如果要想要很多变量的时候,可以通过这种方式来查找。好嘞,然后我们呢这里呢也可以输入我们的一些常见的命令,当然如果说有一些比较重要的命令,我们还是建议你在直接在读文件里面去啊, 来记录下来。比方说我们讲查看一下数据格式啊,我们这里就可以把呃每个变量它的呃变量的类型,然后它的长度,然后还有它的 label 都展 是出来,但我们也可以在这里输一样的,一样的结果表示我们输一个描述统计的一个结果啊,让他把全部变量的描述统计结果都展示在这里 一样的,但是如果说,嗯,我还是建议大家养成这个习惯,就是有什么呃命令需要做分期的话,都是在这个度文件里面去进行,因为他也很方便,他可以选中一行运行,也可以选中多行来运行, 所以尤其是有一些变量的处理的语句,还必须要在读文件里面去进行,这样才能够把这些命令记录下来,然后点一下,他是会运行选中的语句都运行一遍,然后把这个回 归结果展示出来,都可以都是这样的。好,我们下面回到这个呃语法基础里面。 呃语法基础呢? stata 的一个固定的常见的一个语法结构呢,是这样子的,就首先是一个函数名,然后是有变量的话,就跟着变量或者说变量的列表 啊,这就是前半段,主要的就是说函数是啥,呃做什么操作?对谁做操作? 然后 if 跟 in 呢?它是呃两个限定的一个范围,如果是 if 的话就表表示呢?后面我可以加一定的条件来限制,我只对其中某一个部分的数据来呃做一些操作。呃,如果 是用 in 呢?它可以指定,比方说前十行的这个记录 做这个,呃做这个函数的处理啊,他是这么,然后掰呢,他是作为分组的变量,就括号里面跟的是分组的变量,比方说我们要分成男女,那么这是一个分组的变量,比方说东中西部,这又是一个,呃分组的变量 啊,那么 by 里面是可以分组来做,呃这个函数想要做的一个一个操作,然后还有其他的一些选项,那么其他的选项就很多了,就不同的函数他会有不同的选项。 好,那简单的讲一讲下面这三条命令啊。呃,比方说 generally nuweer new valuable 等于 valuable, 一,除以 valuable 二,那么这个 generate 呢,就相当于是生成一个新的变量,我们昨天也有大概给大家介绍介绍过一下哈 generate, 那么它这里呃有一个下滑是什么意思呢?就可它它有一个缩写,就是呢,当你要生成变量的时候,你不需要把这个 generate 这是这么长的一个字母都写出来,当然写出来也可以,但是呢也可以缩写 g, e, n 三个字母就可以了。 卷一个变量,你想要生成一个新的变量是什么?然后一个等号,等号呢,在任何编程语言里面他都是复制的符号,就说他把后面的这个结果复给这个 新的一个变量,那么这是一个生成变量,这一个这一行代码有 summaries, 这就是这就是做一个呃描述统计, 描述统计呢,我刚刚也给大家展示一下, suv 就写三个字母,他也可以出来一个结果,但是如果只写 suv, 他是把这个数据集里面全部的变量的描述统计,他都会做出来。但是呢,如果这里面 跟上后面的这些,呃,变量名称,变量列表了,那么跟跟几个,那么它就只对跟着这一堆的变量做描述统计。然后 if 刚才讲的,呃,它是有这种限定条件的, group 啊, group 就第一组的 group 两个等号,记住在编程语言,呃,一个等号是表示副值,两个等号才是表示的,是逻辑的判断,这里呢就判断如果 group 组等于第一组的,就第一组的这些这些这 这些变量,我才会把它做一个描述的统计好。然后下面呢就是呃,比方说我们查这个,这这种呢是属于啊 回归啊,简单的相信回归 regress, 它也有一个缩写,就 i g 啊 regress, 你把它全写也可以, i g 也可以。那么第一个呢是被解式变量,然后面这一堆呢都是解释变量或者说控制变量, 其实在这在回归里面呢,解释变量跟控制变量它的位置在这种函数里面它是相等的, 就大家处于平级的状态,只不过我们在分析的时候我们会有所侧重,我们关注的是解释变量,然后控制变量只是作为一个呃模型的消除一定的遗漏变量的问题而存在 啊。然后逗号后面就跟着有一些选项,比方说我们采用稳健标准物的方法来估计这个回归模型,那么后面呢,就跟着一个 robust 啊,简写也有简写,它是用一个 are 来表示。 好这一段呢,我们昨天也给大家介绍过,简单再回复一回顾一下,比方说 cd 告诉他读取的是这个数据及文件他的路径,然后 use data clear, 就是把先把目前的 呃内存的数据先清空,然后把这个 data set 这个数据读到这个 data 的数据空间里面,这样就是刚刚讲到这个生成变量,他一个缩写,缩写呃新变量。 vr 二等于 a 除以 b if 就是条件限定了 b 不等于零时候的 做这么一个复制的操作。然后呢,如果 b 等于零的怎么办呢?就把这个 vr 二的值把它修改一下, replace 就修改修改 vr 二等于零,如果 b 等于零的时候, 然后把这个 vr 二做了一个描述的统计,然后保存为新的一个数据集,叫 data set 二 replace, 就是如果在这个文件假如间有一个同名的话,那么就会把它覆盖掉。 好,那么今天专题二的第一节第一个课时呢,就讲述到这里,感谢你坚持学习完本课时,希望你学有所获,我们下期再见。
刚才我们也知道啊, float 命令它就是储存的范围会更广一些,更广一些,所以呢,在这样的基础上我们就了解,其实数虽然是数值啊,但是有的时候我们在设定的时候,在数字变量设计的时候,我们需要去考虑啊,它的范围啊,它这个精度的损失 啊,这个数值变量我们比较好理解,反正就是,当然你,你不用去再多的考虑说你到底用什么样的数值类型,因为我们在导入数据的时候 say 他会自动的啊,会,他会自动的帮我们确定什么样的精度类型更适用你这个数据,所以 不用太担心。说啊,我还是我是不是要单独的告诉 stata 说要怎么样去保存我的数字?不会的,他会,他会默认的给你找出来一个最合适的这个精度类型,所以我们只需要理解啊,就是我们在导入数据的时候呢,这个操作的变量他是一个数字,并且呢同虽然同样是数字,他 在数据的精度上是会有区别的,记得这个就可以了,因为 state 会自动把我们的选择最最合适的这个这个类型,另外一个呢就是文本。
大家好,欢迎来到 sita 数据分析入门课程,我是车水老师,本节课我们来进行第一节 sita 的简介, 主要包含三个部分,分别是熟悉随他的界面,熟悉随他的基本设定以及设置我们自己的工作目录。首先我们来进行第一部分,熟悉一下随他的简界面, 所以他的界面呢,包括四组窗口,两个菜单栏以及一个 输出结果窗口。四组窗口呢,分别是历史代码窗口,密令栏窗口,变量栏窗口以及数据性质窗口。在此基础,在此基础上呢,我们要学会如何浏览数据 和使用度文档。我们来打开斜塔,实地操作一下。双击打开, 我们发现,呃,最先映入眼帘的呢是中间这一部分,它是我们的结果输出窗口。呃,四个窗口呢,分别是 历史代码窗口,是最左边的这一列,比如说我在命令窗口进入一行命令之后呢,在左边他就会出现这个历史记录,如果我双击这历史记录的某一行,他就会重新再运行一次。 第二个窗口呢是命令窗口,我们可以把塞塔的指令呢在这里面建入,然后按回车就可以执行。第三个呢是变量窗 窗口,在右上角,我们可以在这里呃看到每一个变量的名称以及他的标签。第四个窗口呢是性质窗口,在右下角我们可以看到这份数据的名称,标签。呃,数据类型以及 嗯,变量的个数和观测值的个数以及这份数据的大小等等。然后两个菜单栏呢,在最左上角呃,用菜单栏我们可以进行一些基本的统计分析,做图,导入,导出数据等等都可以。 然后呢第二行呢是我们平时用的比较多的,比如说打开文件保存,嗯,然后打开读文档,浏览数据等等。嗯,在 基础上呢,我们来学习一下如何浏览数据。我们主要用的是这两个按钮, 这样单击就可以出现我们的数据,然后第二个按钮也是一样的,他们两个的区别呢就在于第一个按钮可以修改数据,比如说我第一个是一,第二个是二,呃,这个技术上 如果我想要修改的话呢,我打开,比如说我想把第一个数据变成零,那我就直接可以是零 就可以了。但如果我用这个第二个浏览数据的窗口呢,我想把它这个数据再变一下,就不可以这样直接改了。 所以在平时的使用过程中呢,我更推荐大家用第二第二个指令,它类似于指读,呃,这样呢,我们可以减少我们嗯,误误操作导致的数据的变化。然后 接下来呢,我们要学会使用杜文档,杜文档呢,就是这个类似于幕布一样的按钮,我们单击可以打开,在这个里面我们可以写入我们的命令,然后呃选中纸, 点击这个三角形就可以运行。克里尔的意思呢是清除数据,那我们就会发现这里面的数据刚刚进入的数据已经没有了。呃,相比于运用这个命令栏呢,相 我更推荐大家用杜文档,因为杜文档呢,我们可以随时的修改保存,以及和合作者同时使用的时候,我们可以把我们的写过的杜文档发给对方,然后在对方呢在你的杜文档基础之上再进行 修改呀,运行之类的都是可以的,这样就更方便更有嗯,修改的余地和更有操作性,也对我们的合作有一些有很大的帮助。嗯,比如说我们 来举个例子,如果我想浏览一下系统的数据呢?我们用 ccuse 这个命令,比如说系统有一份数据叫做 out, 嗯,我们可以 选中,然后点击这个三角形运行一下,就发现我已经把这个,呃一九七八年的机动车的数据 已经掉入进来了。是这个,那我们就可以发现呢,在看右上角可以看到变量的名称和标签,右下角可以看到这一份,嗯,变量的名字, 呃,数据的名字以及数据的标签,然后观测值的个数,嗯,变量的个数都是可以看得到的。好,我们 现在呢来看一下随他的基本设定。呃,因为刚刚开始了解一个软件的话,我们要呃把它设计成我们 喜欢的样子,我们如何设置呢?在 id 的这个里面呢,最下面有一个 praprans, 我们打开这样的 praprans, 我们就可以设置我们这个界面的, 呃显示的属性,比如说这个这个里面有主题,是标准主题,或者是呃什么经典的主题都是可以的,比如说我用标准主题点击 ok 就可以了。呃, 然后呢,第二个我要说的是要学会嗨老婆功能,可以让我们的效率事半功倍。比如说有一个命令叫做三木 s, 是用来做描述性统计的,但是呢,我不知道这个三木 s 是什么意思,那我就要在前面 加一个嗨,然后呢,嗯,直接回车来执行一下这一份,这个代码就可以出来了,他就会跳出来一个嗨,要普文档,告诉你这个三 ms 的命令是用来干什么的,他首先跟你解释这是一个用来做描述性统计的命令, 然后告诉你这个秘密应该怎么用。呃,首先进入三木 s 或者是 su, 就代表了三木 s 这个单词,然后 后面呢加入你的,嗯,变量的名称,后面再加 f 选项,应选项括号呢代表嗯,可加可不加是, 嗯,可以根据自己的需要去加的,然后可以加一些选项,然后有哪些选项呢?后面都会给你列出来,然后呢在后面他会 告诉你用菜单栏呢如何实现这个功能。呃,然后后面呢会给你举一些例子,让你更深刻的来理解这个命令。 所以说如果遇到一些不会使用的命令的时候呢,我们一定要学会使用哈尔普文档,然后也要学会如何阅读哈尔普文档。好,第三 部分呢是设置我们的工作目录,首先我们要来看一下当前的工作目录,用 p wd, 用 p wd 这个命令来实现。 没车,我们就发现当前的工作目录呢是地盘下的四件套。呃,那如果我想改变我的工作目录该怎么办呢?我用下面这一个命令 cd, 然后呢再把我的想要进入的目录在 写进来,比如说我想进入的目录呢是 f 盘。好,那呃,我已经设置到 f 盘,我们来验证一下,用现在的 p wd 发现呢当前的工作目录呢是 f 盘了。呃,还有一个呢是要查看系统的目录,用 casd 啊, diydl 呢,就是 draxdrax, 就发现呢有,所以他呢有六个文件夹,然后分别的系统的路径在哪里?我们如果想改变其中的一个呢?啊?当然是 都是可以改的。我这里演示一个,比如说我想改变这个 plus, 他的路径用 cs 镜。 啊,我想改变 plus, 所以我要把 plus 加进来。然后你想改到哪一个路径?比如说我想改到 fpard, 比如说我想改到地盘的四件套 的 a 度下面的 pass。 那执行一下就可以了。那我验证一下我这个改成功了没有?再用一下 cs, 然后呢就发现我的 plus 已经到了我刚刚设置的这个目录下面了。好,这就是本节课的内容, 我们学习了 cta 的界面、 cta 的基本设定,以及如何设置我们的工作目录。
大家好,那么今天这期视频呢,给大家分享一下中介效应。我们中介效应的通俗来说就是我们分析自变量 x 对应变量 y 产生的影响。呃,那么如果变量 x 是通过音响变量 m 来影响 y 的话,那么这个 m 变量 就是中介变量。比如说我们租客,而是通过中介公司去找到合适的房子,那么中介公司就扮演了一个中介变量的角色,那么中介变量发挥的作用就是中介效应。 呃,中介效应呢,就是检验某一个变量是否成为中介变量,以及它呃发挥着何种程度中介作用的步骤。 我们首先以最简单的中介模型为例,呃,来说明中介效应,分析了思路, 那么之前一直没有讲中介效应,主要是因为这个结果解释对部分人来说可能有点绕,所以,呃,我打算先用一个图片来解释一下。 我们看到这张图片,然后图一呢是自变量 x 直接作用于变量 y, 那么这个路径系数就是我们的 c, 那因为不涉及第三个变量,所以这个系数 c 就代表了自变量 x 作用于应变量 y 的一个总效应。 那么下面这一下面这一部分呢,就是在控制了中介变量 m 以后,自变量 x 与应变量 y 之间的关系。那么看到这边的 a 代表着自变量作用于中介变量的效应,那么这里的系数 b 就表示与这个中介变量 m 作用于音变量 y 的效应,那么这个 a b 就构成了。呃,两者变量间的一个间接效应。那么这里的系数 c 撇呢,就是代表我们控制的中间变量 m 之后,变量作用于音变的效应,也就是自变量和音变量之间的一个直接效应, 这是间接效应,这是直接效应,这个是直接作用于外的一个总效应,那么所以这个 c 就等于 ab 加上这个 c 撇就是直接效应,呃,就是 c 是总效应,然后这里在下这里的总效应 c 就等于下面的 ab 的间接效应加上 c 撇的直接效应。 所以我们呢,做中介效应分析,主要就是检验这个 a 效应和 b 效应是否存在,以及他们在这个总的效应中的占比,也就是体现了一个中介效应的作用程度。 呃,那么做中介效应,呃,大家一定要先理解这两张图,要理解这里的理论基础,因为后续我们的结果解释很重要。 呃,所以呢,主呃检验中介效应最简单的就是,呃,逐步回归,呃,逐步检验回归系数,那么逐步回归呢?呃, 那么首先第一步就是要检验变样系数 c, 第二也就是自变量 x 作用于变量 y 的一个总效应 c, 那么第二步呢,就是要检验 a, 也就是 x 对中介 x 对中介变量 m 的小关系。 那么最后呢,就是控控制中介变成 m 之后,然后检验方程中的这个 x 呃键直接作用于 y 的这个 c 撇效应和这个中介效应对 y 的影响 这个 b 效益。那么这里呃我们怎么样根据就是怎么样根据 a b c 撇的显著性来判断结果呢? 假设呃 c 显著,也就是 x n y 的这个 c 显著,这个是前提,因为首先就是要自变量 x 对音变量 y 有影响, 还能去讨论他们两个人之间是呃,就两个变量之间是否还存在着终结效应?如果这一层影响都不存在的话,可能就不用考虑其他事情了。 那么这边接下来我们就要考虑这个系数 a, 呃,系数 a, 也就是 x 对 m 对中介变压是否有影响?如果说要拒绝 h 零,且系数 b, 也就是 m 对 y 的影响显著, ab 都显著, 如果同时满足 ab 都显著这两个条件,那么中介效应就是显著的。如果在满足以上的条件同时系数 cpa, 也就是呃控制的中介变成 m 之后,那么 x 对 y 的影响就是呃不显著了,那就称为完全中介。那么如果 c 撇显著,我们就称为部分中介,呃,所以如果,呃,所以 如果你想得到那种完全中介的效应的话,也就是要呃,首先前提 c 撇显著,然后 a b 都显著, c 撇不显著,这就是一种完全的完完全的中介效应。 那么逐步回归的代码非常简单。呃,这里我的数据,呃,假设被解释,变量 x, 呃中介变量 m, 自变量 x, 那么首先 是呃 x 对 y 的影响 c, 其次呢,进入系数 a, 系数 a 是 x 对中介变量 m 的影响,最后检验控制 m 之后, x 对 y 的直的直接效应 c 撇儿以及中,以及中介效应 m 对应变量 y 的影响。 那么在我这个数据中,嗯,在我,在我这个数据中,我是用了,之前就是我们做调节效应用的一个切摄数据,是系统自带的,比较方便,那么我的案例中的代码应该是写在这里吧。行, 这个应该是个汽车数据 d t a, 我们先把数据调出来,不好意思, 呃,一九七八年的一个汽车数据啊。首先我们回归,呃,是,首先我们检验 x 对 y 的直接影响,也就是系数 c。 呃,我这里是我假设我的,呃,解释,被解释变量是 price 价格,然后, 呃,这边的 x 是位的重量,中间变了 m 是这个 displacement, 呃,我并没有考虑它的时间含有,我就大概给大家呃,教大家做一下流程吧,因为这个逐步回归就比较简单,主要是要理解这几个, a, b, c 撇 c 这几个关系。 我们先检验,呃,检验上面的 c, x 对 y 的直接 效应,总效应应该叫总效应,然后模型跑完,我们先把这个模型保存下来,因为我们最好是把三个模型都跑完了,然后把统一导出来,然后根据那个图标就是对着看,就比较清晰明了。 接下来呢,我们就是要检验中介,我们就要检验这个变量 a 是否存在,变量 a 就是 x 对中中介变量 m 的印象, 把这个模型保存一下。呃,接下来呢,我们再检验接下来的中介变成 m 对 y 的影响,也就是系数 b, 以及在控制 m 之后, x 对 y, x 对 y 的间接效应 c 撇 保存为 m 三。 然后我们把这三个模型都统一的倒出来 a step a step, 我之前也有教学视频,大家可以去学习,然后我们把它打开, 我们看到这里我就做出来了,呃,我们应该是对着这个一起看, 我们对着它看。首先我做的第一个模型是为了检检验系数 c, 也就是 x 对 y 的一个直,呃,一个直接的总效应。呃,这边的结 如果是什么 c 显是显著的,这个前提是显著了。那么第二个模型,第二个模型我是为了检验系数 a, 也就是 x 对对中介变成的影响, x 对中介变成的影响也是显著的。 哦,大给大家解这个,这里的应该不是 model 一,这里的是价格是 price, 请大家注意一下。然后模型二是模型二的倍解式变量,应该是我的一个终结效益, 然后模型三这个背景是背了,又是 price, 所以这里我刚才应我刚才导出来的时候应该命名清楚一些。嗯,然后首先前提,呃,前提,第一个是 x 对 y 的直接影响效 的系数 c 是指是显著的, 这个就是我们的 c。 然后第第二个模型是对中介变量,是指是检验 x 对中介变量的影响是否显著,那么这里也是显著的,那么这个系数就是 a, 嗯,哎呦, 这个是细数, 这个是系数 c, 这个是 a。 然后接下来我们后面做的是,呃,在控制 m 之后,中介变量直接对外的一个音响 b 和 c 撇,那么哪个是 b, 哪个是 c 撇?首先我们看到这里我定我定义的 中介变量是 displacement, 这个是我的中介变量,那么我的中介变量对外的影响应该是下面这个,所以下面这个就是我的一个 b 啊,不对,你在这里 b 是不显著的。然后接下来是 l x 控制中介边长 m 之后 x 对 y 的一个间接影响 c 撇,也就是位次对 price 为对 price, x 直接对 y 的,那么就是这个边这个系数,这个系数是 c 撇。 好了,我们的逐步回归结果就出来 来了,那么这里代表的就是这里的系数 c, 啊啊,这里的系数 c 总效应,这里是,这里对应的。这个回归结果就是系数 a 就是 x 对中介变量的影响。那么后面这个这个是 应该先看 b, b 是中介变量对应变量的影响,系数音响是 b, 然后这边是我们的自变量 x, 呃,对 y 的一个间接影响是 c p, 也就在控制了中介变量之后的一个间接影响是 c p, 那么我们最后的结果是,首先前提是首。呃,首先前 首先前提,那么 c 是显著的,可以考虑是否存在中介。其次呢,我们看 a 和 b, 那么 a x 对中介变量是有影响的, a 显, a 显 显著,呃,是可以的。然后接下来我们看 b, b 是嗯, b 是不显著的, b 不显著,也就是中介变量对 y 的影响是不存呃,显示是不显著的。其次呢,是 x 对 y 控制 m 之后 x 对 y 的一个间接效用,呃, c 撇,那么 c 撇呢? 反而是显著的。那么这种情况很明显,因为 b 不显著,那么在做逐步回归的时候,我们可能就这种结果,我们就直接呃,约等于是不存在终结效益的。 嗯,这一这是呃,这,这得出的结果是这种结果。那么假设我们的 c 显著, a 显著,然后这里的 b 也显著,呃,我们可能是,呃,我们可能是存在中介效应的。然后就看 c 撇,如果 c 撇是显著,那就是部分中介,如果 c 显著,呃,如果 c 不显著,那就是完全中介,完完全中介效应 啊,我不知道我讲清楚了没,我感觉自己有时候突然大脑会突然有点绕,然后这个逐步回归大概就是这样子的,嗯,所以大家一定要先弄懂这个 c p r a b c p r 嗯, 然后跑代码其实是比较简单的,主要是对结果的一个解释。那么这里想要强调的就是呢,嗯,因为逐步回归效应,它的检验力呃比较弱,就是 就是它虽然方法简单易懂,是我们检验中介效应 常用的方法,但是他在那种,他的检验检验力是非常低的,也就是说当中介效应较弱的时候呢,我们逐步检验回归系数这个方法是很难检验出中介效应的,就像我们这种情况检验不出来的。如果研究者但是反过来理解哈,如果我们用一次检验,用这种逐杯回 不回归系数去检验,呃,得到了中介效应显著的结果,那么我觉得检验力低就不是问题了,因为他既然检验力低,我们都把中介效应检验出来,那肯定就是存在的,对吧? 呃,那么还有一个问题,就是我刚刚提到的,我说,呃,在考虑 a b c p h 显著的前提下,呃,首先一定要是 c, 就是 x 对 y 的直接的总效应,一定要是显著的才有,嗯,就是自变量 x 对应变量 y 的这种效益显著是逐步检验回归系数方法的基础。但是我后面 看文献,我发现这一点也受到了呃后来研究的挑战。因为在有些情况下,嗯,这里的 c 不显著,恰恰就是因为受到了中介效应的影响。所以很多人会问,如果这里的 c 不显著,但是 ab 都显著,然后 c 撇不显著,我们应该怎么解释? 那我觉得一般情况下,呃,这里的 c 显著是必须的。呃,就是如果你从理论角度 就是你觉得你这是特殊情况,就是有因为有中介效应的影响,才导致这里的 c 不显著。嗯,你可以解释的通的,那么我也觉得也是 ok 的,这里就先给大家呃,强调一下, 所以那么这是一个问题。还有个问题呢,就是我现在我们现在这个结果遇到了个问题,也就是 a 和 b 其中有一个不显著。那么这里很多人问,如果 c 显著, ab 只有一个显著呢?就是我上面这种情况算什么呢?那么之前我我刚才提到了,我说逐步回归模型,呃,检验力比较低,如果只是做逐步回归模型, ab 有一个不显著,就算是不存在中介效应的, 那么在实其实在实践中直接和间接效应完全底色的情况并不常见。呃,所以在直接和间接效应中,大小相似,符号相反 是必然存在的,甚至会影响因变量和自变量之间的一个整体关系啊。所以逐步检验法可能会错过一些。呃,实际存在的中介效应。所以接下来呢,再给大家讲解一下另外一种 证明中介效应的方法,也就是我们比较常见的一个系数沉积法,系数 成绩法。呃,我应该在后面有对细数成,嗯,这个应该怎么读啊?索贝尔,我的英语不好就不见效了。那么这个检验细数成绩法这种,这个检验就是常用于我上面的这种情况, a b 有一个不显著的情况, 这我可以,我们可以看到这里,这是我在网上找的哈。就首先检验系数 c, 那么显著,我们在检验系数 a b, 那么都显著,检验系数 c 撇,如果 c 撇显著,那就是中介效应显著,如果 c 撇不显著,那么这就是完全中介,那么它 c 撇显著是不分中介, 那么这里 a b 如果有一个不显著,我们就做这个系数乘机法检验,如果检验显著,那么中介效应就显著,如果不显著,那么就啊中介效应就是不显著的。然后如果系数 c 一开 开始就不显著,那么可能我们一般会停止中介效应分析。但是我刚才也说了,有一种特殊情况就是 c 不显著,恰恰是因为受到的中介效应的影响,那这种是比较少见的特殊情况,如果你觉得从理论角度你可以解释的清楚,那么我觉得也是 ok 的。好吧, 嗯,接下来我们就是我们,接下来我们就来讲一下这个系数乘积法。 首先呢,安装这个命令,呃,这个叫 s g mediation mediation 是中介吗?大家知道 action 命令,那么我们可以在网上搜索这个命令,然后安装包解压。呃,放在 c 额度 plus 里面, s 里面就放在这个,放在这个念,呃。放在这个叫什么? 放在。放在这个叫什么。呃。呃。文件夹里,放在这个文件夹里,到时候,嗯,安装包的话,呃,到时候我弄一个百度网盘或者什么链接放在评论区吧。嗯,特别感谢大家对我的支持,嗯,感觉自己的支持特别有限,很多时候可能 讲的时候并没有说讲的特别通俗易懂,所以大家如果啊还有什么问题可以多留言,然后自己再多看看文献。 呃,你既然是高科研,就一定要多看文件,多看文件很多我现在讲的可能以后都有可能会被新来的检检验一些研究者去推翻啊,或是什么样的, 嗯,做统计学就是,其实是没有绝对的,我觉得。好,那我们接下来我们回到正常的,我们讲这个系数乘积法, 嗯,大家记得先安装这个命令,然后中介效应,间接效应的系数是 a b, 因此呢,我们这个系数乘机法就是检验 a b 是否存在。呃,那么代码比较简单,就是这样子的。然后首先,然后这里是放 y, 是倍解式变量, m 放我们的中介变量, i v 里面的 x 是我们的解释变量,然后 c v 里面的 c 一 c 二就是空错,就是我们的控制变量。那么在在我们的这个例子中, 我,我刚才说了,我被解释变量是 plus 价格,然后我的中介变量是 displacement, 我的解释变量就是我的 x, 呃,是 weight, 然后我们就输入这个变量就可以了, 其实他操作是特别简单的,到时候我会把文章放在知乎里面,然后其他的视频也都会播放,然后会把代码,呃,就 代码文章都放在之后里面,大家可以去学习,然后我们输入进去这里的结,这里的结果比较多,但是我们只有几个重点需要关注的,所以大家不要看出来这个结果这么复杂。 那我们第一部分看,首先我们看到第一部分,就是第一部分是中介效应的一个显著性问题,其实这个前面,呃,其实就是你看他这里提示的这是 c 系数, c, 这是系数,呃,这是 a, 这是 b and c。 撇儿,其实跟我们的逐步回归一样,结果是一样的。嗯,是不是比较简单容易看懂的,他和我们之前的结果一样,我们的系数 c 是显,呃,系数 c 是显著的,也就是也就是 x 直接作用于 y 是显著的。然后第二个路径 a, 也就是 x 对中介边缘的影响也是也是显著的, a 是显著的。接下来看 b, 呃,我 b 呢啊? b 在这里我们的 b 是呃中介效应,中介效应对应变量 y 的音响是不显著的,也就是 b 是不显著的。然后我们这里的呃,这一个是 呃控制在中介变成 m 之后, x 对 y 的一个间接影响是显著的,所以跟我们刚才跑逐步回归的结果是一致的。我们刚才做笔记了,呃, c 显著, a 显著, b 不显著, c p r 显著,对吧?是,其实是一模一样的, 放在哪里啊?对,这里他都会给你提醒。所以大家最好还是要先把这个图呃记在心中,或者是你把它画下来,画在草稿纸上,然后跟着结果去对应对应,看结果是怎么解释的。 然后呢?然后我刚刚讲的,我们接下来这个上面是一致的,接下来他会告诉你呃,成绩叙述法检验的结果。那么在这个例子中 我们可以,哎,我们可以看到这里,这里的零点七七一六是 b 让 不对,这里的,这里的总效应是,总效应是是两点零四,然后直接效应是一点八二,间接效应是 零点二二,所以说这个结果,这个结果是中介效应是不显著的。最后展示中介效应占总效应的大小,我们可以显示中介效应在总效应中占占比才百分之十点零七, 所以是这个比例是特别多的,这个就是我这个,这,这个就是中介效应在总效应中的占比,嗯,在我这个模型中我们占比才百分之十点七,是特别低的。呃,所以这个系数成绩法也显示我这个模型中介效应是不存在的。 好吧,但是不存在的, 但是我们虽然这个系数成绩法的 检验力也是高于我们的逐步回归系数的,嗯,也就是说我们的系数沉积法可以检验出比前者更多的终结效应,但是如果两种方法的都显著的话,那么逐步回归检验肯定是要强强于这个系数沉积法的,检验结果我觉得可以,嗯,可以两者一起用。 另外就是这个系数沉积法这个检验,这个检验的统计量推的,嗯,需要假设服从侦探分布,那么这一点其实是特别很难保证的,因为技术 即使 a 和 b 服从正态分布,也无法保证两者的成绩, a b 是服从正态分布的,所以这个系数成绩法检验其实也是存在一定的局限性的,尤其是样本量较少的时候,可能会被质疑,所以我觉得,嗯,大家最好 就是两两个都做,如果一定要检验中介效应的话。哎呦,我都不知道我有没有讲清楚,今天晚上大脑还有点绕, 然后大家如果还有什么问题呢,就在评论区留言,然后我会尽量抽时间统一回复一下的, 嗯,或者是大家在呃知乎上面,我到时候会把文章放在上面,如果我还有想要补充的内容的话,我会在文章里面补充,然后欢迎大家一起来学习。那么今天这期视频就到这里结束了。
我们今天主要来说一下,当我们去做时政性论文的时候,导师或者学校要求我们去做 state 面板数据回归的时候,我们要去做的一些板块。那么首先的话就是说我们面板数据的一个适用性,它的话比较适用于我们的金融、经济、会计、统计等等这些啊,偏经济类型的这个专业, 我这些专业的话,可能,呃做这个面板数据回归的话,他的嗯通过率会稍微高一点,那么下面的话就是做这个输了面板回归的这个主要内容。咱们这一次的这个 呃视频的话,主要是针对我们的这个说论写作的啊,主要是针对写作内容去进行的一个说明。那么我们写作内容的话主要分成这以下八个板块, 第一个描述性,第二个多重贡献性,三相关死模型啊。到第八个,那么我们针对每一个板块进行一个简单的说明。首先就是我们的描述性分析这块,我是截了一个已经发表的这个论文,那么这个文章的话,呃,我们看一下描述性分析,一般情况下他的这个模式就 下面这个图表,哎,他第一列就是咱们的变量,第二列是个数啊,就是你收集了多少组数据,然后我们一般情况下去标注的数值就是极大、极小和均值标准差,那么通过极大值、极小值还有我们的均值的话,我们大概就能知道这个变量他目前处在哪一个。呃,分级上, 比如说我们这个 to be q 值,他指的是这个企业绩效,那么我们看最小值零点七,最大值十三,他的均值在百分之,呃在二,那就说明我们所收集的这个研究对象,他整体来讲企业绩效是处在较低水平的,对吧?他二和零点七,呃,零点七和十三,哎,我们去去取他的均值的话,可能在七左右 啊,六左右,那么呃实际上他的均值在二,那他远远小于我们理论上算出来的均值。所以啊,这块的话,我们可以通过这种就是比较简单的方式去描述一下。那么标准差的话,他指代的就是我们说了我的整体他处在一个中等偏下的水平,那么各个企业之间的差异大小情况是怎么样的?我们就从通过标准差去进行一个说明,标准差 他越大,说明各个企业之间的波动程度越大,这是这个描述性分析。那么描述性分析他的目的主要就是去说一下我们整体收集了一份数据,那这个数据假如说我们是对企业去进行描述的,那我们收集了这些企业的分布情况,大致一个怎么样的一个情况?有没有一些极端值? 比如说这个透明 q 值,我们都知道企业绩效,那如果说我有一个极大值,他是几千或者几万,那可能这块就有点问题。我们通过这样子简单的一个排布就能够看出来我数据第一个我数据有没有问题,第二个我数据的这个均值情况,他是否符合现状啊?跟现状去对比一下,如果跟现状严重不符合的话,那也说明我们的数据是有问题的。 所以这块的话就是去简单看一下数据的分布情况,看一下数据是否贴合实际情况,那么我们做描述性分析代码的话,这是一个呃简单的代码,然后第二个的话就是多重贡献性检验,这个的话,嗯,其实有一些争议,就是有些人觉得呃不应该去写这个多重贡献性,就没有必要去写,有些人他又觉得这个多重贡献性 他是呃比较有必要的,那么我们在这块的话就可以根据实际情况啊,就是说如果我们你可以看咱们学校呃历年来的一些文章,他有没有写这个都是关键性,如果没有的话,那咱们也可以不写,如果有的话我们就给他加上,或者后期导师要求加上的话,我们就给他加上。 那么这个多重贡献性的话,他的本意是想去说我所选择的这几个变量,他的多重贡献性就是他的,他们之间没有一个强相关性, 那呃啥意思呢?就是说假如说我选了 x 一到 x 七七的变量,那如果说我 x 一和 x 二它们两个的这个相关性非常强,比如说 x 一和 x 二相关性零点九几, 那那是不是就说明 x 一和 x 二他们所解释的东西啊?有百分之九十的这个信息都解释的是同一个,那我 x 一 x 二保留一个变量就可以了,对吧?那多重贡献性的话,他其实就是去呃降低因为变量和变量之间相关性太高而导致的。对,最后我们的回归结果的一些差异,那么我们通过多重贡献性检验, 我们主要是通过这个 vif 的值,如果 vif 是小于十的话,我们就认为没有严重的都是贡献性,那如果有的话,我们就得把有都是贡献性的那个值给他剃掉,然后他的代码啊,就是这个代码。 然后第三个的话就是咱们的相关性啊,相关性他的表格的话展现就是这样子,一个倒三角的形式,然后里面的这个值的话,就是我们的相关系数啊,一般是负一到一之间,那这个相关系数的话,嗯, 也是有一些问题,就有些人觉得相关系数是不是越大越好,或者啊负向的越大越好,其实这个值的话就是多少就是多少,我们主要看后面的这个显著性。当然如果你的相关性太大了,他并不是一件好事。就我刚才提到的,如果相关系数,就你的所有变量之间的相关系数,他都非常大,比如说都大约的零点八、零点九, 那么我们就可能啊变量之间存在这个严重的贡献性,哎,导致你后面的结论可能有问题。那么我们一般的这个思路就是我先做一个相关,然后我通过相关发现,哎,我的这个系数啊,我的相关系数的话,他都比较正常,就是,哎,零点几啊,零点一, 一级,二级啊,三级啊,这些其实都正常的啊,如果没有那种满天都是零点八、零点九或负的零点八、零点九,那么我们就不用做,都是贡献性。如果你满天都试的话,你就得做一下,看看要不要去提出变量, 这是相关性分析。然后这是他的一个代码啊,这个代码简单说一下,这个前面的这个的话就是他的命令,然后后面这个变量的话,就是你要做相关性的所有的变量,把他的名字给他打上去,然后销会说啊,他就会输出来这样子的一个表格。 然后接下来的话就是我们要做回归分析,那么相关性分析论初步论述了两两变量之间的一个相关性,那么我们要进一步去论证因果关系的话,是要去通过回归分析。那么面板数据和洁面数据不一样的点就在于我们在用 面板数据去做回归的时候,是要有一个检验的,就是面板数据他有三种模型,第一个模型叫做固定效益模型,第二个叫做随机效,第三个叫做混合效益模型。那么这三种模型的话,并不是说我预先一开始我就知道我要用哪一种模型,然后我就直接用,他是要根据我们的数据去进行检验,然后 得出来我的数据最适合于哪一种模型,它是这样子的一个思路。那么对于我们经济学来讲的话,我们一般情况下用到的模型最常用的就是固定效率模型, 然后对于一些比如说,呃,心理学呀啊这些这些专业的话,他可能就更常用到的随机效应模型啊,最少用到的就是咱们的混合效应啊,如果用混合的话,那其实可能就说明我们的这个面板数据他,嗯 啊,这个不太适用于啊,不太适用于去做一个面板数据了,所以在这块的话啊,有一个这个模型检验的这个图,这个图的话就是我们分别要做的检验,然后这个 f 检验的话,我们只带就你做 f 检验,可以从这两个模型里面去挑出来一个你,我们就发现这个检验他只能从凉凉里面去挑,所以 我们要从三个模型里边挑出来一个最适用于的模型,最适合的模型的话,我们至少得做两次检验。那比如说我先我一般的,我们一般的常规速度,因为咱们是固定小于模型,就是这个 f e 模型,这个是固定小于模型,然后这个 p o l 是我们的混合 r e 的话是随机 效应模型,那我们一般呃选择的是固定效应模型,所以咱们的顺序就是先做一个 f 检验,那么做 f 检验我们显著呃这个 f 检验的这个结果通过了,那么我们就说我在呃固定效应和混合效应模型里面选择了固定效应,但是随机效应我们还没有检验,所以我要再进行一个 hostman 检验, 进行下面的这个笔检验,那么下面的这个检验就能从固定和随机里去挑出来一个。当你的 f 检验和 hostman 检验同时都通过,就是 p 值小于零点零五的时候,我们就选择固定。当你 f 检验通过, hostman 检验没有通过的话,我们就选择随机啊,这是这个,然后分别呃下面的话分别就是它的两个代码, 然后这块有我们需要改的就是这个 y 指代的就是咱们的音变量, x 指代的是自变量,到时候我们要把对应的自己的 y 和 x 带入就行,下面也是一样的, y 和 x 是要变的,其余东西都不用变。下面的话就是咱们的回归分析啊,或者说啊回归分析里面我们包含一些中介机制呀,调节机制的检验,那么我们一般会把表格做成这样子的一种形式啊,做 这种形式,然后他的这个,嗯,代码的话,我们就在这边啊,一般情况下我们选择固定效应模型的话,就上面这个代码,当然这个代码的话,他他并不是说唯一的这个代码是最简单的一种代码,就我们直接一看我大家就能记住了,哎,这就是做固定效应模型的一个代码,那么如果我们想通过代码把这个输出的结果,因为他用这个代码输出的结果,嗯,非常的这个 就是不像,不像这块这么美观啊,不用你再去调整啥,你这个做出来的那个表格的话,他还需要你后期进行整理,整理成这个样子,所以啊,这个这个代码他就不是唯一的,我们还有一些其他的代码,但是比较复杂一点,他能够帮助我们去把表做成这个样子啊,这是我们大概了解一下, 这是回归分析,那么回归分析的话,我们主要就是去解释在这一块的时候,他就跟相关系数,相关分析那块不一样了,那我们通过相关分析可以简单的去描述一下边两两两之间的一个相关性,那么在回归的话,你就重点得去解释一下我们的回归系数是正的还是负的啊?是大于零还是小于零,然后解释它的显著性是 在多少的水平下显著,对吧?然后括号里的值,我们一般把它叫做呃 t 检验的值,这个值其实跟星号他们两个所代表的呃就是他们俩,他们俩所所展现的内容其实是相同的,都是在说我得到的这个回归系数他是显著的, 然后呃基本上星号和这个 t 值是呃对应关系啊主,然后如果,比如说我们自己的数据呃不太显著,然后有人把这个数据给他改了,哎,比如说,比如说这个值对吧?负的零点五六二六,那他本来是不显著的,然后我们呃可能有些人把它改成了显著,然后他下面的 t 值没有改那么一眼,那就是咱们了解 stata 的人一眼就可以看出来这两个是不对的啊。这是这个回归分析 下来的话,就是咱们的一个稳健性,检验稳健性的方法非常多。啥叫稳健性呢?就是我用另外的一种方法去验证一下我刚刚得到的这个结论是不是正确的,或者说我得到的结论是不是一个偶然性的结论。那么我们稳健性的方法的话,就比如说最常用的替换变量法,第二个的话就是改变呃 年份,就比如说你原来研究的是呃一零年到二二年,那我现在把它改成一五年到二二年,再次做上面的回归,看一下结论是否一致。那么替换变量法的话,顾名思义就是把我们某一个关键变量的量化方式给他换掉,那么咱们一般替换变量主要是替换音变量, 因为应变量是贯穿始终吗?不管你哪一个分析,他应变量都要参与,所以我们一般就把这个像这个企业绩效,他原先用的是这个 topico 值,我们就可以把它换成比如说这个企业的资产报收率啊,企业的净资产收益率啊等等这些指标。那么把这些变量换掉之后,我再一次去做上面的这个回归,看一下结论是否有差异 哦,但是要注意的是这个结论是否有差异,并不是只代到我的回归系数一定要相同,或者我的显著性一定要相同,这块指代的就是我所用两组数据做出来的结果。哎,他的正负性是否一致啊?他的显著性是否都显著,不用去管那一颗星,两颗星还是三颗星,只要他都显著就行,这是稳健性。嗯, 我们先从这个内生性检验的含义来讲,他就是说这个模型中一个或多个解释变量与误差项存在相关关系,那么说白了,这个解释变量就指的是咱们的音变量字变量,误差项指代的就是我们对音变量有影响的其他变量。那我举个例子,比如说我们去论证学习态度对对学习成绩的关系,那么 存在内生性的这个从他的含义来讲的话,就是我们的这个自变量学习态度和影响学习呃,成绩的其他变量存在相关性。如果有这种关系的话,我们就说,哎,可能会存在内生性问题, 那么呃,他并不是说,哎,他这个含义是这样子的,但是并不是说产生内生性就只有这一个原因。我们产生内生性的原因非常多,这里我们主要说 写作过程中最常遇到的第一个叫做遗漏变量。这个遗漏变量的话,其实就是在说我们文章中,因为你一篇文章研究的内容是有限的,你不可能把所有的东西都研究透,所以肯定会存在遗漏变量问题,那么你遗漏的那些变量就可能会与你的字典 有关系,就我刚才说的这个学习态度,他可能和一个我们没有研究到的,但是能够对音变量学习成绩产生影响的啊,有关系,他们俩有关系就可能会有内生性问题。 第二个的话就是互为因果,互为因果的话就是主要指咱们的呃解释变量和背解释变量,也就是字变量和音变量之间,我们理论上是认为字变量去影响音变量,就学习态度会影响我的学习成绩,但是有有很多情况哎,比如说我觉得这个例子 反过来也是可以的,就是当我的学习成绩比较高的时候,我的学习态度其实也会有一个变化,这个就是互相影响,互为因果,那么互为因果的话,他也会导致我们的内生性问题。当然还有一些其他的,我们这里就比如说一些呃存在测量误差呀等等等,我们在这块就不再去赘述,因为他呃没有办法解决啊, 就是在我们的写作过程中。然后第三个的话就是我们当我们存在内生性的时候,我们常用的最常用的办法叫做或者说呃文呃写作过程中最常用的办法叫做工具变量法,但是还有些其他的,我们这块就不过多展开。 然后我们对工具变量找寻的要求的话,有下面这两个要求,第一个的话就是要与 x 有关,第二个与 y 呃影响 y 的其他变量无关,也就与我们的残差项无关。那么这块怎么样去解释呢?就是内生性问题,我们用工具变量法去呃去检验它的时候的逻辑其实是这样子的, 是我们现在说 x, 它和我没有研究到的,但是能影响 y 的变量,它有关系,所以导致了内生性。那我现在能不能去找一个工具变量,它既能够, 嗯,跟 x 有关系,就是它既能够代替 x, 然后它又与这个影响麦的其他变量无关。那如果我能找到这个变量的话,我就可以拿这个工具变量指代我的字变量去进行回归分析,那这样子的话 就能够确保我的这个自变量就是咱们的工具变量,到时候就变成了自变量嘛,就能够确保咱们的自变量和呃残差效是没有关系的,那这样子就能够确保最终的结论他是不存在内生性的呃,但是往往呃我们工具变量的找寻的话,它的难度非常大。就是我们 如果是说论或者不是论文,甚至本科论文,如果我们要去做内生性的话,其实一般都不建议我们自己去创造这个工具变量,我们一般都是去别人的论文或者文章里面去找,比如说我还是刚才的例子,我们去验证学习态度和学习成绩等。然后现在我导师说了,这有内生性问题,你得去找一个工具变量, 我们就在织网里这两个变量作为关键词,去搜别人研究的相关文件,去看一下别人在去解决内生性问题的时候用了什么变量,我们直接照搬过来啊,当做我们的工具变量直接去进行使用就行。 下来的话就是最后一个我们的抑制性分析啊,抑制性分析的话他呃就比较简单了,他实际上就是把研究对象去分类,然后重复的进行回归分析,他实际上,呃,因为有,有时候有有些人把抑制性他叫做检验,严格来讲的话抑制性我们一般是一个分析的内容,就是我对回归分析的进一步说明,那我回归分析,假如说论证出来 这个自变量对音变量有一个显著的正向影响,那我的意志性就是我把我的研究对象给他分成呃细小的类。比如说刚才是对企业 进行分析的,那么我们把企业分成了这个江苏,把企业按照不同的省份给他分类了,分成了江苏省和浙江省,那么我对不同的省份去进行一个回归分析之后发现,哎,是不是浙江省和江苏省他们两个之间的回归结果是有差异的?那如果有差异的话,我就要去解释一下为啥这两个省之间有差异。 当然这个分类的方式的话,他并不是唯一的,也不是说固定的,我们要根据自己的研究内容,比如说你是企业,那你就可以分成国企、非国企,那如果你是研究污染相关的,你就分成污染企业和非污染企业,还有咱们的一些呃,大规模呀、小规模呀,甚至企业成立的时间等等。
同学们大家好,欢迎来到极乐数据课堂,我是倪老师,今天给大家介绍的一款软件叫斯贝塔,它是一款统计软件, 我先介绍一下我们的课程特色啊,相信大部分同学都去网上看过一些视频,特别是连老师的视频啊, 林老师的视频其实讲的非常好,每一个视频的时长也是比较长的,内容讲的非常的细,主要是从理论然后实践操作这么整个过程来说。但是对于刚入门学习斯蒂达同学来说啊,这类的视频我还是不建议大家去看,因为 通过一个半小时的学习下来,你可能真正掌握的内容其实只有一点点,比如说你只会导入的一个数据,对吧?但是你浪费了你一个半小时。我们这个课程的特色呢,就是经练啊,比较干货,并且偏应用。 大部分同学来学习我们这个软件主要还是为了去啊做一个实证分析,然后完成你的毕业论文,或者是头一片好的旗开。 那么我们的应用其实就非常重要。这个课程啊,我们的特色就是啊,在较短的时间里,然后让你掌握斯德塔,并且能够自己去做一篇论文。 那么我们啊讲了我们的课程特色,那相信大部分同学啊,还不知道实证是什么东西,那我这边先给大家简单的介绍一下什么叫实证实证,简单的说就是去用数据验证我们的一个结论。 那怎么用数据去验证我们的结论呢?我再举一个粗俗的例子啊,比方说我们现在有一个研究主题,就是想研究饭量对上升高的一个影响啊,我们都 知道饭吃的越多,人就长得越高,对吧?这个其实就是我们的一个理论预期,现在我们去找一份数据,比方说你把全国所有人的一个 饭量以及身高的数据被统计下来,然后我们去研究这两者的关系,基于这一份数据去研究这两者的关系,并且得到了 饭量是促进长升高的啊,那你现在做的就是一个实证分析,就是通过数据去得到一个结论。好,那么 我们现在来看一下整一个课程啊,我们会讲到哪些东西啊?接下来我们所有的课程就是按照这一个思路来的,那这个思路我主要是按照实证分析的啊,一个框架给大家梳理的。那么在做实证分析之前,大家都知 知道啊,我们需要有一份数据,那这份数据我们肯定是要对他进行一个整理和清洗,不然的话你是没有办法进行实证分析的啊,除非你这份数据是哪里买来的,对吧?相信大家自己下载下来的数据啊,都是一份一份零散的,必须要进行清洗和整理。 那整理完数据之后,我们要做的就是实证分析了,实证分析主要分为四个模块,第一个就是对于你对于你前面那份数据的一个描述性统计啊,它里面主要分为五个,一个是 n 就是你的样本量, me 就是样本的一个均值啊, m i n m a x 就是样本变量最小值和最大值, sd 就是标准差,主要包含这五项指标来对你的数据进行一个详细的描述,做完数据描述之后就进 我们的第二步主回归,主回归就是去验证我们这篇文章的一个主题结论,也就是主要的结论 还是从我们前面的那个例子来说,我们想研究饭量对长身高的影响,那么你的主回归就是要去验证你的饭量对你长身高的影响是什么?是促进的还是意志的?那当然这种影响我们必须存在于一些模型去做。 接下来我们的课程中啊,会讲 ous 模型,也叫混合回归模型, fe and r e 这个叫固定效应模型和随机效应模型, gmm iv 啊,以及 did。 did 这个模型呢,其实和前面的模型差别有点大,它是一个啊,独立的模型,就是跟前面其实没什么关联啊,为什么要讲 did 这个模型?因为这个模型现在比较流, 而且他发好的期刊非常好发,所以说我把它单独拿一块出来讲。第三部分叫扩展研究,也叫深入研究, 也就是把我们的文章的结论进一步挖掘,我们验证了饭量会促进一场升高。那么如果我把这份样本划分成两份,一份是男性,一份是女性,我们去比较男性和女性之间的一个差异,也就是吃同样的饭,男的长得高还是女的长得高, 这个其实就叫深入研究啊,也就是我后面给大家列出来的一个分组回归这么一个东西。当然我们后面还会介绍更多的一个深入研究啊,就是中介效应以及调节效应。 第四部分就是我们的稳健性检验了,稳健性检验主要是对我们的主回归进行一个进一步的验证,也就是你前面做了一次,结果其实 存在一定的偶然性,不太可靠,我们让这个结果更可靠一点,就要做一个稳定性检验。稳定性检验 啊,主要是包括以下三种方式,一个是替换变量,一个是变换模型,一个是数据样本的变换。 我们前面用吃饭,用饭量,呃呃,我们前面去研究饭量对长身高的影响,那么饭量如果我们前面是用一天吃饭的次数,就是吃一次饭还是两次饭,吃三次饭来衡量的话,呃,我们可以得到吃饭的次数越多, 你的身高越高,其实也就是验证了饭量越大,你的身高越高,对吧?那么如果我把这个次数 啊变成另一个东西,就是饭量,我不用次数来衡量,用我一天吃几斤大米来衡量,那其实吃的大米的斤数越多,也其实能够 说明我们的饭量越大,对吧?从而也是验证了我们饭量对长身高的影响,就是说把次数换成了吃几斤纳米, 这个就叫做替换变量的五金星。当然我们的方法还有后面两个啊,这个在后面的课程中我们会给大家强详细的介绍。经过上面四个步骤啊,其实我们就把 整个实证分析给做完了啊。在做完实证分析之后呢,我们其实还要讨论一下文章的一个内存性 啊,内生性它是一个问题,它会造成你回归结果的一个偏恶,所以说这个问题啊非常重要。为什么重要? 因为我们在发一些比较好的期刊的时候,神高老师只要看到你的文章中没有去讨论这个内存性,你的文章一定会被 d 稿,所以说我把它单独列为一个专题来给大家进行详细的讲解。 呃,接下来就是我们显著性调整的一个专题课,因为我们理论是理论,实际是实际,真的我们去做一份实证的时候,你做出来的结果往往是不显著的 啊,基本上两篇里面就有一篇是不显著的,那这个时候你怎么办呢?不是说直接换个题目对吧?或者是重新再找一个数据去做,我们其实是可以通过合理的计量方法给他调整到显著的啊,所以说这一个专题课程呢,实用性非常的高, 到这里为止,我们整个实证分析就已经做完了,那么接下来你就是要去写你的一个 论文的文字了,那么论文的文字其实它里面也有很多的讲究,也有很多大家不了解的东西,接下来我会给大家梳理,就是论写论文的一个重点是在哪里?就是每一个 章节里面到底该怎么去写他,你的导师才会喜欢,省高老师才会喜欢,文章才会更好发。最后就是我们的一个实战训练营,就是基于我们前面学过的一些内容,我会给大家进行一些实战训练啊,来巩固我们所学的一个内容。 最后的话我再给大家看一个呃,实证做完的一个呃案例是怎么样的? 刚刚我们讲过啊,实证分为四个模块,一个是描述性,那其实这个就是我们描述性统计的一个表格做出来的样子,就是这样子的啊,其实这个表格并不需要我们手动去做啊,斯贝塔 会给我们直接输出出来,最后就是长这样。第二块就是我们的主回归,也就是去验证 x 对外的一个影响 啊。最后做出来的表格是这样子的,这个其实软件也会直接给我们说出来,通过银行代码就可以了。 第三部分是扩展研究,其实我们这里做的扩展研究也就是对样本进行了划分,分为的 state 为零, state 为一的两个样本,然后去研究这两个核心,解释变量对你应变量的一个影响是怎么样的 啊?这里其实就是做了一个分组回归。最后第四步骤就是我们的稳定性检验,也就是 啊对主回归的结论的进一步验证。这里用的方法是替换变量啊,但是这里做了两个,一个是替换了 y, 还有一个是替换了 x。 前面我们可以看到用的都是罗恩佩特的,一,这边换成了罗恩佩特的,二替换了音变量,然后前面用的都是 siri ems, 二,一,这里替换成了 siri rms, 二, 替换了你的核心音变量,这个叫替换,呃,变量的一个文件性。好,那我们第一节课就先上到这里。
大家好,欢迎来到水塔数据分析入门课程,我是车水老师,本节课我们来讲一下数据的基本统计量, 主要分为三个部分,第一部分呢是基本统计量,第二部分是分组统计,第三部分是如何将结果输出。 首先我们来看基本统计量三 plus 这个函数呢是上节课我们已经讲讲到过的,我们就嗯不再详细的讲了,在此基础上呢,我们再学学习两个命令,分别是 codol 喝不可能是用来呃统计分位数,也是在呃是在分位数统计的基础上呢,在附加直方图,让我们能够更加详细清晰 记得看到每一个变量他是如何分布的。我们来用 sita 实力操作一下,首先打开 sita, 打开杜文档,开始 先用配眼,然后呢记得将这个度文档先保存一下,比如说叫嗯基本统计量,然后我强烈建议大家 在看视频的同时,跟着我一起来运行一下这些代码,加深记忆。我们先调用一份系统资料 ccu, 这个时候呢这个数据就已经进来了。然后 我们还是先回顾一下上节课讲的萨姆拉斯这个命令,那他就可以给出每一个变量的均值标准,差距小值,最大值这些的基本统计量。 然后在这个基础上呢,我们来学习一下,那我们运行 大家看看是什么结果就发现呢,他每一个变量的这个描述性统计都给出来了,我们挑一个看一下,比如说我们看这个 plus 这个变量,他首先在最前面的时候呢,告诉你这个字符串形 什么,有多少个变量,然后有几个祛湿纸什么的都给出来了, 然后对于每一个变量呢,他也给出了详细的这个描述性统计,比如说对于 pros 这个变量呢,他告诉你这个存储类型呢是数值型, 嗯,然后这个变量的区间呢是从三千二百九十一到一万五千十五万九千零,不对,一万五千九百零六,不好意思, 这这个区间之间,然后呢有七十四个不同的数值,然后呢有零个缺失值,均值标准差,然后百分之十,百分之二十五,百分之五十七十五、九十的这个分位数分别是什么?九 都给出来了,就是比较详细的给大家呃展示了一个这个数据的全貌。 然后呢这对于分组统计量,比如说这个 r、 e p 七八呢,他除了给出之前的这些基本的描述之外呢,他这里给出了有五个缺失值,并且呢给出了每一个变量每一个数值,因为这一个 i e p 的七 i p 七八这个数值分为 只有五五个数值吗?只有一二三四五。然后呢你看他这个不同的数值也是有五个,然后每一个数值分别有几个对应的几个电量也都给出了,比如说,嗯,电量这个观测值是一的时候他有两个数据数值, 二的时候有八个数值,三的时候对应三十个数值,这样非常的详细。然后呢比如说这个,还有这个他也是一个分类变量, 给出了一点五的对应的有四四个数据对应的是一点五,十三个数据对应的是二,然后十四个对应的是二点五,就是非常的嗯,详细了,嗯, 大家可以发现他这个规律啊,就是如果是连续型变量呢,他就会给出百分之十二、十五、五十七、十五、九十的分位数的一个值。如果是分类变量呢,他就会给出每一个分类条件下他的这个 有多少个值,就是频率平数。对,然后在此基础上呢,我们来学习一下因斯坦克这个命令,因斯坦克斯来运行一下,看一下,那呢他 也是就是每一个变量都给出了详细的这个描述性统计。我们来嗯一个一个看一下,比如说对于嗯 max, 比如说对于这个 plus 这个变量呢,他给出了正数有多少,负数有多少?零有多少,然后呢一共有多少个值?确实值有多少?一共有多少个值?然后呢最 嗯最特殊的地方呢?他左边给出了这么一个图,这个图呢他能给大家看出来就是一共有七十四个不同的值, 最小值呢是三千二百九十一,最大值是一万五千九百零六。然后呢给出了这么一个图呢,就很像一个嗯,柱状图。呃,然 以后比如说对于这个 r、 e、 p 七八这个变量呢,他还给出了一共有六十九个观测值,其中有五个缺失值,不是,其中在一共有六十五个缺失值,然后呢有五个缺失值,一共呢是有七十四个数, 一共有七十四个数值,嗯,是对应的整一整套数据一共七十四个数值。但是对于他自己呢,一共有六十九个数值,然后还有五个趋势值,然后这个嗯柱状图呢,我猜测他跟 分布的脂肪图是一样的,但是不知道一不一样,我们来验证一下,比如说这个黑润这个变量,我们来画出他的脂肪图,黑色不染,呃,黑润。 然后我们运行一下就可以看到呢这个他的柱状图是这样的, 拍的是我们刚刚那个。啊,对,在这里你就可以看到这个脂肪图呢,跟他这个分布是非常一致的,所以这个呃 我们就可以发现这个 inspx 的这个命令呢,可以在扣扣这个命令的基础上呢,有一个嗯,创新,就是不同的地方,就是他可以给出嗯分布分布的这个样貌, 我们可以在这里加一个注视,可以附加分布图这个功能呢是非常非常的优秀的。 好,我们学了这个三种分基本统计量的方法呢,我们再来学习如何做分组统计量。我们主要学习三个命令,第一个呢是 tibelax 啊,简写呢是太,他用来分类技术。第二个命令呢是推爆,他可以用来分类统计。第三个命令呢是 topstart, 他可以给 写出我们论文格式里面的嗯描述性统计,我们一个一个来试一下,比如说 tbays 分类技术的这个功能呢是,嗯,适合 和于分分类变量的,我们来用一下,因为 r e p 七八是一个分类变量,我们用 r e p 七八呢来试一下, 就发现他会给出二一批七八的对应的五个数,对应的平数,对应的 笔直以及累积的这个笔比例,然后又发现他一共有六十九个数值,然后呢一就是嗯 一共的这个百分比是一百分之百,然后累积的百分比也是百分之百,这样是很方便的,能看出每一个变量下呢他 数值有多少,而且占的比例有多少?刚刚说了 top 是他的那个简写,我们来验证一下,二一撇七八, 他的结果是完全一样的,嗯,然后第二个命令呢,是推宝,我们来看一下推宝他会发生什么样的结果呢?推宝啊,一瓶 七八,然后推广 led。 七八呢,他只给出了每一个分组下面的评数,并没有给出频率。 但是推爆这个命令呢,他可以,嗯,在后面添加更多的那个描述性统计,比如说方瑞这一, 嗯,这个变量呢,也是分类变量,我们可以看一下,他也是分类变量,但, 但是呢,推爆这个命令呢,他可以给出,比如说呃二一批七八有五个类别,丰丰润有两个类别,那我想知道,比如说呃 r ep 七八是一的时候,对应的到 mac 格号 forry 这两个类别下的数值分别有多少个?也就是交叉的统计。黑宝石可以实现这个功能的,只需要在后面添加嗯,两个这个变量的名称就可以 在后面添加。二一撇七八和方锐来看一下,就会给出这个交叉的统计。二十七的意思呢,就是二一撇七八等于三,同时 cartype 是到 max 借口的时候,嗯,他的 变量个数是二十七,这样统计呢,是非常非常的方便的。嗯,推爆还有一个,嗯, 更高阶的功能,就是这里一共有五乘二十个类别,那如果这里面的数值,我我并不想知道他每一个类别的个数,而是我想知道在每一个类别里面他的价格分别是多少。 那我们也可以实现,只要在只要在后面添加一个选项,就是 c, 比如说我想知道价格的均值,那我可以在后面添加均值,价格就可以了, 这个时候呢我们就可以知道,呃,每一个类别下面呢?嗯,价格的均值分别是多少?如果我这里不加这个均值,只加这个 pros 的话呢,他出来的结果就是 啊,不可以的。所以我们只能在前面加一个,就是你要统计 plus 的什么,比如说我想知道 plus 的,呃和,那我在前面要加一个萨姆,就可以知道每一个变量, 每一个分类下呢,这个价格的和分别是什么?然后第三个命令呢?是 tfbex, 这个命令也是非常非常重要的一个命令,嗯,他的用法呢是太, 然后呢要后面跟上你要想统计的变量,比如说我想统计 plus 和 mpg 和 ip, 嗯,然后后面呢要添加一个选项,再次就是 那这个简写后面你要加入你想统计的,嗯,统计量,比如说我想知道他的个数,这个观测值的个数,均值 均值标准差,最小值,最大值,这些呢都是我们论文里面比较常用的。这么一些统计量还不是单词。这里那我们来运行一下 stats, 那我们就可以看到每一个变量的这个基本的描述性统计量都可以给出了。但是在那个论文里面呢,他一般都是,呃在第一列写变量的名称,然后在第一行写 统计量。这个时候呢我们需要添加一个选项,我们还是用三个斜杠来分,分开两行添加一个 coms, 然后呢来再运行一下,就发现了这个就更像是论文里面的那种格式,就是每一个变量的基本统计量都会给出这个,嗯,命令呢是非常 常用的,一定要学会。然后第三部分呢是学一下如何输出结果,我们用 as 到这个命令来输,直接将嗯,我们的结果输出到位, 比如说 a s fuck, 然后我想直接在后面添加我们要进行的这个命令就可以了,比如说我想描述一下出来这个 这个变量以及二一 p 七八以及 mpg, 那我们来 运行一下。好,这个是我们的结果。然后呢这里有一个麦发芽点到这个的名称呢是。