粉丝0获赞0
各位同学大家好,接下来的话我们介绍关于历练表分析和卡方检验,嗯,然后列列表分析,卡方检验的话主要就是用到这个 tap 和 c h i r 卡方,然后这些都是算他相应的期望值之类的, 然后他这里就会出现一些不同的结果,我们都可以自己在做的时候会试一下,这边就会出来相应的列联表。 嗯,接下来的话我们就可以看一下 如果做 t 检验, t 检验的话他就是 ttes 的,我们要检查那个变量,然后我们要是一个二分类的话,那么就白针的,然后的话在百分之九十五的水平下也是不均等的检验,都可以做,都可以进行运行,然后封插奇经检验的话就是 sdtes 特,然后 一单因素和放叉分析,就是用弯位,然后还可以用放叉分析的话可以用 an n novo, 这个是我们的一个单音素放叉分析,然后这个 novo 也是我们的一个防晒分析,这边的话我们可以画三点图,他这里是用到了一个 lift 利福特出来的话,就会看到我们还画了一条线,这个就是可以做那个相关系数,并且带线带有线条的相关系数,这个是关于相关系数表,我们可以做各种皮尔逊的之类的, 然后单变量的侦探性检验,我们有 sk test, mv test, 然后对竖进一卷, 让他满足正态项目可以用到这两个代码, laderglider, 然后这里有四匹阿曼相关系数,肯德尔相关系数, 这边的话就是我们主要的一个关于嗯,历练表以及风差分析的一个主要代码。好的,谢谢大家。
大家好,我是文龙,上一期讲了啊,宫廷效应模型,宫廷效应模型的数据必须是面板数据,所以呢,这期呢,我就给大家讲一下面板数据啊,所以里面的一些模型的 呃,比如固定教育模型、学习教育模型和混合模型,然后讲一下咱们的区别是什么? 呃,那区别主要是可以根据个体效应或时间效应与解释变量的关系来定义。固定效应模型还是随机效应模型? 如果个体效应与某个解释变量有关的模型称之为个体效应模,个体固定固定, 个体固定效应模型。然后如果时间效应与某个解释变量相关呢,则称为时间固定效应模型 啊,如果个体效应和时间效应均与某个解释变解释变量相关,则模型可称之为双向固定效应模型。这三个呢,之前在内生性里边已经讲了,内生性里边的固定效应已经讲了。 呃,想要了解的呃,小伙伴可以去在去内容性里边,内容性里边的工作效应模型里边去了解一下。 然后第四种呢,如果个体效应和时间效应与所有的解释变量均不相关,则模型可称之为随机效应模型。然后最后一种是混合模型,就是不存在固定效应模型和随机 校园模型。具体是怎么回事呢?有个随机校园模型,随机模型是存在个个体 纯净的教育朋友学,毕竟是存在个体效应和时间效应,但是呢,他与那个这个,但是效应呢,与 x 是相互独立的,就是说,呃,我们的 mu 与 x, m 是个体效应,与 x 是不存在关系的,并且 呃, vp 那个那个时间效应与 s 也不是也不存在相同关系,如果存在的话就用固定效应,不存在,但是呢他还有固定效应或时间效应,那样,那这种情况呢,我们就要就用随机效应模型, 实际项目就是用模型是 s t r e g, 然后结果用 r e 呃固定项目模型是 i f e, 这是随机呃随机项目模型的代码。 首先呢,我们还是要呃,还是要把我们因为面板是那个那个,那不是面板数据吗?我们还还还要设置一下, 把它数据呃,让系统默认为是知道是密码注定。 然后我们首先运行是十一效应模型,是存在个体效应的, 然后呢, 然后呢,如果我们想运行那个存在实践效应的模型呢?就是在就是在 r e 的后边加个 i 时间,它就是运行的呃存在实践效应的的随机变量模型。 然后呢,这个随机编选模型呢?没有那个双因素要解决,那个双因素就是既是实践效应又是个体效应的问题呢?呃,解决的方法就是通过固定一个项再做随机效应, 他没有同时两个啊 state 是没有同时能解决这个办法的,所以他就是把一个控制住了,然后另一个在运行,在运行这个飞机效应, 他先把固定个,把那个个体效应固定了,然后再再把时间要有那种随机效应。 你既然有了固定效应和随机效应,但是我们如何来选呢?是通过奥斯曼检验,奥斯曼检验是原假设呢?随机随机效应和固定固定效应是无差异的, 那如果拒绝原假设呢,则采用固定效应模型,否则为随机效应模型,就是当 p 大于零点零五时呢,就接受随机,接受随机效应, 就是不能拒绝演讲成接受 cc 效应,因为呢 cc 效应的效率更好。 当 p 呢小于零点零五的时候呢,就要选择固定效率,因为随机项结果会有偏差。 奥特曼的检测,检查,检验呢,其实就是呃,检验这个随机效应模型和固定效应模型,他俩是不是无差异,所以呢,检验这个 cos 就是先运行一下 固定校园模型,这是运行的固定校园模型,然后把这个固定校园模型结果 给保存下来,保存成这个前面这个是不固定的,让 fe, 他就是你保存的名字。 然后呢,我们再再运行一下随机教育模型,然后呢把它的名字变成那个保存为 r e 随机教育。 然后呢,我们再用 houseman 比较 f e 和 r e, 所以 consent 呢,就是说是否显示常用降,是否显示这个,这个值 你可以放也可以不放,因为因为结果主要看这个是不是体值一百六,是不是大于零点零,所以呢,我们结果 是 p 大于零点零五,那么 p 大于零五呢?零点零五呢?接受学习交流, 因为啥呢?因为学习学习向上运行的效果更好,效果也更高,他俩提升结果应该是没有偏差的,但是呢,学习向上的效果呢,效果也更好, 所以说我们就选择随机要求,随机要求, 然后混合模型呢,混合模型呢,就是就是不存在固定效应和随机效应,那么其实它就是和我们平时就做的 o l s 一模一样,那么它不存在个体交流,实际的也就是说 这两个 u, 那个 miu 和 v 它俩是等于零的,也就是呃,我们平时做的一个 o s o l s 回归这个就不运行了,大家都知道, 所以呢最后总结一下区分,用什么区分什么模型呢?主要看他是否那个区分是否用固体效应还是随机效呢?主要看这个他这个效应是不是和解释变量有相关的,如果没有相关呢,他就是用随机效应, 然后呢就不存在固定效应和随机效应呢?那就是用混合模式。好了,今天就给大家啊讲解到,讲解到这里 有什么不明白的可以留言,谢谢大家,再见!
我们开始第二点三节 stay 塔操作,实力啊,其实呢,学习 stay 塔的最快的一个方法就是说你能找一个具体的数据级,那么跟着操作一遍啊,也就基本上都懂了, 因此呢,我们就使用一个数据集叫做 greek small 啊,这个是一个 excel 表,就是原始数据呢,是在一个 excel 表里面啊,那么这个为了演示的目的的,那么这个啊,数据级呢,是比较小的啊,就是总共是包括了三十名美国年轻男子的这个教育投资回报率的数据 啊,那么这个呃,本门课程所使用的所有的数据集都可以在我的这个个人网页 www dot economic tricks 啊,然后中间一个小短横 stata com 可以下载,包括所有的课件 啊。那么首先我们讲一下怎么样导入数据啊,就是说你要用 step 来处理数据,那么应该做的第一件事情就是说把你的数据及给输入到 step 中间去啊,那么最简单的方法啊,就是我们是以这个 excel 表输入数据为例了,因为 啊,绝大多数的原始数据是以这种 excel 表的形式存在的啊,所以我们就以这个 excel 表为例,那么如果是其他形式的话也可以啊类 是的,我们后面再交代一下,那么啊,这个基本的方法比较简单的一个,就是说你可以从直接从 excel 表中间把那个你要 导入的数据给他啊选上,然后复制,然后粘贴到 stat 里面,有一个数据编辑器里面啊,那么这样就可以完成 这个这个数据的导入。那么首先呢,你打开 style 软件之后呢,那么你可以看到这个有 一一行在菜单下面有一行图标,对不对?有一些这个小卡 key 啊,快捷键,那么你看到这个有一个这个鼠标指向的这个地方啊,这个图标呢,是一个类似于 excel 表的一张表格, 然后呢上面有一支笔,对吧?这个就是叫做 detailed 啊,就是一个可以在上面编辑的一个这个数据编辑器啊, 那么旁边呢也是一张表啊,也是一个表格,只不过上面的是放着一个放大镜,那么这个是 data elite browse, 就是说啊,他是一个数据编辑器,但是是只能看的,不能改的啊,那么这两个的区别是这个,那么你就点击 这个有一个啊,上面有一支笔的这个 data editor edit 啊,那么这样话就能够打开 stata 的这个数据编辑器啊,就是这个 data editor editor 啊,然后你把鼠标呢放在这个数据编辑器的最左上角这个地方啊,因为待会你要复制粘贴过来的时候,你要从这里开始啊,然后呢我们就去打开这个 excel 表的这个文件啊,你用 啊 excel 啊,去打开我们的这个 greenix small, 然后,呃, that xls 啊,这表示说这个是一个 excel 表的一个扩展名的文件, ok, 那么这个是一个比较小的数据级啊,你看就是有商列数据啊,那么第一列呢,这个第一行就是这个数据的这个变量的名称啊,比如说第一列是 s 啊,这 表示 schooling 啊,因为这个是关于教育投资回报率的一个数据啊,这是教育年限。 然后呢这个第二列呢,是 experience e, x, p r, 这个是工龄啊,然后呢第三列是 l n, w, 就是 lockwage, 就是你工资的对数,然后这个数据呢,总共是有三十行啊, 啊,那么你就把它都选上啊,然后就是啊,这个复制啊, ctrl c 啊,然后呢,你就再把它粘贴到啊,刚才的这个 data, 艾迪特,艾迪中间去,你可以用这个 ctrl 啊,就是把它再粘贴到这个地方, ok, 那么当你选择 ctrl 粘贴的时候, ctrl v 的时候呢,这个数据编辑器会出现这样一个对话框啊, 会问你一个问题,就是说啊, the first row on the clipboard contains values that can be used as value variable names 啊,这句话什么意思?就是我刚才复制的那个从你色表里面复制过来的啊,那些三十一行商列的啊,因为第一行是这个变量名,对吧?所以他也发现了,就说你第一行并不是真正的数值型的,而是属于制服型的, 所以就是有可能这个并不是数据,而是变量名,那么他就问你说, do you want to treat the first role as well variable names all data 啊,那么你要给他个答复,对吧?那么对,在我们这个例子里面,我们应该选择就是这个 variable names 啊,那么在有些情况下,有可能你的这个数据确实就是制服型的啊,不见得一定都是那个数字型的,那么在那种情况, 大家你就应该选择 data, 如果是 data 的话就选择 data, 那么在我们这个案例中间,这个是 variable names, 这个是电量名,那么就应该选择这个, ok 啊,然后呢这个 啊,那么这个是导入数据的一个,这个最基本也是最简单的方法。
大家好,欢迎来到 sita 数据分析入门课程,我是车水老师,本节课我们来进行第一节 sita 的简介, 主要包含三个部分,分别是熟悉随他的界面,熟悉随他的基本设定以及设置我们自己的工作目录。首先我们来进行第一部分,熟悉一下随他的简界面, 所以他的界面呢,包括四组窗口,两个菜单栏以及一个 输出结果窗口。四组窗口呢,分别是历史代码窗口,密令栏窗口,变量栏窗口以及数据性质窗口。在此基础,在此基础上呢,我们要学会如何浏览数据 和使用度文档。我们来打开斜塔,实地操作一下。双击打开, 我们发现,呃,最先映入眼帘的呢是中间这一部分,它是我们的结果输出窗口。呃,四个窗口呢,分别是 历史代码窗口,是最左边的这一列,比如说我在命令窗口进入一行命令之后呢,在左边他就会出现这个历史记录,如果我双击这历史记录的某一行,他就会重新再运行一次。 第二个窗口呢是命令窗口,我们可以把塞塔的指令呢在这里面建入,然后按回车就可以执行。第三个呢是变量窗 窗口,在右上角,我们可以在这里呃看到每一个变量的名称以及他的标签。第四个窗口呢是性质窗口,在右下角我们可以看到这份数据的名称,标签。呃,数据类型以及 嗯,变量的个数和观测值的个数以及这份数据的大小等等。然后两个菜单栏呢,在最左上角呃,用菜单栏我们可以进行一些基本的统计分析,做图,导入,导出数据等等都可以。 然后呢第二行呢是我们平时用的比较多的,比如说打开文件保存,嗯,然后打开读文档,浏览数据等等。嗯,在 基础上呢,我们来学习一下如何浏览数据。我们主要用的是这两个按钮, 这样单击就可以出现我们的数据,然后第二个按钮也是一样的,他们两个的区别呢就在于第一个按钮可以修改数据,比如说我第一个是一,第二个是二,呃,这个技术上 如果我想要修改的话呢,我打开,比如说我想把第一个数据变成零,那我就直接可以是零 就可以了。但如果我用这个第二个浏览数据的窗口呢,我想把它这个数据再变一下,就不可以这样直接改了。 所以在平时的使用过程中呢,我更推荐大家用第二第二个指令,它类似于指读,呃,这样呢,我们可以减少我们嗯,误误操作导致的数据的变化。然后 接下来呢,我们要学会使用杜文档,杜文档呢,就是这个类似于幕布一样的按钮,我们单击可以打开,在这个里面我们可以写入我们的命令,然后呃选中纸, 点击这个三角形就可以运行。克里尔的意思呢是清除数据,那我们就会发现这里面的数据刚刚进入的数据已经没有了。呃,相比于运用这个命令栏呢,相 我更推荐大家用杜文档,因为杜文档呢,我们可以随时的修改保存,以及和合作者同时使用的时候,我们可以把我们的写过的杜文档发给对方,然后在对方呢在你的杜文档基础之上再进行 修改呀,运行之类的都是可以的,这样就更方便更有嗯,修改的余地和更有操作性,也对我们的合作有一些有很大的帮助。嗯,比如说我们 来举个例子,如果我想浏览一下系统的数据呢?我们用 ccuse 这个命令,比如说系统有一份数据叫做 out, 嗯,我们可以 选中,然后点击这个三角形运行一下,就发现我已经把这个,呃一九七八年的机动车的数据 已经掉入进来了。是这个,那我们就可以发现呢,在看右上角可以看到变量的名称和标签,右下角可以看到这一份,嗯,变量的名字, 呃,数据的名字以及数据的标签,然后观测值的个数,嗯,变量的个数都是可以看得到的。好,我们 现在呢来看一下随他的基本设定。呃,因为刚刚开始了解一个软件的话,我们要呃把它设计成我们 喜欢的样子,我们如何设置呢?在 id 的这个里面呢,最下面有一个 praprans, 我们打开这样的 praprans, 我们就可以设置我们这个界面的, 呃显示的属性,比如说这个这个里面有主题,是标准主题,或者是呃什么经典的主题都是可以的,比如说我用标准主题点击 ok 就可以了。呃, 然后呢,第二个我要说的是要学会嗨老婆功能,可以让我们的效率事半功倍。比如说有一个命令叫做三木 s, 是用来做描述性统计的,但是呢,我不知道这个三木 s 是什么意思,那我就要在前面 加一个嗨,然后呢,嗯,直接回车来执行一下这一份,这个代码就可以出来了,他就会跳出来一个嗨,要普文档,告诉你这个三 ms 的命令是用来干什么的,他首先跟你解释这是一个用来做描述性统计的命令, 然后告诉你这个秘密应该怎么用。呃,首先进入三木 s 或者是 su, 就代表了三木 s 这个单词,然后 后面呢加入你的,嗯,变量的名称,后面再加 f 选项,应选项括号呢代表嗯,可加可不加是, 嗯,可以根据自己的需要去加的,然后可以加一些选项,然后有哪些选项呢?后面都会给你列出来,然后呢在后面他会 告诉你用菜单栏呢如何实现这个功能。呃,然后后面呢会给你举一些例子,让你更深刻的来理解这个命令。 所以说如果遇到一些不会使用的命令的时候呢,我们一定要学会使用哈尔普文档,然后也要学会如何阅读哈尔普文档。好,第三 部分呢是设置我们的工作目录,首先我们要来看一下当前的工作目录,用 p wd, 用 p wd 这个命令来实现。 没车,我们就发现当前的工作目录呢是地盘下的四件套。呃,那如果我想改变我的工作目录该怎么办呢?我用下面这一个命令 cd, 然后呢再把我的想要进入的目录在 写进来,比如说我想进入的目录呢是 f 盘。好,那呃,我已经设置到 f 盘,我们来验证一下,用现在的 p wd 发现呢当前的工作目录呢是 f 盘了。呃,还有一个呢是要查看系统的目录,用 casd 啊, diydl 呢,就是 draxdrax, 就发现呢有,所以他呢有六个文件夹,然后分别的系统的路径在哪里?我们如果想改变其中的一个呢?啊?当然是 都是可以改的。我这里演示一个,比如说我想改变这个 plus, 他的路径用 cs 镜。 啊,我想改变 plus, 所以我要把 plus 加进来。然后你想改到哪一个路径?比如说我想改到 fpard, 比如说我想改到地盘的四件套 的 a 度下面的 pass。 那执行一下就可以了。那我验证一下我这个改成功了没有?再用一下 cs, 然后呢就发现我的 plus 已经到了我刚刚设置的这个目录下面了。好,这就是本节课的内容, 我们学习了 cta 的界面、 cta 的基本设定,以及如何设置我们的工作目录。
哈喽,大家好,今天是二零二二年一月二号,祝大家元旦快乐呀。那么今天这期视频呢,就是很多人一直催我的关 关于动态面板模型 gmm c 的操作。嗯,其实他的官方名称呢,是广义,据估计 原理就是回归,其实就是一种高级一点的回归吧。那么为什么要使用这个方法,和谁使用以及注意事项呢? 大家可以再去搜索学习啊,学问很多,这里我就直接教大家啊,实际的比较简单的 set 操作步骤是保证新手也可以看得懂,可以做出结果来,但还是建议呢,大家在使用这个模型之前呢,一定要了解一定的呃, 基础知识,比如什么是内生变量,外生变量,工具变量是相关等各类问问题。 嗯,如果不太懂,也没有时间学,就建议使用。嗯,最小二乘法呀,或者是固定模型这类比较简单的回归。 那么废话不多说,接下来就直接跟着我一步步操作吧。嗯,首先呢,我们还是打开我们最常用的一个教学数据,也就是我卫生费用的相关面板数据。呃,仍然是实际外是因变量,然后自变量是 x 一到 x 七, 那一般我们都比较常用,取对数之后的数据进行回归。嗯,如果是小于一的数呢,我们通常会建议可以转换为百分比,千分比,那么保证数值大于一。 那么原始数据的处理方式有很多种,大家可以自行选择。那么在做回归之前呢,我们一般 都会先做一个基础的一个相关性的分析。嗯,这里我把代码放在右边,就是方便大家观看啊,我们直接复制过来,然后回车键我们就看到相关性的分析就出来了,那么这块比较简单,我就不过多讲了。嗯,接下来呢, 我就直接开始我们的动态回归啊,先安装我们要用的秘密,我们现在最常用的 gm 呢,是 xtab 二,就是这个秘密,安装秘密还是 ssc in store 好了,我们安装好了这个呢,我们就开始呃,使用具体的一个例子来给大家教学示范啊。那么我先把这个语法粘贴过来,然后给大家讲解。呃,这个都是什么? 首先呢,前面 s t a b 二我们就不讲了,然后后面呢,请跟的是音变量外,实际我的是实际卫生费用,那你们的是什么?就先放在先放音变量外,你想放什么?取对数,呃, 拆分后的,或者是取对之后的形式啊,那你就变一下就行了。然后后面呢,就是把音变量的之后一节作为一个字变量放在模型后面,然后这两个放完,后面的 x 一到 x 呢,就是一系列的解释变量啊,比如说你的主要解释变量是 x 一,你的控制变量呢是 x x x x x x, 或者是 c 二 c 三 c 四,那你们就要把它全部都放在后面就可以了。那么这一部分呢,基本上就是固定不变的,要变也只能是变数据的形式,比如是否取对数呀,是否那个呀,那么 对号后面的都是可以调节的。嗯,那么这里呢, i 点一什么意思呢?就是 gm, 我们知道是自动控制了省份啊,也就是个体差异,如果你还想要控制时间,那就加上这个命令就可以了, 那这个也是可加可不加的。那么 gm m 和 iv 里面怎么变量怎么放呢?嗯,我这里是假设哈,假设我的 x 一是严格的外升变量, x 二是前置变量, 但是不不完全外伸,那么 x 三呢?是内伸变量,然后我们一般就会把 x 一放在这里, x 二 x 三就放在 gm 里面。那么这里具体反正放电量是多少放多少个变量,嗯,都是可以调节的。文献里面经常会把音变量的滞后一节放在 iv 里。 嗯,其他呢?非严格的外身变量就放在 gm m 里面。嗯,建议大家可以参考以往文献都是怎么放的啊?研究目的不同的可能放的面变量都是不一样的啊,这里我们我后面还会再提的。 那么后面这个参数呢, low level eq 就表示的就是呃,差分的 g m m 就是 dfres g m, 因为系统默认的是 system, 嗯,所以我们这里加入这个设置呢,就是代表我们做的是差分。然后我们按回车键 就可以看到我们就出现了啊,前面的回归结果,还有一些自相关检验和过度检验的结果,那么检验结果如何如何看呢?等我把命令讲完了,我再给大家分析。 那这是一个比较简单的一种形式,然后我们在这个形式上进行一定的更新。 嗯,接下来呢,我们经常刚才说了系统,呃,系统自带的是系统 gm, 那我们经常用的就是两部系统的 gmm, 我们只需要在后面这个参数,嗯,把它删除,更改为两部系统 gm 参数设置就是 t w o s t two stab, 然后因为两步估计比一步估计呢,就是容易呃,低估回归叙述的标准误差,所以我们一般加 too stab 就要加 robust, 呃,这两个也算是半捆在一起的感觉。然后这个,呃按回车键,我们就做的是两部系统 gmm, 我们可以看到明年输入输入之后他后面会有提示的。呃,看这里动态面板模型,两部系统 gmm, 我们可以放掉。 我上面的一个秘密啊,这里写着动态面板估计,然后一步的插分的 gmm, 那么接下来呢,我我们再在这个的基础,这个命令的基础上再进行一定的更新, 这种呢是比较常见的。嗯,那我们还可以看到。呃,这里的 gm 的变量里面呢,我们可以呃更新,比如说 gmm 的面料,我们可以设置一个之后下,嗯,通常呢会在后面, 嗯,在家里都好。一定一定要是英文输入下哈,然后 leg, 然后再括号也要是英文输入下的。呃,比如说二三这样子,那证明你的 leg ab 表示什么意思呢?就是把 x 三 xx 三呢?嗯,进行那个,然后再作为工具边上放进去,那么这里的这里的二三就是你放任何数字都可以,但必须是整数,然后那我们的二和三分别就代表最近和最远的最后接触,那么这两个接触你是可以呃 任意换的,并不代表就一定要是二和三。我就我就举个例子,然后呢在整个命令的后面呢,我们还可以加各种加各种参数,比如说我们家镂空赛的,就是我这里写了,呃, 就是不要缠住下,比如说减少工具变量的个数,我们就在这个 jm 里面,这里在这个逗号后面再加个 claps, 呃,比如说创造工具变的方式变换一些,我们就在这个后面命令的参数后面再加入这个单词就可以了。 嗯,那这里具体的各种加餐术呢?在我的知乎和 b 站里面,嗯,都有更加一个详细的一个文字介绍啊,大家可以自行的去学习,如果有什么不合适的地方,也欢迎大家批评尺寸。嗯,那么在视频里面呢,我就给大家介绍比较常见的命令形式。 那么命令讲完的接下来还有一个很重要的步骤,就是如何看结果呢?嗯,那我就以现在这个命令,呃呃,输入进去,然后给大家解释一下结果怎么看。 我们看这个命令输入进去了。嗯,我做的是两部系统的 gm 比较常见的一种形式。 那前面的就是一个简单的一个回归系数表格,那这里大家我就不过多介绍了,也就是回归系数标准 这只 p 值百分之九十五的可信区间,那一般来说,应变的之后一节,这里一般都是应该是显著的。嗯, 那接下来我们看后面的检验怎么看呢?呃,第一个就是 a r 检验, a ar 检验呢,就是一个字相关的检验,是检验脑脑动向的差分是否存在一阶和二阶字相关啊,保证这 m 的一致。估计一般而言呢,都会存在一阶相关,一阶 相关就是 a r 一,一般都必须是显著的,也就是存在呃,一届的字相关。那么二级的字相关呢,一般是应该是拒绝的, 所以最好是大于零点零五。呃,最好的情况是大于零点一,但是我们一般呢认为大于零点零五也是可以接受的,那这里如果 a r 二也 a r 二的批值也是小于零点零五,也 是啊,小于零点零五的话,我们可以检验 a r 三,那么检验 a r 三的语法呢?就是在呃刚才的这个密对, 刚才的这个命令基础上的后面再加一个呃,加一个 a r a r test, t e s t t test, 然后括号三就可以了,我们只要在这个后面再加上一个 a r。 哦,打错了, a r 太子三就可以出现 a r 三的值,你看,我们可以看到这边就出现了 a r 三的值,如果 a r 二实在是一直小于一点零五,我们可以再进行呃三阶相关,嗯,我们看一下,呃,就就要用三阶以及更高阶作为一个工具变量,所以我们在后面 再进行 a r 三 tes 就可以了。但是最好最理性的情况肯定是 a r 二,拒绝是最好的, 那么 a r 自相关检验讲完了,接下来就是呃后面的这个萨根检验和黑 n 检验,那这两个呢?都是过度检验,嗯,那么这这一种过度检验他的原甲设呢?是工具变量是有效的,那么 所以说 p 不显著,不拒绝原假设,也就是 p 只要大于零点零五才是说明工具变量是有效的。嗯, 所以说,呃,但是我们一般也是要呃萨根减压和黑 n 减,要大于零点一以上就是最好的,但是同时也不要等于一,嗯,等于一一般也是不合适的。嗯,一般我们应该是在零点一到零点二五之间最合适,但是由于一般 都很难通过,所以大于零点零五我们都算是合适的。那么至于这两个值,呃,我们是报告哪一个值呢?嗯,你可以自己选择,也可以自己领域里面的文献确定,也就是根据文献确定,那大部分时候可能都是哪个通过了,就报告哪一个吧, 我们可以看一下上面的,嗯,比如上面的这个黑色检验是通过的,然后三个检验是不通过的,那我们可以报告 a r 二和黑色检验,对吧?所以大家可以灵活的去处理。 最后呢,我想给大家说的就是,嗯,可能刚刚开始做动态面板模型的同学们经常会遇到,就是不管我们,呃,怎么调节,就是怎么调节内身边 外身变量,还有包括调节这里的工序变量啊,他的之后,他的这里的之后结束呀, 可能都做不到,可能都做不到就是满意的结果,要么就是三根检验,四检验不通过, 要么就是系数一个也不显著,然后我们拼命在网上搜索答案应该怎么解决,那么这里我就把也把我的时间经验给大家分享一下啊。 首先呢,我们就是要相信自己,只要你设定的这个模型是在一定的,呃,理论基础之上的变量也是比较正常的数值,就是文献中经常会用到的一些变量,你的动态模型就一定会成功的没有通过, 可能是你的模型设置那么暂时不适合你的数据情况,那么 gm 可以调节的地方是很多的,你都可以去试验一下, 就除了前面是比较固定的,后面这些都是可调节的,而且前面这个这种变量的形式,原始数据的形式也是可以改变的,所以你们要有一定的耐心,然后多多调试。 那另一方面可能就是因为动态模型的检验很难通过,所以很多时候哈,我们都被动的只能选择以结果为导向去调整我们的模型,就会觉得这个动态模型吧,就可能只是理论上比较成功,那么实际操作就有点鸡肋。嗯 嗯,可能听起来比较高大上,所以用的人还蛮多的。嗯,那么大家就自行体会吧。那么今天这期教学视频就到这里结束了,因为我,呃,给大家讲完了,我想出去过节了哈。呃,如果对大家有所帮助的话,呃,希望你们点赞关注 支持一下吧,然后祝大家节日快乐,谢谢大家。
大家好,欢迎来到水塔数据分析入门课程,我是车水老师,本节课我们来讲一下数据的基本统计量, 主要分为三个部分,第一部分呢是基本统计量,第二部分是分组统计,第三部分是如何将结果输出。 首先我们来看基本统计量三 plus 这个函数呢是上节课我们已经讲讲到过的,我们就嗯不再详细的讲了,在此基础上呢,我们再学学习两个命令,分别是 codol 喝不可能是用来呃统计分位数,也是在呃是在分位数统计的基础上呢,在附加直方图,让我们能够更加详细清晰 记得看到每一个变量他是如何分布的。我们来用 sita 实力操作一下,首先打开 sita, 打开杜文档,开始 先用配眼,然后呢记得将这个度文档先保存一下,比如说叫嗯基本统计量,然后我强烈建议大家 在看视频的同时,跟着我一起来运行一下这些代码,加深记忆。我们先调用一份系统资料 ccu, 这个时候呢这个数据就已经进来了。然后 我们还是先回顾一下上节课讲的萨姆拉斯这个命令,那他就可以给出每一个变量的均值标准,差距小值,最大值这些的基本统计量。 然后在这个基础上呢,我们来学习一下,那我们运行 大家看看是什么结果就发现呢,他每一个变量的这个描述性统计都给出来了,我们挑一个看一下,比如说我们看这个 plus 这个变量,他首先在最前面的时候呢,告诉你这个字符串形 什么,有多少个变量,然后有几个祛湿纸什么的都给出来了, 然后对于每一个变量呢,他也给出了详细的这个描述性统计,比如说对于 pros 这个变量呢,他告诉你这个存储类型呢是数值型, 嗯,然后这个变量的区间呢是从三千二百九十一到一万五千十五万九千零,不对,一万五千九百零六,不好意思, 这这个区间之间,然后呢有七十四个不同的数值,然后呢有零个缺失值,均值标准差,然后百分之十,百分之二十五,百分之五十七十五、九十的这个分位数分别是什么?九 都给出来了,就是比较详细的给大家呃展示了一个这个数据的全貌。 然后呢这对于分组统计量,比如说这个 r、 e p 七八呢,他除了给出之前的这些基本的描述之外呢,他这里给出了有五个缺失值,并且呢给出了每一个变量每一个数值,因为这一个 i e p 的七 i p 七八这个数值分为 只有五五个数值吗?只有一二三四五。然后呢你看他这个不同的数值也是有五个,然后每一个数值分别有几个对应的几个电量也都给出了,比如说,嗯,电量这个观测值是一的时候他有两个数据数值, 二的时候有八个数值,三的时候对应三十个数值,这样非常的详细。然后呢比如说这个,还有这个他也是一个分类变量, 给出了一点五的对应的有四四个数据对应的是一点五,十三个数据对应的是二,然后十四个对应的是二点五,就是非常的嗯,详细了,嗯, 大家可以发现他这个规律啊,就是如果是连续型变量呢,他就会给出百分之十二、十五、五十七、十五、九十的分位数的一个值。如果是分类变量呢,他就会给出每一个分类条件下他的这个 有多少个值,就是频率平数。对,然后在此基础上呢,我们来学习一下因斯坦克这个命令,因斯坦克斯来运行一下,看一下,那呢他 也是就是每一个变量都给出了详细的这个描述性统计。我们来嗯一个一个看一下,比如说对于嗯 max, 比如说对于这个 plus 这个变量呢,他给出了正数有多少,负数有多少?零有多少,然后呢一共有多少个值?确实值有多少?一共有多少个值?然后呢最 嗯最特殊的地方呢?他左边给出了这么一个图,这个图呢他能给大家看出来就是一共有七十四个不同的值, 最小值呢是三千二百九十一,最大值是一万五千九百零六。然后呢给出了这么一个图呢,就很像一个嗯,柱状图。呃,然 以后比如说对于这个 r、 e、 p 七八这个变量呢,他还给出了一共有六十九个观测值,其中有五个缺失值,不是,其中在一共有六十五个缺失值,然后呢有五个缺失值,一共呢是有七十四个数, 一共有七十四个数值,嗯,是对应的整一整套数据一共七十四个数值。但是对于他自己呢,一共有六十九个数值,然后还有五个趋势值,然后这个嗯柱状图呢,我猜测他跟 分布的脂肪图是一样的,但是不知道一不一样,我们来验证一下,比如说这个黑润这个变量,我们来画出他的脂肪图,黑色不染,呃,黑润。 然后我们运行一下就可以看到呢这个他的柱状图是这样的, 拍的是我们刚刚那个。啊,对,在这里你就可以看到这个脂肪图呢,跟他这个分布是非常一致的,所以这个呃 我们就可以发现这个 inspx 的这个命令呢,可以在扣扣这个命令的基础上呢,有一个嗯,创新,就是不同的地方,就是他可以给出嗯分布分布的这个样貌, 我们可以在这里加一个注视,可以附加分布图这个功能呢是非常非常的优秀的。 好,我们学了这个三种分基本统计量的方法呢,我们再来学习如何做分组统计量。我们主要学习三个命令,第一个呢是 tibelax 啊,简写呢是太,他用来分类技术。第二个命令呢是推爆,他可以用来分类统计。第三个命令呢是 topstart, 他可以给 写出我们论文格式里面的嗯描述性统计,我们一个一个来试一下,比如说 tbays 分类技术的这个功能呢是,嗯,适合 和于分分类变量的,我们来用一下,因为 r e p 七八是一个分类变量,我们用 r e p 七八呢来试一下, 就发现他会给出二一批七八的对应的五个数,对应的平数,对应的 笔直以及累积的这个笔比例,然后又发现他一共有六十九个数值,然后呢一就是嗯 一共的这个百分比是一百分之百,然后累积的百分比也是百分之百,这样是很方便的,能看出每一个变量下呢他 数值有多少,而且占的比例有多少?刚刚说了 top 是他的那个简写,我们来验证一下,二一撇七八, 他的结果是完全一样的,嗯,然后第二个命令呢,是推宝,我们来看一下推宝他会发生什么样的结果呢?推宝啊,一瓶 七八,然后推广 led。 七八呢,他只给出了每一个分组下面的评数,并没有给出频率。 但是推爆这个命令呢,他可以,嗯,在后面添加更多的那个描述性统计,比如说方瑞这一, 嗯,这个变量呢,也是分类变量,我们可以看一下,他也是分类变量,但, 但是呢,推爆这个命令呢,他可以给出,比如说呃二一批七八有五个类别,丰丰润有两个类别,那我想知道,比如说呃 r ep 七八是一的时候,对应的到 mac 格号 forry 这两个类别下的数值分别有多少个?也就是交叉的统计。黑宝石可以实现这个功能的,只需要在后面添加嗯,两个这个变量的名称就可以 在后面添加。二一撇七八和方锐来看一下,就会给出这个交叉的统计。二十七的意思呢,就是二一撇七八等于三,同时 cartype 是到 max 借口的时候,嗯,他的 变量个数是二十七,这样统计呢,是非常非常的方便的。嗯,推爆还有一个,嗯, 更高阶的功能,就是这里一共有五乘二十个类别,那如果这里面的数值,我我并不想知道他每一个类别的个数,而是我想知道在每一个类别里面他的价格分别是多少。 那我们也可以实现,只要在只要在后面添加一个选项,就是 c, 比如说我想知道价格的均值,那我可以在后面添加均值,价格就可以了, 这个时候呢我们就可以知道,呃,每一个类别下面呢?嗯,价格的均值分别是多少?如果我这里不加这个均值,只加这个 pros 的话呢,他出来的结果就是 啊,不可以的。所以我们只能在前面加一个,就是你要统计 plus 的什么,比如说我想知道 plus 的,呃和,那我在前面要加一个萨姆,就可以知道每一个变量, 每一个分类下呢,这个价格的和分别是什么?然后第三个命令呢?是 tfbex, 这个命令也是非常非常重要的一个命令,嗯,他的用法呢是太, 然后呢要后面跟上你要想统计的变量,比如说我想统计 plus 和 mpg 和 ip, 嗯,然后后面呢要添加一个选项,再次就是 那这个简写后面你要加入你想统计的,嗯,统计量,比如说我想知道他的个数,这个观测值的个数,均值 均值标准差,最小值,最大值,这些呢都是我们论文里面比较常用的。这么一些统计量还不是单词。这里那我们来运行一下 stats, 那我们就可以看到每一个变量的这个基本的描述性统计量都可以给出了。但是在那个论文里面呢,他一般都是,呃在第一列写变量的名称,然后在第一行写 统计量。这个时候呢我们需要添加一个选项,我们还是用三个斜杠来分,分开两行添加一个 coms, 然后呢来再运行一下,就发现了这个就更像是论文里面的那种格式,就是每一个变量的基本统计量都会给出这个,嗯,命令呢是非常 常用的,一定要学会。然后第三部分呢是学一下如何输出结果,我们用 as 到这个命令来输,直接将嗯,我们的结果输出到位, 比如说 a s fuck, 然后我想直接在后面添加我们要进行的这个命令就可以了,比如说我想描述一下出来这个 这个变量以及二一 p 七八以及 mpg, 那我们来 运行一下。好,这个是我们的结果。然后呢这里有一个麦发芽点到这个的名称呢是。
哈喽,大家好,这里是考大学姐,那么今天呢,我们来学习一下 stat 里面数值类型的转化。嗯, stat 里面比较常用的两种数值类型,一个是就是数值型,还有一个就是文本型。 数值型呢,就像比如说一二三四五七八九十,嗯,可以用他们之间做一些呃运算,比如说加减乘除什么这样的基本的运算。文本型呢?就比如说像我们假如说我们统计班级的同学啦,性别有男和女这样 汉字或者英文的这种文本表达的他就是文本型,他区别本质上区别就是没法做预算。然后今天我们就来讲一下两种数值类型,数据类型该怎么做转化的处理。 首先我们来看一下,如果想把数值型变成文本型,那在 stay 它里面,它的命令就是 tooth dry, 我们来尝试一下,这里面学号是一个数值型的 toothstrend 学号,然后 replace 代表的是 我想就把学号这一栏给变成数据性,而不是说要新增一栏数据。 这样操作之后呢,红色他现在变红了,就代表他变成文本型了,但是如果你想变回来的话,就是从文本型变成数字型,就是 d straight, 本来这样就变回来了。但是我们数理数据有一个棘手的问题,就是像假如说出现性别这块的啊,我们可能比如说像做一些虚拟电量回归的时候,发现这个其实你一个 四文字并不能直接做回归,那这时候我们一般都会给他进行一个复制。比如说我们假如说现在想把如果你是男生的话,也就是男生等于一,女生等于二, 那这样的话我们可以重新生成一个变量,生成变量就是 generates, 嗯,缩写就是 g n g e n generates, 加个 gender 等于一。然后现在把所有是女生的 gender 变成二,我们就 replace tender 等于二,一性别等于女。注意,这里的等于是一个双等号,就是在他的 stata 包括其他的一些软件里面,如果你想说他现在已经等于,呃,现在这个值了,那他的等于就是一个双等号。 no, 这样就可以啦。然后今天就在这里希望大家学的开心,有什么问题可以随时和我私信交流。
大家好,欢迎来到赛塔数据分析入门课程,我是车水老师,本节课我们来学习一下如何在赛塔中浏览和查看数据。 主要分为三个部分,第一部分是查看资料的结构,第二部分是学会使用变量标签,第三部分呢是学会搜索变量。首先我们来学一下如何查看资料的结构,再调用一份 数据。之后呢,我们首先要学会查看数据及和变量的结构,我们用 discome 这个命令来进行。 其次我们要学会用 sorrys 这个命令来呃描述变量的统计量。然后呢,我们要学一下如何用利索来列出数据,尤其是列出我们在某一筛选条件 下的一些数据。我们来用塞塔实地操作一下,双击打开塞塔,先打开度文档,我们还是要延续我们那个优良传统,先保存一下度文档。 好,我们先调用一份系统数据 ccutoto, 然后呢这份数据就已经进来了,我们用。呃,首先要来查看资料的结构呢,我们用 disco app 这个命令 来看一下结果,选中,然后我们可以看到呢,这个结果是 非常的详细的,他首先告诉你说这一份资料的,嗯,路径,存储路径以及 观测值的个数,变量的个数,呃,数据的大小,数据的标签,以及每一个变量的名称,存储类型,存储的形式,以及每一个变量的标签都会很详细的列出来。然后呢还告诉你, 嗯,这个排序的方式是根据什么方式,根据哪个变量排序的,然后这个就是第四块。然后呢你们要注意就是第四 对前三个字母呢就完全可以代表迪斯科,这个随他就可以识别了,比如说我运行一下的跟这个迪斯科这个结果是完全一样的,所以我们可以直接简写成第四, 这个呢,我们要学会用三 mruss 来描述变量的统计量,三 mls 来运行,看一下结果啊, 好,他就会给出呢每一个变量的名称,观测值的个数均值标准差,最小值,最大值,所以是,嗯,非常直观的。然后呢我们还有 学会后续加一个低太偶的选项,我们来看一下结果。好,这个呢就是他给 每一个的变量的结果呢,都给出的非常详细。比如说我们来看 plus 这个变量,他除了给出观测值的个数均值标准差这些信息之外呢,还会给出比如说方差啊, 偏度风度百分之一,百分之五,直到百分之五十,百分之七十五,百分之九十五、九十九,这些每一个的分位数都会给出来这个命令呢,就是可以帮助我们更好更深入更详细的来 了解每一个变量他的分布。嗯,然后这个三 pls 的简写呢就是萨姆,然后后面这个 dtrl 的简写呢就是 d, 所以说如果我们进行萨姆 逗号 d 的话,也可以让实现完全相同的这个结果,所以我们在之后的,嗯,之后在使用 ctrl 的时候呢,可以直接用萨姆就可以完成这个萨姆尔 s 的这个功能。然后第三个呢,我们要学会用历史列 出数据,比如说用利索列出这个 pos 数据,那我来看一下结果就发现呢,他把每一每一 每一个观测值 plus 分别是多少都列出来了,然后哪一行都列出来了,那如果这个类似的这个命令呢?它关键的 作用呢?是用来筛选我们某一个,嗯筛选条件下的数据,比如说我想知道价格小于四千的啊,分别是哪些行?价格分别是多少呢?后面我们要加一个 f, 呃条件 flis 小于四千 非常的方便的,就说我们来运行一下,他就会告诉你,呃价格小于四千的这个这些价格分别是哪些? 然后这个价格分别是多少,分别是哪几行?都非常的详细,那后面呢我们还可以添加别的变量,比如说 mpg 这个变量, 那在这个条件下呢,我们都来给他列出来,我们就可以看到价格小于四千的呃价格,以及 mpg 他们分别的对应情况,以及分别是哪些行,所以这个类似呢是也是非常的方便的。 然后我们来学习一下如何使用变量标签。首先呢我们要学会给这个样本添加标签,用刚刚那个 ds 这个 命令的时候呢,我们可以看到这一份的标签呢是人家已经给定的一九七八奥特曼 bata。 然后这个时候如果我想添加自己的标签呢?我们怎么办呢?我们要用的是 vivo, 我们要给变量添加标签,所以后面是贝塔。 然后你要添加的标签的名称在这里写出来,如果是中文的话,一定要用英文引号里面添加我们的中文字符,比如说我想添加的标签呢是汽车价格, 好,我们运行一下,然后这个时候呢我们再来看这一份资料,就发现了 这个时候这个资料的标签已经变成了汽车价格,而不是刚刚的 pro, 而不是刚刚的这个一九七八奥特曼 flax。 然后其次呢,我们要学会给变量添加标签,比如说之前的这个 pos, 呃的标签呢?他就是 pls, 嗯,这些标签已经定义好了,如果我想定义我们自己的标签, 说,呃,如果之前的数据他没有标签,我想自己设置一个标签,怎么办呢?我们要用 vivo vr, 然后呢先写我们的变量名称,比如说 plus, 然后再写我要添加的标签的名称,比如说价格, 这个时候就执行完成了,然后我们再来迪斯科拉比一下,就发现呢,这个 pos 的标签已经变成了我们刚刚设置的价格, 嗯,如果要是给分类变量添加标签呢,就稍微麻烦一点,比如说这个 r e p 七八这个数据,我们先来看一下这个标签这个变量的详细情况。四 m d, 我们先活学活用一下,我们可以看到呢,其实这个变 他是一个分类变量,我们如果更直观的看的,我们可以用黑色勾染,就是 直方图看一下这个数据。好,我们 可以更直观的看到,其实这个数据呢,他就是一个分类变量,但是呢,数据里面他并没有给出这个一二三四五分别代表的是什么。那我们可以自己设置一个对应的标签, 那包 dfad fy 就是定义的意思,嗯,我们设置这个标签,我们先给他取一个名字,就是专为佩尔, 然后比如说设计一,一的意思是好,二的意思是, 嗯,两三的意思是中。 还记得上节课我们讲如何断行呢,就是在后面加三个斜杠,然后四的意思呢?是 在定义这个之前呢,我们 来看一下这份数据里面他原本有的标的那个分类变量的标签有哪些? 我们先跳到下一个环节,下一个呢是标签管理,我们要学一个雷波 book 这个命令来查看类别。我们现在先来看一下原本的雷波 booc 的类别一点,看一下,发现呢 有一个变量有这个标签,也就是呃,这个方瑞这个变量,他的零呢代表的是国内,一代表的是国外。那这个时候我来 运行一下我刚刚设计的这个标签。好,已经定义完成了,定义完成之后呢,我要给二 pp 七八这个变量添加我的这个标签,怎么办呢?我要用 vivo, 嗯, vivo yleos 加变量名再加标签名的形式来设计,就说 vivo yous 先加电量名就是二一批七八,再给他连接上我刚刚设计的这个标签瑞佩尔, 然后来运行一下就给他把,就给这个 i e p 七八这个变量,嗯,连接到了安装,就相当于把这个标签和这个 i e p 七八连起来了。那我们来 现在来再来看一下啊现在的标签 abbox, 就发现呢有两个变量都有了标签,这个呢是之前的,那 那个风瑞那个变量,这个呢就是二一 p 七八这个变量,我们的变那个标签名称呢是瑞佩,然后呢一二三四五分别代表的是好量中差、较差,就是我们刚刚定义的这个。 好,我们还要学习一下如何删除标签,嗯,直接用 lebogle 删,然后再添加你要删除的那个标签名称,比如说是, 那我们这样就可以删除了啊。删除之后呢,我们再用猎豹扑克来看一下当前的这个标签,发现呢只有否认这个变量有标签了,因为我们已经把人拍了这个标签删掉了。 好,最后一个部分呢,我们来学习学习一下如何搜索变量,嗯,比如说在这个数据集里面,我们来搜索一下, 嗯,用 loger 这个命令,我们来搜索一下这个 prus 这个变量是否存在,我们来运行一下就发现呢他是存在的,然后呢给出了这个变量的 名称,嗯,存储类型,然后形式标签都是有的。在这么一份就看起来变量比较少的这个数据集里面的播放,这个命令看起来就是,嗯, 不那么必要。但是如果说我们用的是成千上万个数据,或者说非常多的电量的名称的话呢,这个露福尔的这个 命令呢是非常的有效的,可以让我们查找这个数据集里面他是到底是否包含 这个电量。好,这就是本节课的内容,我们学习了如何查看资料的结构,如何使用变量标签,以及如何搜索变量。
同学们大家好,欢迎来到极乐数据课堂,我是倪老师,今天给大家介绍的一款软件叫斯贝塔,它是一款统计软件, 我先介绍一下我们的课程特色啊,相信大部分同学都去网上看过一些视频,特别是连老师的视频啊, 林老师的视频其实讲的非常好,每一个视频的时长也是比较长的,内容讲的非常的细,主要是从理论然后实践操作这么整个过程来说。但是对于刚入门学习斯蒂达同学来说啊,这类的视频我还是不建议大家去看,因为 通过一个半小时的学习下来,你可能真正掌握的内容其实只有一点点,比如说你只会导入的一个数据,对吧?但是你浪费了你一个半小时。我们这个课程的特色呢,就是经练啊,比较干货,并且偏应用。 大部分同学来学习我们这个软件主要还是为了去啊做一个实证分析,然后完成你的毕业论文,或者是头一片好的旗开。 那么我们的应用其实就非常重要。这个课程啊,我们的特色就是啊,在较短的时间里,然后让你掌握斯德塔,并且能够自己去做一篇论文。 那么我们啊讲了我们的课程特色,那相信大部分同学啊,还不知道实证是什么东西,那我这边先给大家简单的介绍一下什么叫实证实证,简单的说就是去用数据验证我们的一个结论。 那怎么用数据去验证我们的结论呢?我再举一个粗俗的例子啊,比方说我们现在有一个研究主题,就是想研究饭量对上升高的一个影响啊,我们都 知道饭吃的越多,人就长得越高,对吧?这个其实就是我们的一个理论预期,现在我们去找一份数据,比方说你把全国所有人的一个 饭量以及身高的数据被统计下来,然后我们去研究这两者的关系,基于这一份数据去研究这两者的关系,并且得到了 饭量是促进长升高的啊,那你现在做的就是一个实证分析,就是通过数据去得到一个结论。好,那么 我们现在来看一下整一个课程啊,我们会讲到哪些东西啊?接下来我们所有的课程就是按照这一个思路来的,那这个思路我主要是按照实证分析的啊,一个框架给大家梳理的。那么在做实证分析之前,大家都知 知道啊,我们需要有一份数据,那这份数据我们肯定是要对他进行一个整理和清洗,不然的话你是没有办法进行实证分析的啊,除非你这份数据是哪里买来的,对吧?相信大家自己下载下来的数据啊,都是一份一份零散的,必须要进行清洗和整理。 那整理完数据之后,我们要做的就是实证分析了,实证分析主要分为四个模块,第一个就是对于你对于你前面那份数据的一个描述性统计啊,它里面主要分为五个,一个是 n 就是你的样本量, me 就是样本的一个均值啊, m i n m a x 就是样本变量最小值和最大值, sd 就是标准差,主要包含这五项指标来对你的数据进行一个详细的描述,做完数据描述之后就进 我们的第二步主回归,主回归就是去验证我们这篇文章的一个主题结论,也就是主要的结论 还是从我们前面的那个例子来说,我们想研究饭量对长身高的影响,那么你的主回归就是要去验证你的饭量对你长身高的影响是什么?是促进的还是意志的?那当然这种影响我们必须存在于一些模型去做。 接下来我们的课程中啊,会讲 ous 模型,也叫混合回归模型, fe and r e 这个叫固定效应模型和随机效应模型, gmm iv 啊,以及 did。 did 这个模型呢,其实和前面的模型差别有点大,它是一个啊,独立的模型,就是跟前面其实没什么关联啊,为什么要讲 did 这个模型?因为这个模型现在比较流, 而且他发好的期刊非常好发,所以说我把它单独拿一块出来讲。第三部分叫扩展研究,也叫深入研究, 也就是把我们的文章的结论进一步挖掘,我们验证了饭量会促进一场升高。那么如果我把这份样本划分成两份,一份是男性,一份是女性,我们去比较男性和女性之间的一个差异,也就是吃同样的饭,男的长得高还是女的长得高, 这个其实就叫深入研究啊,也就是我后面给大家列出来的一个分组回归这么一个东西。当然我们后面还会介绍更多的一个深入研究啊,就是中介效应以及调节效应。 第四部分就是我们的稳健性检验了,稳健性检验主要是对我们的主回归进行一个进一步的验证,也就是你前面做了一次,结果其实 存在一定的偶然性,不太可靠,我们让这个结果更可靠一点,就要做一个稳定性检验。稳定性检验 啊,主要是包括以下三种方式,一个是替换变量,一个是变换模型,一个是数据样本的变换。 我们前面用吃饭,用饭量,呃呃,我们前面去研究饭量对长身高的影响,那么饭量如果我们前面是用一天吃饭的次数,就是吃一次饭还是两次饭,吃三次饭来衡量的话,呃,我们可以得到吃饭的次数越多, 你的身高越高,其实也就是验证了饭量越大,你的身高越高,对吧?那么如果我把这个次数 啊变成另一个东西,就是饭量,我不用次数来衡量,用我一天吃几斤大米来衡量,那其实吃的大米的斤数越多,也其实能够 说明我们的饭量越大,对吧?从而也是验证了我们饭量对长身高的影响,就是说把次数换成了吃几斤纳米, 这个就叫做替换变量的五金星。当然我们的方法还有后面两个啊,这个在后面的课程中我们会给大家强详细的介绍。经过上面四个步骤啊,其实我们就把 整个实证分析给做完了啊。在做完实证分析之后呢,我们其实还要讨论一下文章的一个内存性 啊,内生性它是一个问题,它会造成你回归结果的一个偏恶,所以说这个问题啊非常重要。为什么重要? 因为我们在发一些比较好的期刊的时候,神高老师只要看到你的文章中没有去讨论这个内存性,你的文章一定会被 d 稿,所以说我把它单独列为一个专题来给大家进行详细的讲解。 呃,接下来就是我们显著性调整的一个专题课,因为我们理论是理论,实际是实际,真的我们去做一份实证的时候,你做出来的结果往往是不显著的 啊,基本上两篇里面就有一篇是不显著的,那这个时候你怎么办呢?不是说直接换个题目对吧?或者是重新再找一个数据去做,我们其实是可以通过合理的计量方法给他调整到显著的啊,所以说这一个专题课程呢,实用性非常的高, 到这里为止,我们整个实证分析就已经做完了,那么接下来你就是要去写你的一个 论文的文字了,那么论文的文字其实它里面也有很多的讲究,也有很多大家不了解的东西,接下来我会给大家梳理,就是论写论文的一个重点是在哪里?就是每一个 章节里面到底该怎么去写他,你的导师才会喜欢,省高老师才会喜欢,文章才会更好发。最后就是我们的一个实战训练营,就是基于我们前面学过的一些内容,我会给大家进行一些实战训练啊,来巩固我们所学的一个内容。 最后的话我再给大家看一个呃,实证做完的一个呃案例是怎么样的? 刚刚我们讲过啊,实证分为四个模块,一个是描述性,那其实这个就是我们描述性统计的一个表格做出来的样子,就是这样子的啊,其实这个表格并不需要我们手动去做啊,斯贝塔 会给我们直接输出出来,最后就是长这样。第二块就是我们的主回归,也就是去验证 x 对外的一个影响 啊。最后做出来的表格是这样子的,这个其实软件也会直接给我们说出来,通过银行代码就可以了。 第三部分是扩展研究,其实我们这里做的扩展研究也就是对样本进行了划分,分为的 state 为零, state 为一的两个样本,然后去研究这两个核心,解释变量对你应变量的一个影响是怎么样的 啊?这里其实就是做了一个分组回归。最后第四步骤就是我们的稳定性检验,也就是 啊对主回归的结论的进一步验证。这里用的方法是替换变量啊,但是这里做了两个,一个是替换了 y, 还有一个是替换了 x。 前面我们可以看到用的都是罗恩佩特的,一,这边换成了罗恩佩特的,二替换了音变量,然后前面用的都是 siri ems, 二,一,这里替换成了 siri rms, 二, 替换了你的核心音变量,这个叫替换,呃,变量的一个文件性。好,那我们第一节课就先上到这里。
大家好,欢迎来到斜塔数据分析入门课程,我是车水老师,本节课我们来学习一下如何利用斜塔进行基本图形的可视化。 主要分为四个部分,第一部分是直方图,第二部分是散点图,第三部分是密度函数图,第四部分呢是相关系数矩阵。首先我们来看直方图, 在之前的几节课中,我们也提到过直方图的做法,就是要用黑色固然这个命令来对变量做出直方图,它的作用呢是可以直观的查看变量的分布。 在这节课中呢,我们要更详细的来讲解,并且要讲一些注意事项,讲他如何和对数的对比,而且要讲嗯, 如何附加正态曲线,如何对离散变量画直方图等等。我们来用斜塔操作一下,首先打开随塔, 嗯,然后打开杜文档,我们还是要先保存一下我们这个杜文档,那我这里 呢要调用一份妇女的工资的工资,工资的那个数据, 然后这个数据的名称呢叫 n l s w 八八 n l s w 八八点一天, 然后我们用 ctrl d 来运行一下,然后我们先来查看一下这份数据,用 discouri, 用三个 s 和迪斯科来都来看一下, 然后我们先来看这个 disco i 吧,他的结果呢,就是有这么多个变量,有十七个变量,有两千二百四十六个观测值, 然后每一个变量他的他的啊,标签呢,比如说 h, 他就是嗯,年龄, 然后瑞士是种族, marry 的是婚姻状况,然后位置呢就是小时工资,这一份数据呢就是呃,美国妇女在一九八八年的那个工资 数据,然后对应的影响,可能影响的这些因素都会在里面,然后那个描述性统计呢,我们可以看到每一个变量的观测值,呃,均值标准差的相值,最大值,什么都可以看出来。 然后我们来学习一下如何用黑色古染来画直方图,比如说我想知道这个工资的分布状况怎么办呢?我可以用黑色古染在后面直接加这个电量的名称,然后运行 就可以看到是这个工资这个变量的分布状况,我们可以看到这个工资呢,有一个比较明显的右侧拖尾的这么一个现象。嗯,在论文中呢, 如果有这种右侧脱尾的现象呢,我们可以用取对数的方式来缓解这种现象。我们来验证一下,我们生成一个新的变量叫做乱位置, 而他呢是位置的自然对数。那我们再来看一下,取对数之后,他的直方图能运行, 你看一下就可以看到啊,在取对数之后呢,这个呃直方图呢就更接近于一个正态分布的这么一个状态,所以呢,在很多论文里面要对变量 进行取对数的处理,也是有一部分处于这个考虑。好,我们来学习一下如何附加正态 曲线,只要在后面呢添加一个 note 的这么一个选项就可以了,我们来运行看一下, 好,这个呢就是这个正太曲线了,那作为对比呢,我们来看一下取对数之后的正太曲线在哪里,在这里就是 就很很明显的能看出呢,这个取对数之后,他会更接近于这个正态分布啊。如果是 离散变量的话呢?我们如何做直方图呢?我们先来正常的做一下,我们比如说这个瑞斯,他是一个离散变量,我们先用 开闭了一次,来看一下这个呃离散电量的分布,他呢有三个状况, 三三个值,分别是白人、黑人,其他种族,然后每一每一个类别呢?下面有多少个变量都是可以看到的。那对于这么一个分类变量,我要做直方图的话,我们来试一下黑斯特污染,瑞斯 运行一下,嗯,就发现呢,他中间的这个空隙是非常大的,而且有一点五,二点五,这些都是 不需要的。那我们如何用如何给这个分类变量做脂肪图呢?需要在后面加一个迪斯科的选项, 就发现了这个中间的空隙已经没有了,嗯,就更加像那么一个直方图,而不是柱状图了。 好,我们再来学习一下如何画散点图,散点图的作用呢,就是要查看变量之间的分布关系,比如说我想知道这个偷偷利润经经验和工资的关系,那 我们要先画一个散点图来啊,粗略的看一下啊,画散点图的方法呢?是用 starty 这个命令 先写位置,然后再写头头一次 exp, 他是一个下划线,我们来运行一下看一下, 好,我们就可以看到呢,就是每一个偷偷,虽然这个呃公 工作经验对应的小时工资都画出来了。那我们可以刚刚那个图里面我们可以看到他其实 粗略的可以看出有一个正相关的关系,那如何检验他到底是不是正相关的关系呢?我们需要在后续添加一个趋势线,那如何添加趋势线呢?我们要用这个突位这个命令来进行突位,后面呢是 散点图,在一个括号里面,然后呢趋势线在另一个括号里面,这个是我们需要注意的,那我们来运行一下车位,然后呢两个括号, 第一个括号呢是这个散点图,第二个括号呢 是我们,第二个括号呢是那个趋势线。趋势线的,嗯,命令呢是 lv 的 l, 就是拎那把线性的这个你和直线,然后没有 lf, 我发现这个他有,嗯,有点多了,所以我们要断行,用三个斜线断行一下, 好,我们来运行一下,就可以看到这个礼盒直线在这里,那这个图呢,我们就可以很直观的看到这个,嗯,总的工作经验和小时工资 呢,是有一个正相关的关系的,那如果我认为这个嗯关系不是线性的,而是曲线的,或者说二次型的,那如何来做这个二次型的你和曲线呢?我们只要把这个 l face 哎变成 qfat 就可以了, q 呢就是嗯,二次的意思,我们来试一下,把这个 lfa 变成 qfe, 然后来运行一下。好,我们就发现了这个礼盒的曲线已经出来了,其实你看是一个嗯,开口朝下的这么一个二次性的曲线, 也就是说随着工作经验的增加呢,他的工资会升高,但是增加到一定的程度上的话呢,这工资可能会下降。当然这 这个是单单从这个图来看出来的,具体是怎么样还需要进行后续的实战分析。好,这个就是, 嗯,散点图,然后我们来学习一下如何画密度函数图,密度函数图呢,其实就是直方图的平滑曲线,然后他要画的话呢是用的密令呢?是 k 单色题, 来看一下 kitty, 然后我们要画一下工资的这个密度函数图, 就看到是这么一个密度函数图,其实呢,他就类随微积分那种,呃,每一个小柱子,然后垒垒垒起来,把它再画成一个相对平滑的这么一个曲线。那, 呃,我们再画一下工资对数的密度函数图来对比一下。 好,我们就可以看到这个工资对数的密度函数图呢,就更加接近于一个呃正态的这么一个曲线了。 这个红色的呢是 正态的曲线,然后蓝色的呢是密度函数图,就发现他其实,嗯相差的比较少,所以我们认为呢,这个取对数之后,他会更接近一个正态的分布。好。最后一个呢呢 是我们要学会,嗯,如何做相关系数矩阵,相关系数矩阵呢,其实就是各个变量的相关关系,我们可以看到,呃,每个变量相互之间的相关关系,我们要用的命令呢是 后面呢可以添加两个以上的变量,比如说我要看位置,我可以确认 exp。 嗯,还有什么呢?比如说年龄, ok, 陪审年龄,哦,停,陪审。我们来运行一下看 看一下。好,这个呢就是相关关系的矩阵了,我们如何看呢?比如说这一个小图,这个小图的横坐标呢是偷偷沃尔克斯 就是工作经验,他的纵坐标呢就是这个,呃,小时工资,所以这个小图呢,就可以看到这个工作经验和小时工资的这么一个散点图。然后呃 这个呢,就可以看到偷偷这个工作经验和年龄的这个相关关系。然后这个 这个第四行第三列的这个图呢,就可以看到这个职业和年龄的这么一个关系,这样呢就可以一目了然的看到,就是两两就是 关,呃,变量之间两两的这么一个关系就可以映入眼帘了。然后最后呢我要说一下,就是,呃,对于这个突位这个密令呢详细的作图说明,我们在哪里可以看到呢?我们用号 图位,其实 ctrl 这个作图的功能是非常强大的,如何做呢?我们可以在这个里面,比如说,嗯, grur 图为他就是用来画图的,然后如何画呢?先要做嗯,图位,然后面是用 f 选项, e 选项,然后啊不是这个选项,然后呢画图的这个类别呢?有这么多线形图啊,嗯,然后什么柱状 图,折线图,点状图都可以。然后对于每一个图呢都有详细的说明,比如说 spat, 我们点一下,里面呢就会告诉你这个散点图怎么做,做 fuck you style, 那后面需要添加一些什么什么选项,然后每一个选项的名的,呃,内容是什么?然后如何添加?然后如何设置一些,比如说大小啊,颜色呀,形状呀,都可以设计的非常的详细,我们一定要学会用这个帮助文档。 好,这就是本节课的内容,我们主要讲了四个方面,第一个是如何做直方图,如何做散点图,第三个是如何做密度函数图,第四个是如何做相关系数矩阵。
大家好,欢迎来到 sita 数据分析入门课程,我是车水老师,本节课我们来讲一讲文字变量在 sita 中的处理, 主要分为两个部分,第一部分呢是将文字转换为数值型的变量,第二部分是将文字样本值的分解方法。首先我们来看如何将文字转换为数值型的变量。呃, 主要有主要用的是两个命令,第一个呢是 dsj, 第二个呢是硬扣的 dsj 呢,它的功能是将字符串转换为数值形。 第二个硬扣子呢是用来根据文字类别来编号。我们来用 sita 来操作一下这两个命令呢,是非常常用的,我们来举个例子,就可以让大家知道这两个命令它的实用性以及必要性。 然后我们先保存一下,保存一下度文档 好,因为我们要学的第一个命令呢是迪斯坠,然后 如果我不知道这个的的是什么意思呢?我记得之前给大家说过,一定要学会用,还有还有文档,迪斯俊 ctrl d 运行,然后,呃,这个 下部文档他第一行就告诉我们迪斯俊这个命令它的作用呢是将字符串的变量转换为竖直型的变量,然后后面他如何用呢?是 啊,先写第四句,然后再写你要转换的变量的名称,然后再生成新的变量的名称,或者是直接替换,也就是在直接将原来的数值,原来的那个观测值 替换成你啊,转换成数,执行之后的观测值。然后面呢是一些选项,然后他还会告诉你如何用菜单栏来执行这个命令,然后面呢会有详细的解释,主要我们来看一下例子, 比如说用这个 ybusdeseevene ypus 的意思呢?就是从网站上去引入这个数据,随他的官网上引入。好,我们来 引入看一下,那我们来上面来试一下,你发现了 竟然都是零,为什么呢?那我们去这个表里面看,发现呢这个数字他怎么红了呢?明明看起来呢是数值, 但是呢他是红色的。那比如说我想要计算一下,比如说我想生成一个新的变量,是那么一是原来那么的基础上加一 会变成什么?他说这个类型不匹配,也就是说虽然这个数值他看起来是个数字,但是他其实是字符串类型的,所以说我们不可以将这个 直接把它当成数值来运算。那我如果在之后的运算中想把它当成数值来运算怎么办呢?那我们就有必要把这些字符串的类型转换为数值性。用什么方法呢?就是我们刚刚讲的这个迪斯俊,这个方法先写迪斯俊, 然后呢再写要转换的变量名称,如果说我先不写 变量名称的话,就默认我要将全部的变量都要转换成数值形,然后面呢加一个选项,就是你生成新的变量的名称,或者是直接替换,那我们选择直接替换。 repic 发现他告他的提示是说比如说 id 这个变量,他说呃,把之前的字不穿心, 嗯,替换成整形了,我们来看一下,发现这个就和我们之前用的数值是一 是一样的了。那如果在这种情况下呢?比如说我想生成一个啊,比如这样我再三个 s 一下看看是什么,结果发现已经有值了,就是每一个数值 有十个,每个变量有十个观测值,他们的均值标准差,最小值、最大值都可以出来,那我们就可以像之前那样分析数据了。好,这就是迪斯俊这个 变亮,他这个命令,他的作用。好,我们清除。还有第二个命令呢,是硬扣的,然后他的,嗯 作用呢是将文字类别编号,比如说我有一个变量呢是行业,行业有五个行业,他的他的那个变量呢是文字,比如说,嗯,制造业、营销、 消消费品行业,什么,这就是用文字来标注这五个行业,那我们在呃 进行后续分析的时候呢,需要把它变成一二三四五这样的呃数值,那该怎么办呢?我们用这个音扣的这个比例来进行,然后要记得在后面添加一个新生成新的变量名称的这个选项。 我们也是用汉火门打看一下,出来了,他的第一行告诉你,硬扣的这个命令呢,是将呃 字符串转换成数值形,然后使用的方法呢?是硬扣的后面添加你的变量名称,然后生成新的变量名称。然后我们来看一下例子吧, 你用这个数据,你用这个 wh bp 兔,这个数据 别吃 有点慢,暂停一下, 重新运行一下, 好,出来了,那我们现在三不让死一下,看这一份是个什么文档,那发现有这么多的嗯变量,这个是城市年份,嗯,年龄的组别,然后, 哦这是种种族,这个,然后最后一个是性别,那打开看一下,这个,我发现蓝 色的其实就是已经分成已经变成数字形的类别了,但是呢这个在这个性别这一列呢,他还是文字型,我们之前说过管理标签的方法, 嗯,反正 这个年龄的组别,这这一个变量呢是有标签的,他已经分成了这么八类,然后每一类是什么样子都有,然后种族是有八类,每一类都有,然 然后这个 y n 是什么?哦, h bp 吧,应该是,他也是有两种,但是呢,我的这个性别明明看起来,明明看起来他是有男性和女性两种,那为什么没有呢?因为他现在是 文字型变量,那我也想变成跟其他的分类变量这样的数值性,那我这个时候呢,就需要用到硬扣, 然后赛克斯生成新的面料,这样这样的瑞特的简显是正,然后面括号里面添加先生成新的变量的名称。 啊,真的吧,我们运行一下好了,那我们再来看一下现在的这个类别变脸就有 这个嗯性别的这这个变量了,所以这个变量的作用呢,就是将根据文字类别来编号, 然后这个时候我们就可以用零一嗯一二来识别他是男性还是女性了。然后第二部分呢,我们来讲解一下如何将文字样本值进行分解, 我们用的命令呢,是 siri 的这个命令,他在英文里面其实也是分解的这个意思, 它的作用呢是从字符串变量中提取一部分,或者呢是将字符串变量进行分解,我们来详细看一下, 我们还是要看一下杜文档,他的解释是 说将字不串类型呢分解成部分,然后他的使用方法呢是四倍,后面加嗯字不串的变量,后面再加一些嗯,条件选项之类的。然后我们主要来看例子, 好艾比 我们用第一份这个数据 好进来了来看一眼,他是有两个变 量,然后 vr 一呢是地地名,我们就发现呢他的 vr 一,其实这个地名有两部分,第一部分呢是 向方向,就是东西南北中一些方向,然后第二部分呢是,嗯,这个地名,那我想把这个第一个变到分成两个部分,也就是第一 分成两个变量,第一个变量呢是,嗯,指明这个丧死还是外死这个方向,然后第二个变量呢是第一名,那我怎么办呢?我需要用这个用这个命令, 然后 vr 一,我因为我要将这个 vr 一来进行分解,然后我们再来看一下,好, 我们来看一下结果,然后我们打开看一下。好,现在呢就是 vr 一一和 vr 一二了, vr 一一呢,也就是说 vr 一的第一部分, vr 一二呢就是 vr 一的第二部分,然后他第一部分呢是 分解成了这个方位,第二部分呢是分解成了这个地名,还记得就是刚刚我们讲过的这个音扣的这个吗?那这种情况呢?这个这种情况下呢,这两个变量都是文字型的变量,那我要想将它变成字不串的怎么办呢?我要用音扣 这个命令,然后将 vr 一呢转换成啊竖直行,然后我要生成一个新的变量,叫做, 比如说微枕,也就是代表他的方位。然后呢我再将第二个变量也这样处理一下。 ar 一二处理他的名字叫,嗯,比如说 ar, 那我们来 运用一下,发现好了,那我们来看现在的分类情况就出来了, 第一个呢是这个城市他的分类情况分成了十种,然后呢第二第二个变量呢?是嗯,方位有三个类别。然后这就是 啊,这种处理方法在嗯文在文字型的处理中呢,这些魅力呢是十分常见,也是十分有用的。 好,这就是本节课内容,我们主要讲了文字转换为数值型变量的方式以及文字样本值的分解方法。
斯达特如何计算墨兰指书?归之墨兰散电图我们先来看下 say 坎上的论文。墨兰指书衡量地理要素的空间急居程度, 也是做空间计量模型的必要步骤。墨兰指数为证,表明要素呈现高值与高值,低值与低值的真空间集居。这里墨兰指数就是显著为证。上面我们看的是全局墨兰,下面再看下局部墨兰 有点累,你们自己看下这段文字,理解一哈。 通过闪电图可以知道每个地区所在乡鲜。下面我们进入实操环节,这是俺之前做的三十省份绿色金融数据数据复制粘贴到 stop, 可以看到数。 数据是类似洁面格式,我们来转换成面板格式。你是不是在 excel 里面一个一个拉成面板,我们用 receive 命令一键转面板,这样我们的数据流成面板格式啦。 当然,我们也可以把面板格式的数据转成类似洁面的。依然是 reshape。 言归正传,我们来计算墨兰之书。我们要准备 story 命令以及相关矩阵,需要的话可以敌敌我。 以荆棘军离巨毡为例,可以看到墨兰指书全部争相现著。接下来我们再看下如何挥之墨兰散电图。邓啊邓啊邓啊邓啊 噔啊噔啊噔啊噔啊噔啊噔终于来了!把三个图合并成一张图, 我们对图稍加修饰,此处省略一万字,如果你不想显示省份,把这部命令后面删除就可以啦。有些论文会展示每个地区所在象限,我们这里阔顿就是啦。 我们还可以用其他巨针进一步验征。建立燕斯以哈领结巨针和范居里巨针 perfect 斗现注,完成任务。
一下我的数据情况,我挑选了三个变量进行教学示范,一个是应变量外人均卫生总费用自变量 x 一 cpi, 也就是居民消费价格指数,还有自变量 x 二人均 gdp。 那么为什么会称为面板数据呢?我们可以看到纵向呢,我们是有三十一个个体,也就是三十一个省份,然后横向呢,有零九年到二零一七年这么一个九年数据,所以呢,这样横向纵向在一起就构成了一个面板,所以我们通俗点就称为面板数据。 好了,接下来我们开始一步步将这些数据导入到 ctrl 里面。第一步是整理数据,因为我的文字版是以 xecpi 为例,所以视频版,视频版教学呢,我也以 cpi 为例,方便大家对应学习。大家在最开始收集原始数据的时候,就注意形式,整理成我这样子比较方便。 首先由于 battle 呢不识别字符,所以我习惯把个体也就是三十一省换成阿拉伯数字一到三十一,当然我也我们也可以后续将字符修改尾数执行,就是看个人习惯了。 接下来我们从第三行开始复制粘贴到斯蒂特的数据编辑器中,这里注意,如果把第二行年份也纳入,那斯蒂特会默认地区也是一个样本,所以我们千万不要把地区和 呃呃把省份和具体的年份纳入进去了,你被小心被我删了。 哈喽,我们从这里开始复制粘贴,大家要看清楚。 复制好,然后我们打开 spt, 呃,我的 sit 在这里, 这里就是数据编辑器,我们打开这里,然后把数据粘贴进去好了,数据粘贴好了, 那么第二步呢,就是一个调整数据,因为这个数据输入进去了之后呢,我们要让呃 ctrl 识别他为一个面板数据,所以我们要进行一个数据的调整,那就要在这里输入一些语法。首先我们要将第一行, 这么这里的一个外部,一是重命名,代表这里的一到三十一代表着省份,所以这里要重命。 普洱粉丝, 好了,我们可以看到这里一到三十一已经代表着省份,我们已经命名好了,那么第二步呢,我们要继续识别一个时间变量, 就是这里的二到十都是表示的是零九年到一七年这么一个数据代表着时间变量,所以我们要继续识别 好了,我们已经识别好,时间变亮了,我们就可以,我们 看到这里就可以看到,呃,这里已经变了,这就是第一个省的他的一个呃,零九年到一七年他的这么一个这个变量的一个数值情况。 接下来呢我们还要进行重命名,因为这里二到十代表了什么呢?不是代表这个,这个是代表着年份,所以我们要把这里变成年份,那这里呢也就是我的输入的第一个变量,也就是 cpi 自变量 x 一,所以我们要继续重命名, 把这个变成也看这里变,这里已经,这里已经成功的变转换成了年份,那这里我们要继续识别为 cpi, 继续聪明迷, 好了,看到这里已经变成了 cpi, 那么这个数据的意思代表这个是第一个省份,他零九年到一七年这个变量,这个 cpi 变量他的这九年的一个数值情况是第一个省份,然后这个是第二个省份, 第二个省份依然是二到十,也就是呃零,呃,零九年到一七年这么一个数值情况,我们可以划拉到下面,一共是三十一个省份,每每个省份都是零九年到一七年这么九年的数数值情况。 好了,为了防止数据不符合排序问题呢,我们来进行一个排序输入语法, sor 好了,第一个数据,第一个变量我们就这样乘乘 工导入了,是不是很简单呢?那么其他变量也全部都这样导入,导入下一个变量前呢,我们记得一定要先清除,也就是肯定一下,要不然你打开这个数据编辑引发,哎,这里面已经有数据了,所以再输入下一个变量,这里一定要打肯定, 那肯定之前呢,我们要先把这一个无名金成功输入好的这个变量进行保存,点击这里的保存键, 那我直接就保存到桌面 ct 数据这里,然后我这个是 x 一,我这个是 x, 我这个是 x 一, cpi 我就直接保存在这里,然后大家可以看到我这 一个文件夹里面,我已经提前导导入好了 x 二,人均 gdp 外人均卫生总费用, 因为时间关系呢,另外两个变量我就不和大家示范了,大家如果还有什么不懂的,可以再返回去看一遍,最好是一边看视频一边自己动手操作, 那这里注意呢, start 也可以直接打开一个赛,前提是你的格式记得修改好,如果变量较多,一定记得保存到一个,保存到一个文件夹里面,后续导入呢,需要一直使用这个文件录制, 那么我们现在就直接开始我们的第三步,也就是合并数据,把这三个变量合并到一起,那看起来一个来很麻烦,操作熟练的真的就是很快的事情,我们我就和大家重新演练一下,把 这三个变量合并到一起。我们首先打开应变量外人均卫生总费用吧。 好,我们已经打开了这个数据,然后我们把 cbi 线合并到一起,那这个,那这里我们只需要输入语法 一比一, 这里输入的就是一个,输入的就是一个链接,就是通过这个链接就可以直接定位到 cpi 这么一个,所以我我最常使用的是点击这个 cpi, 然后你有一个复制路径,我们把路径复制好, 然后到这里粘贴好,好,我们再打进去,再打开数据编辑器。哎,这里我们就可以看到已经成功和 定好了,这个依然是三十一审,然后,呃,零九年到一七年,然后这个是外,是我的硬面料外,这个是自变量 xecpi, 我们已经合并好了, 不是很简单的,那另外一个人 cp 也是一样的输入语法就可以了,但是我们这里要注意,那这里为什么会先产生了一个变量呢?那是因为我们每次进行合并的时候都会再出现一个合并变量,我们只需要做掉就可以来在这里继续输入语法, 好,我们再打开数据器。啊,在这里我们看到这个已经被我删除掉了,所以我们在进导入下一个人均 gdp 的时候,一定要先记得做 掉。接下来我们继续用同样的方法,呃,就是导入人均 gdp, 合并人均 gdp, 我们可以,我们可以直接复制这里的, 然后把这个文,把这个路径变成人均 gdp, 我们把鼠标放到这里,然后复制路径继续弄到这里,然后粘贴好敲回刷啊,怎么硬掰你的呢? 哪里出错了呢? 对比下这两个呢, 哪里出错呢?哦,这里多打了,不小心多打了一个杠,所以说,嗯,就是软件,就是不,没有人聪明,他就是稍微那么一点点不注意,他就特别呃,很难去识别,所以我们一定要特别细心。 我们继续打开这个数据器啊,我们就看到三个变量已经都合并好了,然后接下来你如果还有 x 三, x x 五都这样一一的合并到进去就可以了,是不是很简单呢? 那我们可以看到这里有又又新啊,又新生成的一个合并变量,我们只需要继续输入这个落布料就行了。 好了,我们再打开我们的数据器。好了,接下来我已经全部完成好了,我们整个面板数据导入且合并已经 完成了,是不是很简单呀?你学会了吗?那么今天这期视频教学就到这里结束了,视频里涉及具体的语法,我觉得可能文字版更加清晰,不易出错,你可以。 嗯,你可以从这里直接去知乎这里,呃, b 站这里有一个文字版的操作,大家可以直接进去看得到就行了,这里有很清晰的,你可以直接来复制粘贴就 ok 了。如果觉得这期视频对你有所帮助,欢迎给我一个点赞收藏转发呀,最后谢谢大家观看。