粉丝883获赞9507
大家好,今天我们来讲虚拟边料,那么首先呢,我们回到之前我们这一张当中啊,一开始给大家说到了这个例子啊,我们有许多的一些出创公司,我们想通过这些蓝颜色的字边料, 也就是他们在这个研发上的花费啊,这是他们在行政上的花费,这是他们在市场营销上的花费, 以及他们坐落于美国的哪一个州,我们希望可以用这些啊,这些字变量来预测这个音变量,也就是这个公司的利润啊,他一年当中的利润。好,那我们一起来看看我们如何应用我们之前讲到过的这个多元线性回归的模型啊。首先我们写 y 等于啊, 那么这里呢,我首先要在这边加一个长竖啊,就是那个长竖向鼻零啊,那么我把这里呢都写在 paft, 也就是利润的这栏下面。之后我们就开始我们写我们的一个个的字便量了,首先我们写鼻零,加上鼻 x 一,那么 x 一他所对应的就是这个研发上的开支,每一个 x 一呢, 也就是啊,这个研发开支的用美元所表示的数值啊,也就是这一列当中所有的数据。 那么接下来我还可以写再加比亚 x 二,那么 x 二就代表着行政上的开支,用美元来表示, 我这还可以写 b 三乘以 x 三啊,那么是市场营销的开支。那么写到这边我就有一个问题了,那么接下来这个数据啊,这里我们看到他坐落于美国的哪一个州啊?我们可以看到 这个数据呢,他不是一个数字,他要么我们可以看到这里要么是纽约州,要么是加里弗尼亚州啊?在我们之前在预祝里 的那些课程当中,我们给大家讲到过这一类的数据,我们把它叫做分类数据,它所代表的啊是一个个的类别。 这个分类数据有一个非常明显的特点,就是我没有办法用一种有效的关系把比如说纽约州 和这个加州联系起来啊,比如说在其他的这个这些列数里面,我们可以说啊,这个开支是大是小,这些所有的数据我可以给他排一个序,但是这列当中的数字呢,我没有办法给他们去排序,所以说他们是这个分类数据啊,他们表示的是类别。 那我们这边应该如何继续写我们这个线性啊,多元线性回归的方程呢?显然我们这里呢不能写字母啊,啊,这当然是一个玩玩笑,我们这里不能写啊,如果是您要的话,我这里就写,您要如果是加州的话,我就写加州,那写 是不行的。那我们应该如何来解决这个问题呢?我们如何把我们这一列的分类数据啊, 用数学的方式把它给阐述,把它给翻译过来呢?那么这里呢,我们就要应应用到啊,我们这一章要讲到的啊,虚拟编料哆咪 w box, 那么这个灯谜呢,在英文里面优雅的意思啊,那么在这边呢,他是一个虚拟变量,因为我们从实际的变量,我们自己制造出了这样的一个虚拟的变量。好,我们一起来看一看,我们如何制造这个虚拟变量。那么首先呢,对于这个纽约州啊, 还有这个加州来说啊,我们可以看到啊,在这列当中我们一共有两种可能的类别,那么对于每一种可能的类别呢,我们就先加一列数据啊,那么每一列的数据呢,就是这个虚拟数据啊,也就是虚拟变量,我们可以看到纽约州,我加了一列啊,他的这个这列的名字 叫做纽约州啊,那么加州呢?这一列叫做加州。那么接下来我们干什么?大家可以看啊,对于纽约州这一列,所有啊,只要是州的名字叫做纽约州,那么这一列呢,我假设他的局是一,那么纽约州是一,加州是零。那么现在对于加州这一列呢 啊,我也做同样的事情,那么如果是加州啊,那么这一列的值就是一,如果是纽约州,那么这一列的值就是零,那么自然之前我们叫做分类变量啊,我们就可以把它给去掉了, 他将不会出现在我们这个多元线性回归的方程或者是模型当中。那么我们把这列呢,用第一来进行代替啊,我们可以看到,第一就代表着你是不是纽约州啊?如果是纽约州,那么第一就等于一, 如果不是纽约中,那么第一就等于零,所以我们在我们的这个线性回归的魔写上就加上了比四乘以第一这一项。那么接下来有一个非常重要的一点啊,大家一起来看,这是什么加招这一列的数据啊,虽然说他也是一个虚拟变量,但其实呢,我不需要去考虑他,为什么, 为什么?因为一个州是纽约州还是加州,这个信息已经完全包含在了纽约州这一列的里面啊, 为什么?因为假如他是纽约周,他就是一啊,如果是加周,他就是零,其实我并不需要再多一列虚拟的变量来进入我们这个模型,所以说这一列呢,我们也必须把他给删除掉。 好,纽约这一周大家可以看到啊,我们用什么来表示啊?我们用一和零来表示啊,这就像什么?这就像一个开关啊,假如 如这个开关是啊,也就是是零,那么加州呢?就被启动了。如果说这个开关是一啊,大家可以看到,那么纽约州呢就被启动了啊,那么这一列和之前的数据啊,可以说有非常不一样的地方。 那么这里呢,大家可能要有几个问题。比如说,大家可能说啊,纽约州是一啊,加州是零,那纽约州可不可以是十啊? 纽约桌可不可以是一百啊?啊?比如说这两个数字是一百,这里都是零,这个可不可以啊?那么我这里要跟大家说啊,其实这里无论是零,无论是一百啊, 表面上看,我们人为的对我们的虚拟数据啊,对我们的虚拟变量做了一个缩放,但其实并没有太大的影响。为什么?因为这些啊,这些信息其实被包含在鼻子里面啊。如果说啊,假设我有一个 模型,我已经你和好了啊,然后我把我所有的纽约周的变量都变成一百,我所有纽约周的变量都提升了一百倍啊,加州的变量并没有做出改变,那相当于什么?相当于我在我的模型里面啊,把这个鼻塞啊 啊,缩小一百倍啊,我把鼻四换成鼻四,除以一百,其实他们所达到的效果是完全一样的。 那大家可能会问其他的问题啊,比如说纽约周驰一,那么加州有没有可能是负一啊?我用一和负一,我不用一和零来表示啊,这个分类的啊,这样的一些数据,那么在这里我给大家的答案也是,一和负一也是可以的。为什么?一和负一啊, 这两个东西其实是什么来控制的?其实是这个鼻零和鼻四啊,这两个参数来控制的。那么我们说啊,我的这个空间上的 变量的维度啊,其实有两维,为什么?因为有纽约和加州两个维度,那同理,我的鼻音和鼻丝也有两个维度啊,我可以用两个变量来控制我的两个维度,所以说这边无论你选择怎样的两个数字,二和三, 负三和五,随便什么数字都是可以的啊,只要这两个数字不是相同就是可以的,所以在这边呢,为了 直觉上大家更好理解啊,所以我们一般选择一和零。好,那么到这里呢,我们这节课啊,这个模型简要的就已经给大家讲述完了,下一节课当中,我们将给大家讲述一个非常重要的点啊, 也就是大家还记不记得,当时假如我不把加州这一列数据给去掉,假如这一列的虚拟变量也出现在我的模型当中,那么我们就会掉入虚拟变量的陷阱。好的,谢谢大家,我们下节课见。
我们还有战法叫龙啸九天三步选股法,我们就给他讲一讲,对吧?因为过去这个方法,对吧?帮助我们抓住了很多牛股。做股票第一步是什么呢?是经监控适量全红,好,大家看一下,点下方看到没有?有四个 散户油资机构阻力,对吧?那么这个指标这样子,他是帮助我们去监控资金, 因为我们说有些股票为什么建议卖掉?因为有些股票他没有资金关注,那么一旦被资金抛弃以后啊,那么股票自然会跌。那么反观有些股票啊,他被资金行的合力,那么自然什么?自然容易被拉升,你看这个票看到没有?在低位啊?适量全红, 这,对吧?我们说我们做股票要选被资金一起看好的股票,那么才可以涨,你看在低位,你看上户油资机构, 机构啊,周期涨,在我们选股法里面第一步,那么第二步同们我们是要做三强共振,这什么意思呢?我们选股啊,要选强势股, 对吧?那么这个强势股位有没有标准,有没有定义?是这样子的,我们什么?我们有一个指标叫三强共振,好,是这样子,好好看一下同学们,他是什么?他是和大盘强度对比,和板块强度。 第三个和个股自身对比啊,因为我们说股票没有好坏,同们股票没有好坏,同们我们第一个看资金,那么第二个我们看强势, 第什么第三步呢?我们要看有没有上涨序列,因为有很多,选什么,他可能会忽略,为什么?在之前有很多选浪潮信息高配套,因为什么?因为他没有看懂结构。同志们啊, 因为我们说这个结构啊,在思想状况很重要啊,因为这个结构它是关我们的埋点。 tom, 因为我们这个战法的核心啊,就是抓住短线各股的一个强势起爆点,给我们看看票叫什么?叫远东传动 好,那么为什么说它这一天是个 metal 呢?你看一下,在在前面,你看前面一二三四五六七八九。 同们,你看为什么在前面买可以赚钱,你看为什么在这一天买就亏钱?同们,这个结构会忽略,因为有很多选做股票他把握的买卖点,那么其中啊,第一个他也知道选股票要选资金强势啊,选这个资金介入啊,选那个股票强势,但是呢,我们做股票啊,同们 有很多学员啊,他做股票会忽略结构的问题,我们这个嘴巴里面第三步啊,是结构,对吧?当这个股票他 他处一个上涨结构,我们才可以关注。比如什么从一到八到九上面这个九啊,九转指标,九啊,他是个转折点,绿九,你看,你看连长七八天,那么到九是什么?容易变盘,容易调整, 对吧?为什么说我说这一天他是个卖点,为什么?因为到九之后啊,他没有新高,那么自然什么短期,你看进行调整,为什么?很多学生买股票一买就跌,对吧?苏州票走势很好啊,你看趋势也很好,为什么啊?是吧?没有掌握到,没有掌握到结构的买点。 做股票的,我们要选强势,选资金啊,选结构啊,我们三个共振以后才什么才有机会?
近期又有一个题材又有大行情了,这段时间我们看到我们的龙字辈炒的是热火连天,尤其是我们市场的最高版,他也是龙字辈,我们近期还有一些龙字辈相关的个股,天天也是天花板, 但就在今天有一个题材刚刚开始底部启动,他就是我们的凤字辈。我们上海一家造自行车的凤凰今天已经是天花板了, 其他的凤凰也是在纷纷的跟长。昨天晚上我们在直播间也讲到了一个与凤凰相关的案例,他与华为概念以及我们的消费电子概念相关的,今天也是破镜涨停板。如果你现在还没有方向和思路,可以点个关注,晚上来到我直播间,我们一起来商讨。
大家好,我是小琴,欢迎大家回到机器学习。在上面两节课里啊,我们向大家展示了如何在拍粉还有儿里面导入最必要的数据库以及我们的数据集。 那么在这一节课里啊,我们就要真正的开始处理数据里面可能会有的问题了。第一个数据里面最常见的问题就是缺失数据,缺失数据意味着我们的数据题是不完整的,他可能遗漏了某一些数据, 这时候我们要怎么办呢?我们接下来就来看一看我们的数据是怎样的。 好,这就是我们在数据预处理这一张所用的数据了。好,我们看到我们有两个缺失数据,第一个缺失数据呢,是在德国的这一行,我们 缺少了用户的薪水信息。那么第二个缺失数据啊,就是对应这个西班牙级用户的年龄, 我们现在的问题就是怎样处理这些缺失数据。那么第一个大家可能已经想到了非常直觉也非常直观的方法,我们可以直接删除这两组数据,我们删除这一行用户的信息以及这个西班牙用户的信息。 这个操作呢他非常的简单,但是他可能风险很大,因为我们删掉的数据里面他可能包含了非常重要的信息。 那么这个时候啊,我们就要运用其他的方法,那么一个最为常用的方法就是我们用这一列的平均值来代替这个遗失数据,比如说 对于这个数据,我们就取其他用户的薪水的平均值,并且把这个平均值放在这里。还有对于这个年龄也是一样的,我们取其他的用户的年龄的平均值,并且把它放在这里。 好,我们接下来啊,就在 past 还有饵里面进行这项操作。好,我们现在在 paste 的界面里了,我们点击一下 dotax, 我们可以看到啊,这两个遗失数据呢,他就是用捺来表示的, 我们接下来呀,就在拍粉上面,将这两个捺分别替换成他们所数的这一列的平均值。好, 那么和之前一样,我们并不会自己来做这个操作,我们会从一个很强大的数据库里 里面导入我们需要的工具,并且用这个工具来帮我们完成取平均值的过程。我们在这里输入 fom sklan, 点 prapprossit 好 enprise mputir。 我来解释一下这行代码是什么意思啊?首先 sk 愣 他代表的是 siker, 这是一个非常强大的可以进行数据挖掘以及数据分析的标准库, 大家在之后的课程里面也会发现,我们运用了非常多次这个标准库里面的工具。 prosex 呢,他其实是这个标准库里面的一部分,那么他代表的就是数据的预处理,我们就从这个标准库里面导入了 emput 这个类, 那么 eput 这个类啊,就是专门进行缺失数据的处理的,它包含了处理缺失数据的基本的策略。好,那么导入了我们需要的类之后呢,我们接下来就来创建这个类里面的一个对象, 我们把这个对象叫做 inputut, 但是这个 i 是小写的,那么他就是等于好,我们输入这个类的名字。 现在我们可以输入开门 i, 来查看一下这个 eputer 这个类里面到底有哪一些参数,我们需要复制 come i 啊,就相当于是呃拍粉里面寻求帮助的一个快捷键,如果大家对某一个语句,某一个语法不清楚的话,大家就可以输入 come 的 i 来寻求更 多的帮助。好,我们接下来来看一看 epuch 里面有哪一些参数。大家看到第一个参数啊,是叫 mixy wuss, 就是代表缺失数据。那么这一个参数呢,是来定义我们的缺失数据要怎样辨认, 那么他的默认值啊,是难,那么这个难其实对应的就是我们数据里面缺失的这一块了。好的,我们就在这边输入 mic ylus, 他是等于单引号。那大家注意这两个,嗯,都要大写 好。下一个参数是抓着,这也就是策略,这个参数代表我们要用哪一个策略来处理我们的遗失数据。 第一个策略是命的,也就是说我们用平均值,我们用其他数据的平均值来代替我们的缺失数据。 第二个是咩点,也就是说我们用其他数据的中位数来代替缺失数据。那么第三个是 most freat, 也就是最常出现的这个意思,就是说我们取其他数据里面最常出现的值来代替我们的缺失数据。 那大家应该还记得,在我们这个情况里面呢,我们就用命的,也就是平均值来取代缺失数据。好,所以我们在这边输入抓的紧, 等于单引号命。好的,接下来的一个参数呢是 cc, 如果 xx 等于零,我们就取这一列的平均值,如果他等于一的话,我们就取这一行的平均值。那么很明显啊,我们在这里是要取列的平均值,我们输入 xx 等于零。好,接下来的这两个参数呢,我们并不需要特别复制,那么我们的 eput 这个对象的创建呢,已经写好了,我们接下来啊就需要用我们的数据来拟合这个对象, 那么这时候 mput 他就是等于 mput 点 face, face 是礼盒的意思, 那么要去你和这个 nputy 的数据呢,分别对应的就是 ex 里面的年龄还有薪水,他在 ex 里面是第一列,还有 第二列,因为大家还记得在拍粉里面列数是从零开始的,所以我们在这里输入 ex, 首先冒号代表我们是要取所有的行数,那么逗号的后面是列数,在列数里面我们就写上一冒号 三,大家注意啊,不是一到二,而是一到三,为什么呢?因为其实一冒号三,他代表的是一和二,三是并不包含在内的,这是拍粉的语法里面一个非常怎么说,非常细小,但是也非常重要的点, 大家自己在写程序的时候要格外的小心。好,我们用这个数据,你和好了 epu 的这个对象之后呢,我们接下来就开始算缺失数据到底是多少,我们输入 ex 冒号第一列到第二列,也就是一冒号三,他就是等于 emput 点穿 spam, 穿 summ 也是 empart 的一个方式,那么穿 sum 就是转化的意思。好, 我们要用的数据就是 ex 所有的行数,第一列还有第二列。好的好的,我们处理遗失数据的这个代码呢,就已经写完了,我们接下来就选择这几行代码, 并且是入科 matex。 好,我们接下来在这个 ctrl 里面查看一下 ex 的值, 我们看到这个难都被替换成了相对应的平均值,我们接下来呢就在 excel 里面验证一下他们到底 是不是平均值。好的,我们现在进入了我们的 xl 里面,首先我们对撒了瑞,也就是薪水,我们对这一这一行取平均值,那么他就是等于艾瑞瑞值。 数据是这一行好的, 大家看到他的值是六万三千七百七十七点七七七七七循环,我们在 excel 里面所得到的平均值的确就是对应拍粉里面的取代遗失数据的这个值,我们接下来再来验证一下薪水。 好,我们在这边 复制粘贴一下,那么我们看到这一行的平均值是三十八点七七,跟 我们在拍层上面所得到的纸也是一致的。好,那么大家现在已经知道如何在拍层里面运用不同的策略来处理我们的缺失数据了, 大家如果感兴趣的话,可以试一试其他的策略,比如说用中位数来代替缺失数据,或者是用最常见的数值来取代缺失数据,这两种策略呢,在某一些情境之下其实是非常有效的。 好,我们接下来就在耳里面处理我们的缺失数据,在耳里面呢,我们会运用到同样的策略, 也就是说我们会将这列剩余数据的平均值来代替我们的缺失数据,但不一样的是,在而里面,我们会分别对每一列进行出 处。理。好,我们首先从年龄开始,我们输入 dotax 美元符号 h, 那么我们指定 e 字典 n a。 好,我待会会跟大家解释这个函数是什么意思, 原来是挨着这一列好,那么他就是等于命呢?对他泄气 h, 并且 nna 点 r 等于 q 好,这句话是什么意思呢?首先我们取数据集里面的年龄,这一列 中括号里面代表的其实是列标。好,这个列标里面包含着什么? ex 点 n a 这个函数啊,他是为了判断一个值是否是捺,如果他是捺的话呢?那么我们的法 打环值是 two, 如果他不是难,他是一个真真实实的数据,那么我们会得到 boss, 比如说我们看一下这个叠加 sex 里面,在 a 纸里面,那这个数据对应的是第七列好,如果我们在 ctrl 这个窗口试着输入 exdenn adexx 名,符号 a 纸, 我们看到对前面的六个数据,我们所得到的值都是 boss, 那么对第七个我们得到的数,因为第七个数据是 nice, 然后后面也是仍然是 boss, 那么如果我们输入对他 sex 美元符号 h e c 点 n a, 并且里面加入这一列的话,我们就得到了第七个数 数据的值。好,接下来我们是需要把这个 n a t 换成剩余的数据的平均值,所以我们就在这边写等于好,那他等于什么呢?命的是平均值的意思,我们对 dxx a 值这一列去平均值,但是注意了,我们这一列里面有一个捺, 如果我们一直保留这个难的话,我们得到的平均值也会是一个难,我们可以试一下命的叠他 sex 原符号 a 制, 大家看到没有?因为这个第七列数据的存在,我们最后得到了一个难,所以这个时候我们需要把这个难,我们需要把这个数据给剔除掉,我们怎么剔除掉呢?我们就写 n a 点 r m 等于 t, 那么 n a 代表是 n l m 是 reame, 也就是英文里面删除的 意思,他是等于处,也就是说我们在这里告诉命的这个函数,我们需要把 dhatsa 这一列里面的 n a 全部都去除。好,那么接下来我们就运行这一行代码, 可没练腿。好,我们现在去查看一下我们的对他,大家看到没有,第七列的这个难,已经被替换成了其他数据的平均值, 我们接下来就对薪水这一列做同样的操作,我们复制并且粘贴这行代码,然后我们把 at 都改成 sorry 这里还有这里以及最后平均值函数。 好,我们仍然选择这行代码。运行。好,我们回去查看一下呆呆线。好,大家看 看到 sorry 这一列里面原来是捺的这个数据呢,也被替换成了其余数据的平均值。好,那么这个时候啊,在拍等和饵里面缺失数据处理,这一刻我们已经上完了, 在下一节课里啊,我们会学习分类数据,大家会懂得什么是分类数据,为什么有分类数据的存在,以及我们怎样处理我们的分类数据。好的,那么我们下节课再见,谢谢大家。