粉丝2353获赞3.5万
这个上下插针插得最狠的就是 o e 啊, o e 它用户量不是很多,它只有 b n 的一个零头,但是它插针比它差得很 啊,他有的时候比人家要多个五六百点啊,不管是上还是下,他擦的是最狠的啊,这个他都可以人为控制的啊,非常的黑暗。这个里面千万要注意,最好不要玩碧泉 啊,国内有正规的气候市场啊,很正规,有监管啊,他不会乱来,不会随便随随便便把你插针爆掉, 就算是你达到报仓的点了,他也会给你发信息,打电话说你保证金不够了,叫你追加保证金啊,这个非常的人性化啊,不会随便说把你钱黑掉,其实这个你就是到了要报仓的点了,你完全可以通过,第一追加保证金,第二 你可以平仓掉一部分,比方说我先平掉,那平平仓掉三分之一,四分之一就可以了,不可能钱一分都没有的啊。但是你要是在遂宁币,比方说在 oe 这个上面做啊,你就是有几百万,他就一下子跟你说你没有了,爆掉了,一分都没有了 啊,他就是就是这样给你操作的,所以这个东西千万要注意,不要,最好不要玩啊,如果你一定要玩呢,要找一个靠谱一点的平台啊,当然国内做期货你也不是说随便找个,找个人开户做啊,你也要找一个正规的期货公司,也有很多 这个黑的,也有成都这个黑的起货公司。就是就是,怎么呢?就跟玩币券一样,他根本就没有给你接入主行情,就没有给你接入大盘,相当于啊,就是你玩的只是 一个虚拟的,在他局域的虚拟网里面,在那里玩,他说给你爆掉,就给你爆掉了,知道吧?他们虚虚拟币这个圈子就是这样的,因为又没有监管,现在这个所有的都不合法的,他们的服务器都移到国外去了 啊,随便国外一些小国家,很小的那个岛上或者哪里注册一下,你又没人管, 他说你报掉了,你就一分都没有了啊?其实哪里有这种事情呢?这个钱是你的真金白银,就算是你要到了报仓的点了,他完全可以先评掉一部,你完全可以先评掉一部分,对不对?你先评掉个三分之一,这钱就保住了 啊。所以说这个这个里面啊,他们这个里面非常黑暗的,千万要注意这个问题,你要做,要找一个正规的好一点的平台好,他们其实很多人做这个,但吹这个东西, 当然任何事情都会有人说好,有人说不好,他们说好的这一部分人,很大一部分人这这个上面有利益,他们赚这个返佣啊,他这个手续费啊, oe 的这个手续费返佣的点是很高的啊,他们一级代理商大概能返百分之八十, 也就是 oe, 他根本不通过手续费赚钱,他就是通过玩的人多在上面黑钱,知道吧?手续费他基本上把他当成传销,全部都还给人家了,你我之前人家还给我,我一天一两千美金还给我。
现在的显卡分为计算显卡和游戏显卡两种构架,计算卡更接近于 cpu 的构架,它具备超强的运算能力,著名的拆 gpt 就是计算卡芯片提供的算力。现在我们拆开一块游戏显卡,先看看它里面的样子。 首先拿掉显卡的散热片,这块 pcb 版的正中央就是显卡芯片,芯片的周围是他的显存颗粒,右侧是供电的稳压模块,他们需要一块巨大的散热片来解决工作中的散热问题。 显卡的左侧是连接屏幕的显示接口,但如果是计算卡,则没有显示接口,也没有散热风扇,因为这种显卡都会装在服务器的机柜里面,会统一构建散热通道,有一组暴力风扇统一散热。 显卡芯片是通过一千多个触点焊接到 p、 c、 b 板上的,打开它的封装盖,里面是芯片的核心部分,它集成了超过一百 一十八亿个晶体管,他们被分为六个区域,一共有二十八个图形处理单元。这是每个单元的结构图,里面包含了一百二十八个核心,也就是一颗显卡芯片,总共有三千五百八十四个核心。 这种核心的功能比较简单,他只做单一的图形处理工作,而 cpu 的核心要比他复杂很多。此外, gpu 芯片的六个区域都配备了存储数据的二级缓存, 他们通过周围的内存控制器连接到外面的显存上,而下面的 pcie 则是用于将数据传输到 cpu。 现在把芯片放大到纳米级的大小,它里面有着和 cpu 相同的晶体管层级,上面也是由金属通孔和金属导线所组成。 虽然使用同样的半导体材料、制造工艺和制造厂商,但他们的功能结构则完全不同。 gpu 的核心只做单 一的图形处理工作,三千八百五十四个核心都只做同一件事,所以结构比较简单。而 cpu 虽然只有十个核心,但他的结构则要复杂的多,他需要对操作指令进行任务分析、物理运算、逻辑运算、代码执行以及各个硬件之间的协调工作。 因此显卡芯片和电脑的 cpu 有着本质的不同。而我们手机的显卡在他的 soc 芯片里面,这是苹果 a 十六的 soc 芯片,这是 cpu 的核心区,而他的显卡芯片则要大很多,与他配套的显存也更大了。这就是苹果十四 pro max 的游戏性能比较强悍的原因。 因此我联合了左下角厂家,准备了不限量的顶配苹果十四 pro max, 颜色任选,升级就能领,现在上线更有机会额外领取 ipad pro, 直接凑齐苹果全家桶,都是官方 直邮到家,现在点我左下角链接下载上线等等级一到,填填地址,手机平板直接送到家。活动火爆,早领早享受!我们拿游戏显卡再和计算卡做一下对比, 计算卡的芯片带有先进的 h b m 显存,它取消了游戏光追单元,换成了大量的计算核心,并且用了台机电最新的制造工艺。 h b m 显存是个啥?它是把显存直接放进 g p u 芯片里面来交换数据,因此它拥有超高的代宽, 也就是计算卡的 gpu, 具备超强的运算能力。他是把游戏显卡中的三 d 引擎部分替换成大量的运算单元了,以同一代的计算卡和游戏卡来对比,计算卡的核心要比游戏卡大很多,同样是显卡,架构却完全不同。计算卡需要应对 ai 领域和超级计算机领域的运算, 而游戏显卡则只需执行三 d 画面的任务。游戏卡四零九零需要一万三千元左右,而计算卡 gh 一百要比他贵二十倍。
gpu, 中文名称图形处理器,又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备,如平板电脑、 智能手机等上座图像和图形相关运算工作的微处理器。就像家用台式电脑,都包含一个主机箱,主机箱内有主板,主板上插着显卡,显卡上面有个最重要的芯片 gpu。 那么 gpu 和 cpu 中央处理器有什么区别呢? cpu 就好比餐馆里的厨子,比如餐馆有四个厨子,就是四盒的 cpu。 平时顾客少的时候,他们研究菜谱,同时还有能力兼顾做菜,但突然接到几个大订单,要做几万份盒饭食,四个厨子就明显分身乏术。于是饭馆招聘了一百个 会做饭的小工来给厨子打下手。厨子设计菜谱,小工去做菜,分工明确,各司其职。通俗点讲, cpu 就是负责思考和决断, gpu 对重复性的工作高效执行。 gpu 和 cpu 都为了完成计算任务而设计的,两者都有自己的缓存体系、数字运算和逻辑运算单元。两者的区别就在于其缓存体系和数字逻辑运算单元的结构差异。 在一九九九年,美国英伟达公司做出了第一款 gpu 作为计算系统的核心用在计算机上,率先将显卡芯片带入 gpu 时代。 gpu 的独立出现,带动了游戏行业、制图行业、视频行业的快速增长。在国家经济转型、产业结构升级的时代背景下,我们已经进入了一个算历时代。互联网 时代的大数据高速积累,全球数据总量几何时增长?算力为大数据的发展提供坚实的基础保障。影视行业二零零九年上映的电影阿凡达,在当年可以说是巅峰之作,美轮美奂。 如果没有超级计算机的算力支持,用普通电脑做后期效果渲染需要一万年的时间,而用超级计算机 一年就可以完成计算。人工智能预计到二零三零年,无人驾驶、智慧医疗等领域的算利需求,相当于一千六百亿颗高通骁龙芯片的算例。骁龙芯片已经是当前非常前沿的芯片了,可想而知一千六百亿颗这样的芯片算利需求有多大。 这么大需求的算力需求,要用什么去满足呢?那就是具有超强计算能力的显卡芯片 gpu。
有一种 ai 芯片,在实验室里已经干翻了 gpu, 那就是一组气芯片。这种芯片呢,不仅能耗只有传统芯片的百分之个位数啊,而且效率非常高,可以在一个非常小的呆塞子上面实现极高密度的 ai 加速运算。这期视频呢,我们就来深入了解一下这个据说能够解决算力焦虑的一组气芯片。 关注我的老粉丝啊,可能看过我之前一期视频啊,讲存内计算的,也就是说利用存储芯片呢来进行计算。那么这种理念的出现啊,就是为了打破存储墙的限制啊,因为我们现在所用的 cpu, gpu, tpu 等各种 pu 啊,它本质上是冯诺伊曼架构, 计算和存储呢,是分离的,那么计算器和存储器之间要频繁的来读写数据啊,不仅降低效率,而且增大了功耗。那么为了打破这种所谓的冯诺伊曼瓶颈啊,那么很多大厂和科研机构啊,都在研究存内计算这门技术。 常见的存储器呢,无非就是 srm、 drm 和 flash 三种,分别对应我们熟知的缓存、内存和固态硬盘。而存储计算呢,又分为数字计算和模拟计算。 其中呢,这个 s ram 因为是靠六个晶体管来存储数据啊,所以呢,他会优先用来做数字计算。而 d ram 和 flash 呢,因为是靠电荷积累来存储数据的,所以呢,他俩只能做模拟计算。 所谓的模拟计算,就是说不通过晶体管来构建零和一,而是借助电学里面的电压、电流和电阻三个物理常量的关系来实现乘法和加法。而这期视频我们要讲的一组器芯片啊,就是一种模拟计算芯片, 更确切的说呢,它是一种类脑计算芯片啊,应该说呢,从硬件电路的层面看的话,它是真真正正可以模拟人脑工作原理的一种芯片,那么它到底是个什么原理呢?要先从一组气这个东西说, 一组气 memorist, 它是一种基本的电路元件啊,其实从命名上来看,所谓的一组就是记忆电阻吗?那么具体来说的话,就是一组器的电阻会随着电压或者电流的变化而变化, 而一旦断电以后呢,他就会维持在这个电阻上不变,也就说呢,我们可以通过调节电压或者电流来改变这个气垫的电阻值,那么他之所以会有这种特性呢,是因为某些材料啊,他的这个电阻呢,会对电压或者电流有响应, 比如说一些这个过度金属氧化物呢啊,比如说这个碳酸丝,氧化钛和氧化液等啊,那么他们的这个电阻呢,也就是允许电流通过的能力啊,会随着电压的变化而改变。 那么再深入一些,就是说这些氧化物中的氧原子呢,在施加不同的电压后,他在整个材料的金格结构中啊,这个分布状态是不一样的。如果说这些氧原子 都从原来的位置上跳了出来啊,集中到了某一个地方,那么他们留下的这个空位啊,啊,叫仰空位吗?就正好聚集在一起,这个呢就能够允许电子成群结队的通过,因为这个洋洋子走了以后啊,他是带负电盒的吗?那么留下的空位周围都是正电盒,所以呢这个电子就会往这边走, 如果在某一个电压下,仰控位的分布非常的离散,那么就相当于是阻碍了电子的行径啊,他就没法成群结队,因此呢,电阻就增大了,所以一组器呢,其实就是采用了这种电阻可以随电压而变化的一种材料来制作的。 当然呢,他也有别的物理机制啊,比如说这个铁垫材料和下面材料等等啊,都是会随着电压的变化而导致内部金戈结构的某种变化,从而呢就影响了电子的行进能力。那么这个具体呢,我们就不展开了啊,所以大家会发现啊,如果你给到不同的电压啊,就可以得到不同 电阻,那这个岂不是相当于就写入了一个数据吗?一个电阻值就对应一个信息啊,对吧?那么十个电阻值呢,就代表十个信息吗?所以一组气啊,它实际上有存储能力,它本身啊就是一种存储介质。那么说到这里呢,有人可能就会问了啊,你断电以后,电阻值是不变的啊,可以存储数据啊, 但是呢,一个芯片一个电路啊,他总是要通电运行的,那么你一旦通电的话,这个电阻值不就变了吗?这个没有关系啊,因为一个材料的电阻发生变化,他有一个预值,只有施加的电压超过这个预值以后啊,他才会改变电阻。 而一般在读取这个组织的时候呢,通过的都是非常微弱的电压或者电流,所以呢,它的写入和读取啊,并不是充足的。那么现在我们知道了啊,这个叫做一组气的东西呢,它可以用电阻来存储信息,那么它是怎么用来给 ai 加速的呢? 大家,我知道啊,无论是 cnn 还是 dnn, 还是 rnn, 还是什么 nn 啊,当代的神经网络,他有百分之九十以上的计算,都是乘积累加运算,也就是一个矩阵跟另外一个矩阵相乘,然后把结果相加, 那么这个在数学上呢,叫做加权求和。这个计算在 cnn 神经网络中的操作啊,就是将输入信号跟权重相乘,得到一个结果, 那么这个结果呢,经过一个激活函数,会再次跟下一个神经元的权重相称,以此类推,最终呢,就提取出了一个图片的特征图。 所以 ai 加速芯片的关键就在于解决这些海量的乘积累加运算。那么在 gpu 中啊,我们知道它有专门的电路啊,在处理这些运算啊,比如说英伟达 gpu 中的 tinser 核心啊,就是专门做这个矩阵运算的一个硬件电路。那么在一组机芯片中呢,它借助的是一个模拟电路的方法 啊,那就是电压值表示输入信号,电阻值表示权重,电流值表示结果。而根据三者之间的关系啊,也就是电流等于电压,除以电阻啊,可以等效于电流等于电压乘以电阻的倒数, 而电阻的倒数啊,就是电导值。所以呢,这里的乘法运算就是电压乘以电导就等于电流,那么根据这个关系式呢,一个乘法就完成了,而加法呢,就是把电流串联起来做累加。由此呢,基于一组器啊,我们就实现了乘积累加的计算。 那么其他那些计算,比如说激活函数计算啊,就是要借助一组气的这个外围电路,也就是 gucmos 的传统逻辑电路啊,来实现,这个就是一组气芯片的一个核心原理。那么他要实现这样的功能啊,需要构建一组气交叉阵列啊,来模拟神经元之间的这个连接。那么这个呢,通常有一二和 et 一二 两种结构啊,那么区别在于后者呢,是单独给每个一组器呢,加了一个晶体管来控制电流的通断。那么这个具体呢,我们就不深入了啊,大家简单了解就可以了,那么这里重点要讲的是他为什么叫做累脑芯片。 我们都知道啊, ai 的神经网络借鉴了人脑的一个信息处理方式,但是呢,它只是一个算法层面的借鉴啊,而内脑芯片是真正在物理层面的一种复刻。首先呢,这个由电阻值表示的权重啊,它相当于突出嘛, 权重的大小代表了突出之间的连接强度,也就是上一个神经元能够对下一个神经元起到多大的影响。而由于电阻值可以通过电压来重写,所以呢,它具有可塑性,也就相当于突出的可塑性, 因为在人脑中呢,神经突突之间的连接啊,是有强弱变化的。然后呢,非常重要的一点来了啊,这种一组气芯片的特殊原理啊,其实非常适合 用来执行一种叫做 snn 的神经网络,那就是脉冲型神经网络。在这种神经网络中啊,一个神经元是否被激活,需要看他接收的输入信号是否累加达到一个预值。这个是什么意思呢? 一般的神经网络,下一个神经元是否被激活呢?以及以多大强度被激活,取决于激活函数的这个计算结果。但是在脉冲型网络中呢,神经元是否被激活啊,要看这个输入信号是否够多,但如果够多的话,他才有可能被激发。 那么这也就是说明啊,这个脉冲网络的信号是离散的啊,分离的,他不是那种连续的。所以呢,在脉冲型网络中啊,会有大量的神经元,他其实是处于未激活状态的,也就是说, 执行一项任务,有很多神经元是用不到的,那么这个就跟人脑就一样了啊,你在思考问题时啊,并不是同时调动所有神经元,所以这个脉冲网络呢, 它具备天然的一种稀疏性啊,那么这个就让他的这个能耗非常的低。说到这里啊,可能大家还是不太明白啊,为什么脉冲型网络像人脑他是这样的啊,他呢具有一种时间依赖可图性。在脉冲网络中呢,如果前神经元被激活后,后神经元也立刻被激活, 那么这个就说明,在这个任务中啊,这两种神经元之间是强关系,所以他们的连接呢,会增强,反正呢就会减弱,这个其实就是人脑的常时成增强或者这个抑制机制。 那么简单来说呢,就是执行一个任务啊,这一组特定的神经元经常被激活的话,那么他们之间会加强联系,来形成对这个任务的熟悉程度,如果你长时间不练习的话,那么这一组神经元的连接啊,就退化了, 所以呢,你就忘了一些东西。那么在脉冲型网络中呢,也就是利用了一个类似的原理啊,而这里所说的时间依赖型啊,就是体现在这个 神经元之间被激活的时间呢,他是存在先后的,我们想象一下啊,神经元 a 同时连接着 b 和 c, 因为神经元的这个输入信号要累加到一定的这个预值啊,他会被激活,那么这个累加的过程呢,是有快有慢的, 神经元 a 被激活,那么这个之后, b 先于 c 率先达到累加的预值被激活,那么就认为这个 a 和 b 之间的联系更强,这个就是时间依赖性的一个意思。然后我们回到一组系的应验上来啊, 他的电阻值呢,要发生变化,也是需要达到一个预值才可以啊,而实际上要想精确调整他的这个电阻值呢,也会采取脉冲电压来精细调整,所以这个硬件的控制方式呢,其实在理念上又跟脉冲网络的这种模型呢,有一定的相似性啊, 所以一组器芯片呢,是非常适合啊,用来执行 snn 这种网络的,那么这种硬件匹配这种网络,就可以充分的模拟人脑的学习 功能,这个就是一组气芯片的强大制作。一组气芯片啊,相比传统的 cmos 逻辑芯片呢,最大的优势就是功耗低,密度高,由于本身是存算一体啊,而且呢只需要极低的电压来操作,所以他的这个片上学习功耗啊,只有传统逻辑芯片的百分之个位数。 那么此前清华大学这个一组机芯片呢,它的片上学习能耗呢,就只有 c 某的芯片的百分之三左右,而这种芯片的密度可以做到非常的高,目前一路上呢,可以缩放到两纳米, 因为一组七本身的这个电路结构啊,它非常的简单,可以做到非常非常的小。清华大学的这个一组七芯片呢,在手写体识别上呢,与英文达的这个 v 一百相比, 就实现了一百一十倍的能效提升和三十倍的性能密度提升,这个呢,还只是一个基于一百三十纳米工艺,只有十六万个一组器的设计,而一组机芯片与 cmos 工艺哈,它是兼容的,那么这个就意味着 他同样可以用传统的 ic 制造工艺来生产。所以说到最后呢,我们会发现啊,一组系芯片如果实现了大规模集成,并且有非常成熟的硬件架口,然后呢匹配脉冲型神经网络,那么他的学习能力呢,会非常的强。这个呢是一种完全模拟人脑的芯片,是真正的 ai 芯片啊, 我告诉你啊,现在的拆了 gpt, 他看上去很像个人,但是呢,本质上其实还是算法,但是一旦硬件层面具备了类脑功能啊,他说不定还真有可能会产生意识。所以呢,目前的 gpu 什么呢,只是 ai 技源的一个开端,未来的 ai 芯片啊,真的是不敢想象。我是大刘,感谢观看。
这是电脑的独立显卡,打开显卡,里面是一块 pcb 电路板,中央这个是显卡的 gpugpu, 和 cpu 究竟有什么区别呢?我们举个简单的例子,这里有一百名小学生和一位数学博士,然后让一百名小学生和数学博士做一百道非常简单的算术题。 一百名小学生每人分配一道题,但是博士一人要做一百道题,哪一种解题速度更快?当然是一百名小学生会更快的解决问题,但是现在有一道非常复杂的数学问题, 由于知识超纲,一百名小学生根本无法解决,而数学博士却很快给出了答案。这个例子中,数学博士就相当于计算机的 cpu, 而这一百名小学生组成的整体就相当于 gpu。 cpu 主要用于快速的处理复杂的运算,而 gpu 主要用于处理数据等巨大 的简单运算,尤其对图形处理性能最佳。那 gpu 是怎么处理图形数据的呢?我们以三 d 游戏为例讲解。这是一个三 d 模型,是由点、线、面组成,将点和点连接起来就成了线,填充这些线就成了面,其中最重要的就是顶点,将这些顶点连接在一起 就形成的三维模型。顶点非常重要,里面包含了生成三 d 模型的坐标信息、图像信息以及深度信息等等。当我们操作游戏时, gpu 就会开始处理图形数据。首先三 d 模型的顶点数据会被输入到 gpu, 接着 tpu 读取描述三 d 图形外观的顶点数据,并根据顶点数据确定三 d 图形的形状及位置关系,建立起三 d 图形的骨架,而后进行光商化计算显示其实际显示的图像是由像素组成的, 我们需要将前面生成的图形通过一定的算法转换到相应的像素点上,接着进行纹理映射,前面的步骤只是生成了三 d 物体的轮廓,纹理映射就是将多边形的表面贴上相应的图片,从而生成真实的三 d 模型。生成的三 d 模型 还需要调整模型的光影效果,最后利用三 d 模型的深度信息,计算出三 d 模型的遮挡部分,最终由光山化引擎完成像素的输出。 一般来说,大型的三 d 游戏帧率都在六十帧左右,也就是每秒显示六十张图像。而现在显示器的分辨率大多为一千九百二十乘以一千零八十,将水平和垂直像素数量相乘, 显示器上显示大于二百万个像素,所以计算机一秒钟需要计算一两千万个像素点。更要命的是,我们在打游戏的时候, 三 d 模型都是移动的,他会改变位置,改变大小,还会旋转,这些都是 gpu 实时进行计算更新的。如此大的数据量, gpu 是怎么处理的呢?其实 gpu 在进行图形处理时,顶点或预制像素并不是按顺序计算的, 什么意思呢?比如这个计算,如果说想计算低的值,必须先计算除四的值,也就是第一步和第二步不能同时进行。而图像处理则是完全相互独立的并行计算,比如这张图形每一个像素都是独立的,不需要按顺序计算,谁抢到资源谁计算,只要保证最终图片显示就可以了。 所以 gpu 并行计算效率机构,这是用于处理图形的指令,如果你把它编译成 gpu, 能理解的积极语言就是这样的。这些指令由 gpu 上的算数逻辑单元处理。如果 gpu 有两个内核, 则能同时计算两个指令。如果增加内核的数量,就可以一次计算更多的指令。也就是说,核心越多,一次计算的指令就越多。 gpu 究竟有多少核心呢?这是显卡里面的 gpu, 中间是 gpu 的芯片, 芯片大约有一百一十八亿个晶体管,这些晶体管被组织成六个图形处理集群,共计二十八个流时多处理器。每个流时多处理器由一百二十八个核心组成,一共三千五百八十四个核心。而有些更先进的显卡, 核心数超过一万个。这也让 gpu 在并行处理大量数据方面的效率极高。比如最近爆火的叉 cpt, 需要对 ai 模型进行海量数据的训练,而这种海量数据的计算恰恰就是 gpu 所擅长的,这也让显卡在人工智能的应用上大显身手。