粉丝2814获赞7955
电脑 gpu 占用率低是什么意思?怎么解决?哈喽,我是喵科大叔。电脑 gpu 显卡占用率低只有百分之十不到,通常意味着 gpu 没有被充分利用,这很大程度上跟你在用电脑做什么相关。不同的应用和任务对 gpu 的需求程度不一、 gpu 占用率较高的,比如图形密集型的游戏、三 d 渲染、视频编辑和渲染、专业图形设计、 cad 等。你可以在使用此类软件时查看 gpu 的占用情况,有些时候可能飙升到百分之一百。 其他常规程序如文档编辑、表格制作、网页浏览等轻量级任务中, gpu 并不是主要的工作负载,因此占用率极小,不用过分担心。除此之外, gpu 性能没有被充分利用还有几个可能的原因和对应的解决方法。一、 gpu 驱动程序 过时或不兼容。这可能导致 gpu 不能充分发挥性能。你可以检查并更新 gpu 驱动程序,确保驱动是最新的。二、电源管理设置比如在一些节能模式下,系统可能会限制 gpu 的性能以节省电力。 你可以在控制面板中修改电源设置,选择高性能模式,确保 gpu 可以充分使用。三、某些程序或游戏的设置可能没有充分利用 gpu 的能力。你可以调整程序或游戏设置,提高图形设置将增加对 gpu 的需求。 四、硬件限制其他硬件组件如 cpu 或内存的性能瓶颈可能限制了 gpu 的性能发挥。检查一下硬件的兼容性,确保你的 cpu 和内存足够强大,以免成为 gpu 性能的瓶颈。 最后,如果你不确定 gpu 的占用率情况是否正常,可以使用专业的硬件监控软件如 gpuz 来观察 gpu 在不同程序下的表现。
h 一百很好,但是我们需要更大的 gpu, 需要普惠万亿参数的 ai, 这是黄教主在上周二零二四 gtc 上的宣言。毫无疑问,英文达刚刚发布的 black will b 两百 gpu, 让人看着是无比让人羡慕啊,这种纠结与担忧的情绪让我溢于言表。 超强的性能,两千多亿的晶体管,二十千兆次的 fp 四算力单机支持十万亿参数的大模型训练,从 pasco 到 black will 的架构前瞻性,应伟达在这次 gtc 上方向性的布局与战略优势, 确实让竞争对手们看不到车尾灯啊。哎,说实话,这不仅是我们国内 gpu 厂商 b 两百的领先,也让 md、 英特尔、 mata 等其他美系大厂 也纷纷望而却步,陷入沉默。在 ai 斯福系市场上,英伟达这次是真的不给所有人活路啊。 不过呢,我看了一下网络上的一些文章和视频,我发现大家都比较关注在 b 两百的性能提升方面,但并不是真正的理解,因为它 b 两百系列芯片真正的强大点在哪里?核心的优势又在哪里? 事实上呢,在 b 两百发布之前,业界对于 b 两百单科芯片的性能提升都是啊有所预期的。而此次 blackville 架构真正的核心看点,其实是因为他只是拿出的 cheaply 杀手锏,以及 ai 芯片间的互联技术。 比如说,黄教主手拿的这块整合了两颗 b 两百和一块 grace cpu 的 g b 两百超级芯片,这 个双带间十 tb 每秒的芯片间互联通信是如何实现的?包括此次与 gb 两百同时登场的一点八 tb 每秒的 nvlink 同互联方案, 能否挑战现有的光模块呢?在未来是大模型的复杂程度,预计会进步的提升。 gb 两百会完成英伟达在 agi 方向上的大一桶吗? 那么今天我们就通过英伟达一年一度的 gtc 大会来窥探一下目前英伟达在 ai 领域的统治力,来思考一下在英伟达显卡倍镜的现况下,我们要如何应对,如何追赶,如何演技呢? 首先我们来谈一下互联,互联芯片间的互联,数据间的互联,服务器之间的互联。为何在目 ai 高速发展的当下,互联技术会占据越来越重要的位置呢?毫无疑问,我们只要对目前大元模型技术发展趋势有一个基本概念就知道,大模型其核心的特点就是使用了超大规模的参数量模型,通过海量的数据进行训练, 从而实现了 ai 能力的突破与赋能。其中不管是五纳米、三纳米、两纳米,还是此次 b 两百使用的较为成熟的台阶垫 n 四 p 四纳米工艺, 不可否认摩尔定律正在逼近物理极限,而单科芯片的性能本质上都是有限的,所以大约模型发展资金有一个较为显著特点,就是对于分布式技术,对于多个计算节点协同工作有着越来越强烈的需求。在这样的背景 下,根据牧童理论,各个节点间的数据交换效率它实际上就变得越来越重要,它既决定了整体 gpu 集群内部 top 架构陈述,也决定了最终整体的计算效率、速度、延迟与准确性。 换句话说,在高带宽、高密度数据互联的人工智能时代,单科芯片的性能已经不再是那么那么的重要了,或者说不再是规模化部署的唯一指标了。 在未来呢,理论上每颗 ai 芯片都可以用最适合的、成本、最优的工艺去制作即可, 而如何实现高效率的、低能耗的、高密度的互联,反而成为了比较核心的重要技术。那么此次英伟达 g b 两百又是如何实现双待之间 十 tp 每秒的超高带宽互联的呢?如果用一句话总结,那就是说,如果苹果 md 是台阶店的重要客户,那么因为答则必须是台阶亲爹级别的商业合作伙伴呢? 不可否认,此次英武达能够正式迈向 triplet, 迈向 m c m 的进程,其中台机电的 covers 先进封装技术那绝对有着功不可没的贡献。 简单来说,目前台阶店 cover 的先进封装根据中介的不同,大致可以分为三条具体的技术分支, 分别为 covers s、 covers r 和 covers l。 其中 covers s 是台建最早一代二点五 d 先进封装技术,第一代的 covers s 可以追溯到二零一一年,这里的 s 指的就是 senicle 请利用龟作为中介层连接小芯片的一种 先进封装技术。目前 covers s 啊已经发展到了第六代,目前主要多用于 h b m 内存上面。而此前备受关注的被誉为是英伟达 h 两百最强挑战者的 m d m i 三百人工智能超级芯片,则采用的是台机电 covers r 封装技术。 这里的 r 呢,指的就是 r d l 材料,是一种由聚合物和铜轴线组成的互联层。早期的 covers r 这台机电为了改善 coverss 成本和制造兼容性而出现的, 它最主要特点就是具有较好的成本优势,同时呢,也有比较好的设计灵活性。但是啊,牺牲了一定的 i o 密度,排除一些外部的因素啊, covers r 确实是比较适合 m d 这类产品线比较丰富的厂商。而此次英伟达 gb 两百超级芯片使用的呢,这是目前台建最为先进的 coversell 封装技术。这里的 l 指的就是 local, 其原理是结合了 tsv 和 rdl 技术的所有优点,在有机基本中加入了小硅桥来实现了一种芯片间的高速互联技术。 具体的技术细节啊,我这里就不说太复杂了,免得大家看的枯燥。总来说, covers l 制造过程要比 covers r covers s 要来的更加复杂,同时呢,成本也相对要高很多。但是呢, local 硅桥互联技术啊,又大大提高了芯片间的整体互联密度和延迟。此次 covers l 在 g b 两百上首发确赏,让我们见识到了双带间实现了惊人的十 t b 每秒的互联通信。 还有啊,包括现在的高阶 ai 人工智能芯片,使用的都是高成数的 h b m 内存,其高带宽、高密度、高容量特性天然的也与 travis 技术啊是相互互补的, coversale 这种晒白晒的对叠方式,说实话也非常适合 hbm 内存的一个互联的需求。 所以总的来说,哎,感叹呢,随着人工智能对于 cherries 新链数据通信带宽的要求啊,不断的提高,未来双心力互联,甚至啊多心力互联的需求, 毫无疑问有望成为 ai 领域未来一个非常非常关键的技术方向,那么接下来的话题,我们除了 covers 先进封装技术加持下实现的却被超短距离的 数据传输以外,在此次英伟达 gtc 大会上,黄教授同时还提到了未来 gb 两百数据中心将会采用大规模的同互联方案, 使用一个长达两英里,拥有五千多条的铜缆来进行 gpu 之间的中长距离的 nv 宁可连接。 这一度啊,也引发了市场对于铜互联技术的密切关注,甚至有些网友认为英伟达抛弃光模块,所以光互联已经被取代,未来将是铜缆的天下。 那么英伟达用铜缆进行 gpu 之间的互联通信,是不是啊,也是遥遥领先的一项关键的技术呢?我这里啊要给大家泼一盆冷水了。实际上呢,铜缆背板互联并非一种非常前沿的革命性技术,对比 光模块啊,其实反而是一项成本更低,技术更为成熟的一个更为方便的一个方案。我更认为英伟达选择大规模使用同览互联,反而是英伟达一种对于市场的妥协和成本方面的综合考虑。 一方面呢,也是由于 gb 两百的单芯片性能已经足够足够强大了,一台服务器几乎顶了一个超算中心,所以英伟达可能更加偏向于采用一种一击打天下的方案, 甚至啊,要用一台服务器解决所有的问题,包括更加广泛、竞争更加激烈的推理市场,要与亚马逊、谷歌、微软一些巨头啊,正在竞争的推理芯片市场,不排除英伟达也要寻求分一杯根。我预计啊,未来英伟达会逐步从一家 卖卡商变成一家卖服务器的整机方案提供商。另一方面呢,我个人觉得英伟达在做大模型光交换机方面,包括在归光互联方面的经验和积累,可能并没有大家想象的那样的强大。 比如说这次在 gdc 大会上发布的 x 八百新一代的英伟达交换机,从技术角度呢,并没有什么突破性的技术,也没有达到目前现在业绩啊最先进的一个水平。 而从长期的角度,作为理科生,只要我们学过光纤或者集成光电的课程就知道在长距离 更高的数据传输数率下,从基础物理学的角度,光纤的低信号衰减、低颜值特性,天然就是要远优于铜缆的。虽然现在 在实际应用中,光互联确实啊存在一些技术挑战和成本的问题,但是随着新兴的光电子 p i c 硅光子集成 光电混合架构等技术的发展,包括现在台机电在 h p c。 上力推的三 d 堆叠封装,其原理啊,就是用硅光 c p o 去解决去不去去谱互联的问题。 所以我个人整体感觉,未来面向大规模 ai 系统部署,用光子互联作为计算扩展的最终解决方案,依然会是面向未来,或者说未来唯一可行的正确发展方向。 这既是当前科技发展大趋势,也是物理学规律决定的一个必然选择。我们再简单点说,比如说假设我们人类要真正的实现 真正的 agi, 要实现 ai 的天网时刻,那不可能只是七十二颗 gpu 的一个互联,届时 agi 这种级别的规模的超大变形计算的场景,他一定会是一个上万科甚至是上百万颗芯片之间的互联, 我想这一天不会离我们人类太遥远了。最后最后我们来简单讨论一下一个比较现实的话题。 我知道随着 b 两百的发布,我看到微博上,论坛上,在我们国内的主流舆论上都呈现着一种较为悲观的情绪, 认为在 ai 方向上,我们与因未来的差距啊,是越来越大,甚至啊让人们看不到希望,看不到未来。但是真的是这样吗?我们就完全没有机会了吗?我个人的看, 我个人认为此次 b 两百、 gb 两百却不累着,确实很强大,确实让人感到无比的羡慕,但是我们就因此放弃战斗了吗?就因此缴械投降了吗? 那倒完全不至于,不至于啊,就像我们之前视频里面聊到的,事实上呢,我们人类要真正走向 agi, 以目前发展的路径,其实啊,依然还有很多大量的技术层面的根本性问题啊,极大解决,包括不限于电力瓶颈,算法压缩 存储内存壁垒的问题,包括易购融合问题啊等等。具备两百的单芯片,性能再强,目前主要还是受益于台建,在芯片制成上,包括在先进封装领域的领先,但是 covers 封装主要还是用于 芯片间的超短距离的数据互联通信,并没有从根本上解决远距离的、分布式的大规模数据互联的高速带宽的瓶颈问题。从英伟达 gtc 发布会直播啊也可以看到, gb 两百两千七百瓦的功耗同互联所采用了庞大的冷却系统, 天花板呢,依然是相对可见的,我给大家稍微打打气啊。一方面呢,从工艺制造角度,工程技术的进步始终是一个持续迭代的过程。 说实话,相比于五纳米以下芯片制造的问题,中国大陆其实并没有在先进封装领域的技术上有所缺席,差距啊,也并没有大家想象的那么大。比如说常电科技的 x d f o i 二点五 d 无 s v 平台,包括 微店的微选封装平台,都已经进入了量产阶段,对比我们上面提到的 covers 封装,现在国产先进封装主要缺的还是大规模的产品的试错,量产与迭代,包括在光互联技术上的强研发,我们在技术上面其实是很能打的。 未来如何利用 o x c 在新时代实现 ai 数据中心的新架构、新创新弯道超车。所谓弯道超车,我们就是要在这些差异化的竞争下,赢得新的竞争优势, 而在生态方面,得于我们市场的多样性和应用的规模,我们在推理端在用册,其实啊,我我们也在发力,依然是有机会啊,扳毁一层的,包括由于美商部的封锁,其实啊, 也在变相的加速我们对于国产 a 芯片的切换的一个步伐,只要不断的给机会,不断提供一定的土壤,逐步打破,因为达到的生态垄断一定是未来的大趋势,不要太悲观,也不要过于乐观。 agi 这条路啊,没有那么好走,最后谁完成了通关还有未可知啊,关键的还是用起来,关键是要培育起国产的 ai 生态,机会总是留给有准备的人啊。 那么今天的视频就这里,如果大家有什么想法,有什么不同的观点,也非常欢迎在视频下面留言,我们可以展开更多讨论,那朋友们,我们下期视频再见。
还记不记得二零一六年发生的那件震动 ip 界的大事,谷歌的人工智能软件阿尔法狗击败了韩国的世界围棋冠军九段选手李世石。再后来的二零一七年,阿尔法狗又击败了当年世界围棋排名第一的中国围棋九段选手柯杰。 至此啊,人类在所有的棋类比赛中全部输给了计算机。阿尔法狗呢,其实是一个中央处理器 cpu 和图形处理器 gpu 一起工作的围棋。这算机器人 最初的阿尔法狗有一百七十六个 gpu 和一千二百零二个 cpu。 那 gpu 能够通过内部极多进程的并行计算, 取得比 cpu 高一个数量级的运行速度。但是呢, cpu 为了管理多进程,他需要在微架构上进行精心设计,以满足深度学习计算对于贷款和缓存的需求。 那么, gpu 和 cpu 到底有什么不同?你懂我意思吧?我懂你意思, 我信你个鬼,你这个糟老头子坏得很。不懂就看 vc 了。 and three two one ladies and gentlemen science clock is now over thank you。 打个总结, cpu 是一个人,但是能一秒算出一个超难的微积分题目。 gpu 是一万多个人,但是只能算一加一等于二这种题目。 cpu 脑袋很好,智商高, gpu 身体很好,干活嘎嘎猛。 cpu 是一百个教授做大学题目, gpu 是一万个小学生做加减法。而渲染图像是简单但是数量级很大的运算。
为什么 ai 要靠 gpu? 显卡 cpu 难道不行吗?相信百分之九十九的人都会认为,在电脑中, cpu, 也就是中央处理器才是运算的大脑。所有的 cpu 都是由运算器、 alu、 控制器、寄存器这三大部分组成。他负责了计算机中读取指令、对指令密码并执行指令的工作。既然叫他中央处理器,肯定他的运算能力也很强。但是当我们打开一片 cpu 时, 你就会发现, cpu 中几乎百分之八十的空间都被控制单元和存储单元占据,计算单元 a i u 只占到百分之二十左右。而实际上和你理解的不同, cpu 擅长的是逻辑控制而非计算,并且依照冯诺伊曼架构顺序执行原则,我们的 cpu 只能执行完一条指令再来下一条。也就是说, cpu 实际是串行处理模式,计算能力实际很有限,而 gpu 却完全不同。大家都知道,显卡设计的初衷主要就是为了接替 cpu 完成图形渲染。我们计算机显示的图像,每一个像素点都需要随时进行处理,奇迹算量相当大,但是由于每个像素处理方式及流程几乎完全相同,所以 gpu 的任务可以用并行计算来瞬间解决。 于是 gpu 与 cpu 正好相反,几乎全由计算单元 alu 组成,仅有少量的控制单元和存储单元,于是他可以简单粗暴,凭借众多的 alu 来完成任务。 如今的 gpu 可以拥有数百数千上万个核心来同时处理计算,例如 mvd 新一代 h 一百 gpu 核心具有恐怖的一点八万 q 的核心,即使是家用的 rtx 四零九零显卡库的核心数量也达到了一点六万个,它的并行度得到成千上万倍提升,最终 gpu 也就是图像处理 器可以实现通用的超高并行计算能力。当然, gpu 也同样是用并行的科学计算,乃至完成现在我们复杂的 ai 任务。这下你明白 ai 要靠 gpu 而不是 cpu 的原因了吧。欢迎大家关注叮当新科技,了解关于 ai 计算的问题,我们下期见。
算力芯片、 gpu andpu? 如果你今年在关注人工智能相关的消息,是否已经被这些芯片概念弄得晕头转向?到底在人工智能领域用的是什么芯片?这 pu 那 pu 的到底有什么不同?动动发财的小手 点个赞吧!下面将给你讲个明明白白。首先出场的是老大哥 cpu。 central process unit, 中文名叫中央处理器,它是智能设备的大脑,是发布命令、控制行动的总指挥。 cpu 遵循的是冯诺伊曼架构,需要存储程序并顺序执行。记住 是顺序执行,做完一件才能去做下一件。如果事情太多,那就等着慢慢排队吧。这是一张 cpu 的微架构图,黄色部分是控制单元,绿色部分是计算单元,而橙色部分是存储单元。我们可以清晰地发现, 负责计算的绿色部分占比很小,占比最多的是橙色的存储单元和黄色的控制单元。因此, cpu 虽然可以应对各种计算,但其最擅长的并不是计算,而是控制和管理。就好比一个大公司的领导,基层业务也是 西的,但是做统筹管理才更能发挥其价值。 cpu 的代表厂商就是在电脑领域制霸多年的英雄奔腾和酷瑞系列,想必有电脑的人都接触过,有了电脑手机了就想着玩游戏、看视频,对吧?画质的要求还越来越高,这就带来了一个问题, 巨大的计算量,你所看见的每一帧图像,每一个像素点都要经过计算,这时候呆板的 c、 p、 u 就有些硬接不暇了,也没空去处理其他的任务,你的手机、电脑就变得卡顿起来。不过图形计算有个特点,那就是每个 像素点处理的过程和方式都十分相似,因此 gpu 就应运而生了。 gpu 全称为 graphics processing unit, 中文名图形处理器,俗称显卡。 gpu 采用数量众多的计算单元和超长的流水线,特别擅长于处理大量类型统一的数据。这张图就是 gpu 的微架构图。 我们发现,黄色的控制单元和橙色的存储单元占比很少,绿色的计算单元占据了绝大部分面积, 而且是多条流水线一样的计算单元并行排列。图形计算不是要处理每一个像素点吗?没问题,把一张图片不同的像素点 分配到 gpu 不同的流水线,同时计算效率瞬间大幅提升,画面也就流畅了,手机也不卡了。这就好比原来公司缺人,经理亲自跑去搬砖,结果整个公司的运作一团乱麻。现在 招了几个身强体壮的 gpu 专门搬砖,经理回到了管理岗位上,公司的运作又正常了起来。那么在人工智能领域,为什么经常听到 gpu 的名字呢?这里首先明确,虽然图形计算催生了 gpu 的诞生,但是 gpu 并非只为图形计算而设计, 它在结构上并没有专门的图形部件,只是对 cpu 的结构进行了优化调整。所以 gpu 仍然是一种通用的芯片,它可以应用于图像处理,也可以用于科学计算、数据分析、密码破解等需要大量并行计算的场景。在人工智能领域, 需要海量的数据对大模型进行训练,而这些数据就满足类型统一、数量巨大的特点。因此近些年 gpu 在大模型的训练阶段大放异彩。不过 gpu 不能单独工作,还是需要和 cpu 进行配合。二零二三年全球市场上的抢手货、大名鼎鼎的英伟达 h 一百芯片虽然也称之为 g p u, 但实际上 h 一百在硬件上不仅包含 g p u 版组,也包含了 c p u 模板和两块 c p u 芯片。最后我们把 c p u 和 g p u 的架构图 同框再对比一次, cpu 擅长管理, gpu 擅长运算,是不是一目了然?关注我,下一集将介绍最新的神经网络芯片 npu。