粉丝5600获赞2.3万
嗨,前几天哈,英伟达、 amb、 英特尔这家芯片市场上的死对头,竟然同时投资了一家公司, 这个公司呢叫做 worldlab, 是斯坦福的一个教授李菲菲创办人,送外号 ai 教母,一成立就融资了二点三亿美元。 ai 大模型其实已经火了快两年了,甚至很多人都说 ai 已经泡沫化了,那你说为啥这些行业的大佬都还排着队往里砸钱呢? 其实哈,我们作为 c 端消费者,感受可能不是特别明显,现在的大模型已经早就不是一两年前那种喊喊口号,或者是帮你写个邮件,整理个会议记录那么简单了。其实在 b 端他已经被应用到很多行业,玩法也是五花八门, 我觉得其实还挺有意思,咱们今天就一起来梳理一下哈。这个 ai 大模型,它发展到今天的一些落地应用,它大致可以分这么几大类,大家最熟悉的也是最常见的就是像拆 gpt 啊豆包这种大语言模型,就是你问我答,文字 生成文字大语言模型这块,他现在的一个趋势就是会出现越来越多针对各个行业的那种更细分、更垂类的应用。你比如说金融行业,对吧?现在很多券商就会跟互联网公司合作,我就给这些大模型多为一些那种研报,为一些数据去训练他,他之后就可以自己去解读研报, 甚至还可以生成彩报。或者呢,比如说针对旅行的场景,他可以帮你去生成旅行计划,甚至把你住什么酒店,订什么票,吃什么餐厅全都给你生成出来,就是会针对这些具体的行业去做一些强化训练。好,刚刚这是文字生成文字,其实这生成是 ai, 还有另一大分支就是图片生成文字, 哎,不是文字生成图片哈,是图片生成文字。这个大家平时可能接触的不多,但是在业界也有非常多应用。我给你举个最常见的,比如说你开车不系安全带,那摄像头咔嚓一拍图片给大模型告诉你说罚款二百元,谁罚的你呢?现在就是大模型罚的你。这种图声文的应用其实在制造业啊, 供应链用的都挺多的。比如说你要检查整个电网,原来可能得是工人爬上那个电线杆子去挨个检查,但现在借助大模型呢,你就可以通过无人机上去拍照,然后大模型就可以针对这个图片去放大像素级别的检查,告诉你说,哎,这块可能出现了一些老化,这个连接处可能有点松动,哎,就大概是这个意思,包括像英文答案, 他也给很多企业提供这种 ai 图像识别的方案。工厂里头工人的操作是不是规范呀?带没带安全帽呀,流水线上这个货物有没有什么问题呀?等等。而且现在已经不是说单纯的根据一个定义去识别图像了,而是大模型真的可以通过自我学习的能力去对这个图片生成他自己的判断。 好,这是图声纹哈。再有一块啊,就是纹身图或者纹身饰品,这个饰品啊,其实一直以来对大墨香来说就是个难点,因为它的连贯性、一致性其实非常难保证。就比如说我上一针咬一个汉堡,那下一针这汉堡呢,就得出现相应的牙印,这个对 模型和算力的要求都可以说是指数级的增长,所以今年那个 sorry 出现的时候,当时还掀起了一个不小的波澜。而就在前两天,国内这边火山引擎的豆包大模型,除了那些什么大语言模型,语音生成图片等等这些垂类模型之外,他也发布了视频生成大模型,效果我觉得还挺震撼的。比如说你看这个视频, 他输入的指令是说特写一个中国女人的面部,他有些生气的戴上了一副墨镜,一个男人从画面右侧走进来抱住了。 你看这个生成的视频,整个逻辑还是挺完整挺通顺的,尤其是你仔细观察哈,这个男人在抱住女人之后,女人的墨镜就出现在他该出现的位置,完全没有穿帮。你听着好像挺弱智的吧?对大模型来讲其实是非常难的,包括他皱眉前后的那个表情, 整体都非常的连贯一致。这个视频大模型它是基于 dit 架构基础上创新,也是第一次突破了这种多个主体直接互动的难题。而且你看它这个片 头的光影效果还不错,是吧,他也是模型根据这个场景自己设计生成的,而且啊,这个模型还可以进行一些运镜的处理。比如说你看这个视频,他输入的指令呢,是说电影剧照要干净的建筑背景中景聚焦在这啊,然后有个环绕,最后再有个面部特写。 你看这种多镜头的运镜操作,他一致性也是可以保证的。而且他还对 transformer 模型进行了一些深度的优化,有可以生成不同风格,像二 d、 三 d、 黑白等等泛化的能力。这种生成饰品夜间一般会怎么用啊? 我给你举几个例子,最常见的,比如说你看类似这种一个彩妆的广告片,就用这个视频大模型,他可以非常快速的把这个产品转换成三 d 去展示,甚至还能配合比如说不同的节日,不同的场景去给你替换视频的背景和风格。 你看这个连贯性跟质感,是不是很难想象这是个 ai 生成。你想就这种广告片,他要正常拍的话,得要导演、摄像、布景、灯光、后期制作等等,这是一整个大团队啊,要是能用 大模型去生成,成本就可以大大降低。我跟你说,就今年歌手的片头,就已经开始用大模型去生成类似这种特别重制作的,像是动画片啊,游戏的一些辅助制作,包括 mv 的制作等等,就是场景还是挺多的。你看刚才咱们说了文字、图片、视频 上称还有一类是什么?就是语音大模型,比如说我们跟手机跟车机的对话,现在这些语音大模型不光是可以识别你的语音或者方言,他甚至还可以合成像真人一样的声音,或者去复刻别人的声音,这种落地可以说也已经非常成熟了。 像豆包大模型,他跟 oppo 啊、 vivo、 荣耀、奔驰等等都有合作,所以你看从语言、文字、图片、视频、语音等等这种多模态应用的场景落地,其实场景已经越来越丰富。 像豆包大模型,现在纹身图日均已经能生成五千多万张,语音能达到八十五万小时,日均 tokens 的使用量已经超过了一点三万亿,四个月的时间增长就超过了十倍,你看看这架势是吧?看来 aigc 这次可能是真的要来了。
ai 视频生成的走向现在已经发展到这种程度了吗?刚刷到豆包的视频生成模型的 ai 视频,我简直被震惊了,这哪里还像是我们记忆中的 ai 视频呢?要知道一年前的 ai 视频还是这样的, 荒诞无厘头又抽象,完全一看就是假的。而现在四节豆包视频生成模型,爱生成的视频是这样的,超级细致,画面流畅,同时生成多个人物,彼此互动也丝毫不会崩坏,而且非常逼真啊,完全不像是 ai 生成的视频了,就像是实拍出来的,不仅人像如此逼真,连动物都超级逼真! 我了个逗,豆包视频生成模型这发展的速度啊,简直是惊人的快啊!不敢想象以后要是把这个技术运用在短视频创作,动画制作,电影制作等方面,会有多么的震撼!影视行业的春天这不马上就要到来了吗?