千呼万唤的可灵网页版来了!模型重磅升级,新功能“炸场”WAIC

时间:2024-11-12 14:59:06 阅读:2

千呼万唤的可灵网页版来了!模子重磅晋级,新功效“炸场”WAIC

克雷西 发自 WAIC

量子位 | 群众号 QbitAI

“这约莫是本届WAIC上喝彩声最多的一场公布”

在刚刚落幕的天下人工智能大会(WAIC)上,快手晒出了可灵公布一个月以来的成果单:

“超50万人哀求,已开放给超30万用户使用,天生超700万条短视频。”

作为举世首个用户可用的真实影像级视频天生大模子,可灵一经问世便引发了剧烈反响,连他国网友都纷繁投来了倾慕的目光……

乃至Stability AI的前CEO Emad Mostaque看了也表现,中国这次以前遥遥抢先。

但快手仿佛并不满意于此。

可灵Web端上线、更高清画质、首尾帧、镜头控制、文生视频开放到10s;可图开源……

随着快手高等副总裁、主站业务与社区封建线卖力人盖坤公布多个重磅消息,现场几度沸腾。

【宣传片请移步群众号查察】

可灵网页端上线,文生图模子重磅开源

之以是一上线就火到出圈,是由于可灵天生的视频不仅质量高,并且更切合物理纪律,大幅度的活动也能准确形貌

好比这个在公路上高速飞跑的老虎,不仅画面连接,随镜头角度的厘革公道,老虎四肢的举措和谐,并且还把飞跑历程中躯干局部的发抖也展现得极尽描摹。

两周之后的CVPR上,可灵又新上线了图生视频视频续写两项功效。

此中图生视频功效,拥有很强的迫近天下运转纪律的才能,好比网友使用可灵,让《戴珍珠耳环的少女》中的人物动了起来,玩手机、喝咖啡、吃苹果……举措真实又不失优雅。

【视频请移步群众号查察】

并且,该功效还体现出了很强的泛化才能

好比一幅水墨画,加上简便的提示词,可灵就能让水墨画中的生物活龙活现地活动开来。

但盖坤先容,水墨画如此的素材在可灵练习的历程中十分少见,乃至连团队本人都没见过。

【视频请移步群众号查察】

更故意义的是,可灵的图生视频不仅能用来文娱,另有网友用它“复生”了尊长的老照片,留下了一段动人的故事……

【视频请移步群众号查察】

而视频续写功效,则可以把前方天生的视频不休延伸,每次5秒,最长可以扩展到三分钟。

这次的WAIC上,快手高等副总裁、主站业务与社区封建线卖力人盖坤又公布,可灵再次迎来一系列重磅更新。这也是可灵从公布起一个月内的第三次放纵措

起首是基本模子的晋级,可灵天生的视频,画质取得了进一步提升。

以这个名场面为例,可灵的作品在晋级前后的比力是酱婶儿的,可以看出一切的细节处理都比原本愈加精密。

别的,新版本可以一次性直接天生10秒的视频,不必要教师成5秒再延伸了。

功效方面,这次可灵还新增了首尾帧控制(图生视频)镜头控制(暂只支持文生视频)

只需上传首尾两张图片,可灵就能主动“脑补”出正中的活动厘革历程。

△素材图片由快手图片天生大模子“可图”天生

镜头控制功效则让创作者可以直接指定运镜办法,不会写镜头提示词也不必要再“开盲盒”了。

关于可灵眼前的武艺方案,快手视觉天生与互动中央卖力人万鹏飞从模子计划、数据保证、盘算听从、才能拓展等方面举行了深化分析。

万鹏飞先容,可灵最新公布的版本中,在活动天生、物理纪律、视频画质、指令呼应等七个朝向的才能亮点完成了进一步晋级。

将来,估计视频天生模子将对游戏、动画、泛视频行业带来新机会,并可能作为天下模仿器,为具身智能提供互动仿真情况。

除了模子的晋级和功效上的更新,快手还重磅公布了可灵Web版本(传送门见文末),可以在PC上愈加便利地创作并办理作品了。

包含Web界面在内,这些新功效也是坚持了快手一以贯之的“不画饼”准则,公布即上线,现在限时无偿体验。

别的,此次上线的Web界面同时整合了图片生告捷效,它的眼前是快手自研的文生图大模子——可图

并且可图在这里与可灵深度联动,天生图片后可以一键转到图生视频,图生视频中间也可以直接选择可图绘制的图片。

说回可图本身,它和其他图像天生模子比拟,拥有更高质量和语义跟随才能,支持的场景也愈加丰厚。

在内里举行的盲测中间,可图取得了第一名的刺眼成果,跨越了MidJourney、Stable Diffusion等一系列着名模子。

在北京智源研讨院的第三方测试中,可图也以75.23分的成果取得了第二名,仅次于76.66分的DALL·E-3。

别的,可图还拥有很强的“写字”才能,支持在图像中用真实的后果嵌入文本。

并且更懂中文,乃至能了解一些古诗词,好比韩愈的《春雪》中,一句“白雪却嫌春色晚,故穿庭树作飞花”就被可图复原得极尽描摹。

仔细察看图中的细节,你会发觉远处虚化的树木以前变成了绿色,另有树上以前绽放的花朵,都切合了诗句中间的季候设定。

可图的上线时间稍早于可灵,于本年的5月31日向群众开放,而就在这次的WAIC大会上,盖坤又盛大公布,可图大模子正式开源

现在可图的推理代码和Checkpoints以前在GitHub中公布,将来干系的LoRA、ControlNet和ComfyUI事情流也将连续上线。

这局部的最初,我们再来展现个小彩蛋——

将于本月上线的快手首部AIGC短剧《山海奇镜之劈波斩浪》,就有可灵的深度武艺支持。

【预告片请移步群众号查察】

在快手的大模子家属中间,可灵和可图由于可以直接用于创作,以是我们的感受愈加直接。

但但是,快手还拥有更为巨大的“大模子矩阵”

快手大模子家属全员态度

除了可灵和可图如此的视觉天生大模子,快手的大模子矩阵还包含言语大模子、保举大模子等等。

好比为了让你刷到的内容更切合你的偏好的、“静静无闻”的保举大模子

盖坤先容,快手的保举大模子基于SIM(Search Interest Model)模子打造,拥有10万亿参数目

并且,对每一个用户,快手保举大模子处理的举动序列长度,都可以到达百万。

如今,快手大模子团队正在积极研发基于Transformer的下一代保举大模子武艺。

另有言语模子“快意”,在内里盲测中,中文才能以前到达了GPT-4水平。

快手副总裁、大模子团队卖力人张迪先容,快意大模子从最早开头,以前研发了四个版本。

从早前的13B版本开头,到如今以前有了主力使用的175B版本和多模态版本,颠末了多个版本的研发快意大模子以前在快手内里使用在包含素材创作、AI互动和内容消费等多个场景中。

在快手大模子家属中,快意是最基本的才能,将来除了持续提升快意大模子的根天性力之外,团队还将团结快手的使用场景,做出差别化的功效。

快手家属的这些大模子掩盖了天生、保举和了解等多个层面,并以前深度办事于快手的各大业务场景

别的,基于系列大模子才能,快手还搭建了数字人全流程AIGC办事

这此中包含了数字人脚本创意天生、数字人渲染天生、数字人及时互动、智能客服问答等整个流程。

而在C端,快手也在APP批评区中上线了基于大模子的智能体“AI小快”,它是快手官方的智能互动小助手,定位是快手用户有效、幽默且有温度的谈天搭子。

你可以问他视频中种种千般的内容,基于多模态大模子的了解才能可以做出准确的回复,并且AI小快也十分幽默,你可以在批评区画图、画心情包,还能在批评区种种求安慰、求祝愿,完存心情代价。

现在,AI小快有凌驾1000万的粉丝量,同时有凌驾1.5亿次的累计互动,并且这照旧在AI小快不会主动对你举行批评,只能被动召唤的条件下到达的。

总之,借助大模子矩阵中的种种模子,快手用AI把从B端到C端,从办事到产物的整个生态都武装到了牙齿。

那么,在这眼前,快手又有怎样的战略布局呢?

坚持自研,拥抱开源开放

在快手的战略框架中间,坚持全栈自研、坚持武艺创新是至关紧张的一环。

快手团队在大模子的基本研讨和前沿探究方面持续投入,从底层芯片算力、网络架构到顶层使用,都能看到快手自研武艺的身影。

张迪表现,快手以为刚强投入自主研发长时来说会带来“武艺雪球”效应以及宏大的本钱上风

在表层,快手一个十分大的上风是快手本身有十分多的AI使用场景,这会给大模子带来十分多的落地时机,我十分有决计的说快手约莫是国内在大模子使用上探究最深化的公司。

放眼于具体,快手的大模子武艺体系涵盖了文本(快意)、图像(可图)、视频(可灵)等多种数据模态,并且重申多模态大模子之间的关联互通,完成愈加智能机动的感知和天生才能。

在自研精力的驱动和不休的研发投入这下,快手已在视频天生、对话互动、数字人等朝向取得了行业抢先的打破。

固然,有了完备的武艺体系,还要与实践使用场景深度交融,才干完成落地,快速产生商业代价。

这也是快手战略体系中的另一个紧张环节。

固然,得益于巨大的内容平台和创作生态,快手的一个上风,正是更容易找准大模子武艺的最佳使用落点。

具体说,快手重点聚焦在内容保举、创作助手、互动社区、电商直播、数字营销等几大场景,力图将大模子武艺嵌入业务的各个紧张环节。

好比在电商直播场景,快手渴望经过假造主播、智能导购助手等大模子使用,为商家提供了愈加智能高效的直播带货处理方案;

又如在数字营销中间,快手将大模子武艺与倾销平台深度交融,强化多模态倾销素材的智能创意天生,提升倾销投放的性价比,为倾销主创造出了更大代价。

独乐乐不如众乐乐,以是在不休强化本身之余,快手还积极努力于推进生态提高

可图的开源就是一个很好的例证。

别的,快手不仅与多家高校或科研机构互助举行武艺研发,还设立专项了基金支持,学术界的研讨创新。

好比与中国盘算机学会(CCF)与快手携手,协同公布建立“CCF-快手大模子探究者基金”

该基金针对“大言语模子”、“视觉了解与天生”等五大中心范畴,于本年度推出算计12个研讨项目,每项课题最高可获30万元人民币的支持。

纵观整个WAIC大会,大模子、算力、数据、AI办理等都是本年的抢手议题。而谈及大模子,开源与否又是一个不成制止被谈及的成绩。

但快手并没有到场这场口水仗,而是用举动给出了选择,用可图的成果单证实白开源模子的才能。

如此的做法,亦是快手大模子一向务实作风的体现,不搞花拳绣腿、不开自食其言,一直坚持产物公布即可用,刚强地为用户做最好的AI武艺

可灵Web版传送门:
https://klingai.kuaishou.com

可图GitHub页:
https://github.com/Kwai-Kolors/Kolors

可图模子权重:
https://huggingface.co/Kwai-Kolors/Kolors

— 完 —

量子位 QbitAI · 头条号签约

眷注我们,第一时间获知前沿科技动态

版权声明:本文来自互联网整理发布,如有侵权,联系删除

原文链接:https://www.yigezhs.comhttps://www.yigezhs.com/qingganjiaoliu/55232.html


Copyright © 2021-2022 All Rights Reserved 备案编号:闽ICP备2023009674号 网站地图 联系:dhh0407@outlook.com