当前位置:主页 > 热点 >

昆仑万维UniPic 2.0“小钢炮”模型炸场,一个模型搞定理解+生成+编辑

时间:2025-08-13 19:27:43

  大模型又迎来新一波的迭代周期。

  近日,从Open AI发布GPT-5,到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周,连续5天每天发布一个新模型,而8月13日发布的,正是其本周发布的第三款模型——多模态统一模型UniPic 2.0。

  UniPic 2.0主打的是,在单一模型中深度融合图像理解、文本到图像生成、图像目前多数AI生图,生成之后就很难修改,经常出现对二次指令理解不充分,让然而我们在测试UniPic 2.0的修改最近流行的“基础款不要搭基础款,上身基础,下身不基础”的玩梗,我们让UniPic 2.0给下身换一个同色系但夸张的穿搭,它就把下身的裤子改成了一条红色蓬蓬裙。

  
 

  此模型在7月30日已经开源,这次上线版本的优势——“又快又好”。

  当其他大模型需要花几十秒生成一张不同于市面上其他开源的统一架构多模态模型动辄百亿参数的大规格,UniPic 2.0的参数规格只有2B,这让它响应生成的速度比起其他模型快了一个数量级。

  
 

  虽然尺寸小,但UniPic 2.0在先从为了测试UniPic 2.0对于文本理解和生成匹配的情况,光锥智能让它和Bagel各自生成一张“梵高风格的树”,UniPic 2.0给出了一张完美切题的
 

  
 

  在图像补全、擦除、主体一致性、风格转换上,光锥智能给出了多组提示词分别测评。

  
 

  日常比较实用的人物背景切换和让UniPic 2.0给前OpenAI的前首席科学家ilya换个纯蓝色底的背景图,UniPic 2.0用5秒就把人物从色彩杂乱的背景中“抠”出来,换了个接近一寸照的纯蓝色背景。

  
 

  再让大模型给纯色背景的人物P个沙滩海岸的背景图,UniPic 2.0把海岸的沙滩、大海和椰子树,都安排进了背景里。

  
 

  嫌人物挡住拍摄的风景?我们给了UniPic 2.0一张被狗占据绝大部分的照片,让它消除掉狗的部分,UniPic 2.0生成出来的
 

  风格转换方面,UniPic 2.0也能对各种风格信手拈来。我们先是让它生成了一张赛博朋克风格的
 

  最重要的是,一个2B大小的模型,理论上已经可以在人们的手机和电脑上运行起来,这意味着一个可用、好用的高质量生成模型,距离真实落地已经越来越近。

  昆仑万维Skywork UniPic 2.0的核心优势,在于把模型同时将生成架构压缩在2B参数,在极少算力设备的情况下,也能负担起模型的运转。

  而长期以来,AI领域在处理多模态任务时,多采用的是“模块化”策略:图像理解、文本生成图像和图像“各自为政”的后果是,一个专注于图像生成的模型可能无法充分利用图像理解的信息来优化生成质量,而一个图像相比之下,UniPic2.0采用的统一架构,实现了图像理解、生成和
 

  事实上,无论是坚持做原生多模态,还是做理解生成一体化,都是今年业内在探索多模态大模型的前沿方向:尽管在图像生成领域,许多公司出于商业化考虑仍坚持单一架构,但学界和坚持基础模型研究的厂商在近一年来都在积极探索理解统一生成和原生多模态方面的技术。

  包括智源的OmniGen2、阶跃星辰发布的多模态推理模型Step-3,还是字节跳动Seed团队开源的BAGEL模型,都是通过原生多模态的框架或理解生成统一的机制,试图提升模型生成能力的效果。

  针对传统多任务强化学习,常陷入优化一个任务会损害另一个任务的困境。对此,昆仑万维先针对最终,和单一架构的模型相比,新的统一架构模型显著提升了整体性能和泛化能力,让生成质量与UniPic 2.0模型的生成模块基于2B参数的SD3.5-Medium架构进行训练, 2B的参数规模使得UniPic 2.0模型非常“轻巧”,有望部署到各种硬件环境中,包括个人电脑、手机等端侧设备,从而降低模型应用的门槛。

  UniPic的1.0版本就已经验证了这种可能性。昆仑万维表示,该模型可以在RTX 4090 消费级显卡上流畅运行。

  轻量化的模型,意味着更快的推理速度和更低的计算资源消耗。不仅让用户可以享受到秒级响应的生成和

  在平衡AGI和务实落地上,昆仑万维一直是想得很清楚的一家公司。

  追求SOTA带来的技术红利固然有限,但在模型竞争上,昆仑万维通过卷性价比和坚持开源两条策略,昆仑万维在国内巨头林立的环境下,开辟出了一个独有的舒适区:

  是不是感觉很熟悉?前两天OpenAI发布的GPT-5也玩了一样的策略,拿便宜1/10的价格,剑指海外的顶流Anthropic。

  要想做到这些,首先,技术得过硬。UniPic 2.0做到了,它用仅2B的参数规模,性能却反超了一批同样架构、参数却更庞大的模型。

  这样做的好处是,2B参数的UniPic 2.0在推理时所需的计算资源大幅减少,让模型能够以秒级速度完成图像生成和更小的参数,也意味着更低的训练和推理成本,既能让昆仑万维在追求SOTA的路上少烧点钱,也能让用户每次使用的成本更低。对于目前将重心放在应用出海的昆仑万维来说,UniPic 2.0无疑是一个更有性价比的选择。

  同时,一个更早做出的决策——开源,也支撑昆仑万维在AI大模型训练中跑得更快。

  DeepSeek掀起的开源风暴让人们看到开源对模型能力进化的重要性,而早在2022年底,昆仑万维就意识到了开源的重要性。从最早AI图像、音乐、文本和编程四大开源算法模型、百亿参数的大语言模型Skywork-13B系列到各类多模态大模型,可以说,昆仑万维在AI 2.0时代一直是坚定的开源选手。

  开源,不仅能让更多好想法汇集反哺模型的训练,也能让昆仑万维通过模型吸引开发者和用户,建立品牌影响力。

  从结果看,昆仑万维的这步棋走对了。

  在国际知名开源社区HuggingFace的7月榜单中,和一众大厂、“五小虎”并列的中国公司中,就出现了昆仑万维的身影。在该榜单上,昆仑万维共有两个模型跻身海外模型引用的Top100,其中一个就是UniPic的1.0版本。

  
 

  几年追逐AGI的赛跑下来,昆仑万维一直是那个嗅觉最敏锐的捕手。在大模型之战越来越卷的情况下,他们正在通过集中资源的方式,追求垂类的领先。

  在模型领域上,昆仑万维做出了自己的取舍——比如,选择专注多模态领域深耕。

  DeepSeek的出现,是昆仑万维改变的契机之一。在中,昆仑万维董事长兼总经理方汉提及,对于通用大模型,他们可能会选择外采。但一些专有大模型,则要自己训练。

  这次,昆仑万维持续5天的技术周,就是围绕着多模态领域“秀肌肉”,展示他们持续深耕的成果。无论是能用在数字人上的音频驱动人像生成模型SkyReels-A3、还是当下大家更关注的具身智能大脑——世界模型Matrix-3D,都映射出这家公司的战略考量:聚焦前沿,也不忘落地。

  在大模型密集发布的8月,昆仑万维成功找到了自己的位置。放在当下的中国AI生态圈里,能持续在牌桌上引人驻足的公司凤毛麟角,这是昆仑万维又一次靠策略胜利做到的以小博大。

热点推荐
1 美股盘前纳指跌1.69%,英伟达(NVDA)跌2.52

消息,根据数据,美股盘前三大指数普跌,纳指跌1.69%,道指跌1.19%,标普500跌1.34%。七大科技...

2 贝莱德将1,360枚BTC和15,103枚ETH存入Coinbas

消息,据Onchain Lens监测,贝莱德于5分钟前将1,360枚BTC和15,103枚ETH存入Coinbase。...

3 美国财政部启动稳定币《GENIUS法案》实施

消息,据ChainCatcher发推称:美国财政部启动稳定币《GENIUS 法案》实施,发布首份拟议规则。根...

4 富国银行突然下调标普500指数年底目标价

消息,富国银行经济学家将标普500指数年底预期从7800点下调至7300点,理由是持续的伊朗冲突带...

5 日本Metaplanet购入5075枚比特币,价值3.38亿

消息,据BitcoinTreasuries发推称:日本上市公司 Metaplanet 以 3.38 亿美元购入 5075 枚比特币,现已成...

6 125.88万SOL解锁,价值1亿美元

消息,据Whale Alert发推称:一个未知钱包解锁了 125.88 万枚 SOL的质押。...

7 日韩股市回调,韩股收跌近4.5%

4月2日消息,特朗普演讲推高油价并打击降息希望,全球市场再遭冲击,日韩股市回调。日经...

8 数据:452.52枚BTC从匿名地址转出,经中转

4月2日消息,据链上数据监测,在 13:51,452.52 枚 BTC从一匿名地址转出至另一匿名地址。随后,...

9 伊朗:市场已看穿“特朗普套路”,并作

伊朗方面表示,特朗普今晚的意图是为战争正名,消除美国公众的深度担忧,然而,针对特朗...

10 数据:3月份DEX整体交易量回落至去年3月

消息,链上数据显示,今年 3 月份 DEX 整体交易量达到 2020 亿美元,几乎回落至去年 3 月水平;...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。