消息,据动察 Beating 监测,谷歌团队发表论文,提出 Vision Banana,在自家图像生成模型 Nano Banana Pro上做轻量指令微调,将其转化为通用视觉理解模型。核心做法是把所有视觉任务的输出统一参数化为 RGB 图像,让分割、深度估计、表面法线估计等感知任务都通过图像生成来完成,无需为每类任务设计专用架构或训练损失。评测覆盖了图像分割和 3D 几何推断两大类任务。分割方面,语义分割在 Cityscapes 上超过专用分割模型 SAM 3 4.7 个百分点;指代表达分割同样超过 SAM 3 Agent。但在实例分割上仍落后于 SAM 3。3D 方面,度量深度估计在四个标准数据集上平均准确率 0.929,高于专用模型 Depth Anything V3 的 0.918,且完全用合成数据训练,不使用真实深度数据,推理时也不需要相机参数。表面法线估计在三个室内基准上取得最优。微调只是将少量视觉任务数据混入原始图像生成训练数据,模型的图像生成能力基本不受影响:在生成质量评测中与原始 Nano Banana Pro 打平。论文认为图像生成预训练在视觉领域的角色类似于文本生成预训练在语言领域的角色:模型在学会生成图像的过程中,已经习得了理解图像所需的内部表征,指令微调只是将其释放出来。
消息,据官方公告,Robinhood 已获得新加坡金融管理局授予的原则性批准,拟在新加坡推出经纪...
2 AI交易机器人据称将200美元增至14,300美元消息,4 月 23 日,一名Anthropic工程师开发的Polymarket交易机器人据称将200美元增至14,300美元。该...
3 受伊朗冲突影响 德国私营部门活动近一年消息,德国4月综合PMI降至48.3,自去年5月以来首次跌破50荣枯线,显示经济陷入收缩。标普全球...
4 谷歌Vision Banana:计算机视觉的“GPT3时刻消息,据动察 Beating 监测,谷歌团队发表论文,提出 Vision Banana,在自家图像生成模型 Nano Ba...
5 BitMine再购10万枚ETH消息,据Coin Bureau发推称:与 Tom Lee 关联的 BitMine 疑似通过三个新创建的钱包从 BitGo 接收了 ...
6 Perplexity公开搜索Agent后训练方法,基于消息,4 月 23 日,据 动察 Beating 监测,Perplexity 研究团队发表技术文章,公开其网页搜索 age...
7 Sierra取消编码和算法面试,改为2小时AI辅消息,4 月 23 日,据 动察 Beating 监测,AI 客服 agent 公司 Sierra 公布重新设计后的工程面试流程...
8 5月1日,60天战争权限耗尽:特朗普还能打消息,美国国会共和党人多次阻止民主党援引《战争权力法》叫停伊朗军事行动的努力,但5月...
9 日本PMI显示制造业因战事影响而提前释放消息,日本制造商因担忧中东战事影响供应链,将产量提升至12年来的最高水平,四月制造业...
10 黑客1.75亿美元ETH换BTC消息,据链上分析师余烬发推称:KelpDAO 黑客在一天半内将 7.57 万枚 ETH 通过 THORChain 跨链兑换...
成都来彰科技 蜀ICP备2025134723号-1
资讯来源互联网,如有版权问题请联系管理员删除。