
当天开云kaiyun.com,字节进步Seed团队发布视觉-谈话多模态大模子Seed1.5-VL,向更优智能体迈步。
据先容,Seed1.5-VL在超越3Ttokens的多模态数据上进行预锻真金不怕火,具备更强的通用多模态通晓和推理材干,且推理资本显耀镌汰。
当今在多模态大模子鸿沟,谷歌最新推出的大模子Gemini 2.5 Pro阐明出色,已撑握图像、视频、音频与代码的调治通晓,且在多个基准测试(如MME、Math Bench)中开端于GPT-4.0。
字节团队示意,尽管Seed1.5-VL的激活参数仅有20B,但其性能可达到与Gemini 2.5 Pro出奇的水平,在60个公开评测基准中的38个上得到SOTA(最新最优性能,state-of-the-art performance)阐明,包括19项视频基准测试中的14项,以及7项GUI代理任务中的3项:
1、视觉材干隆起
Seed 1.5-VL在视觉推理、图像问答、图表通晓与问答、视觉定位/计数、视频通晓、GUI智能体等任务中均阐明隆起。其中,在以Agent(智能体)为中心的任务(如GUI甘休和游戏)中,Seed 1.5-VL在7个GUI智能体任务中的3个得到了SOTA获利。




2、交互性更强
精简的架构联想显耀镌汰了推理资本和计较需求,使模子更符合交互式摆布。比如该模子增强了GUI(图形用户界面)定位性能,可在PC端、手机端等不同环境中完成复杂交互任务,包括集中处理信息、在绽放游戏中推理和活动等。


字节团队示意,Seed 1.5-VL进一步晋升了视觉通晓和推理材干,并向VLM(视觉谈话模子)的通用性材干更近一步。但仍存在一定的局限性。
开端,在细粒度视觉感知方面,模子在处理地点计数、图像互异识别以及复杂空间筹商解说时仍濒临挑战,主要在地点摆设不章程、颜料相同或部分荫庇等极点情况下;其次,在高头绪推理任务中,如处罚华容谈谜题、导航迷宫或校服复杂教唆时,偶然模子会引入无凭证的假定或产生不竣工的反映,阐明仍有晋升起间。此外,在视频推理方面,模子尚难以准确识别当作的先后王法或从物体的前后气象臆想王法。
当今,Seed 1.5-VL已在火山引擎上绽放API供用户体验。
多模态指的是或者处理和通晓来自多种不同来源和体式的信息的系统,如文本、图像、音频、视频等。多模态时刻使机器学习模子或者更全面地通晓和抒发复杂的真正宇宙场景,国内大模子厂商纷纷竞逐多模态。
5月6日谷歌DeepMind团队发布多模态大谈话模子Gemini 2.5 Pro,在多个野心上登顶AI排名榜LMArena。
北京时候4月17日,OpenAI发布o系列多模态推理大模子o3与o4-mini。该系列模子在大限制强化学习与图像想维链整合时刻的加握下,多模态推理材干显耀增强,器具摆布材干大幅晋升。
摆布方面,近期多款大厂的AI摆布完毕多模态功能更新,如文小言升级语音大模子、图片问答材干;腾讯元宝上线10张图片同期处理的功能;豆包文生图功能完毕升级,新版深度想考开启测试。
吉祥证券称,近期包括OpenAI、豆包在内发布的新模子,解题想路在此前想维链CoT基础上,更多体现对模子原生Agent材干(即器具使用)以及多模态推理材干的爱好。各人大模子鸿沟的竞争还是尖锐化,坚决看好AI主题的投资契机,现时Agent在企业端落地经过较为靠前,AI摆布提倡矜恤OA/ERP/编程/办公等鸿沟;算力方面,Agent将带来更多的推理端摆布需求,从而拉动推理端算力乃至举座算力需求朝上。
开源证券日前发布研报称,国产模子近期在多模态、推理材干上握续猖狂,多款达到各人顶尖水平,加之头部模子开源,大模子厂商握续发力Agent,将持续激动AI摆布真切落地,拉动推理算力需求,提倡持续布局AI。
热点资讯