火山引擎发布豆包 1.5・视觉深度思考模型,新增 GUI Agent 能力
GoodNav 报道,火山引擎今日在 FORCE LINK AI 创新巡展・上海站发布了豆包 1.5 视觉深度思考模型 (Doubao-1.5-thinking-vision-pro)。该模型参数量仅 20B,却在多模态理解和推理方面表现出色,在 60 个公开评测基准中,有 38 个达到了业界领先水平(SOTA),尤其在视频理解、视觉推理和 GUI Agent 能力方面处于领先地位。
在视频理解方面,豆包 1.5 通过动态帧率采样技术,显著提升了视频片段定位能力。结合向量搜索,模型能精准找到与文本描述相匹配的视频片段,方便深入分析和检索视频内容。
该模型新增了视频深度思考能力。通过学习海量多模态数据,模型积累了丰富的视觉知识,并利用强化学习技术,大幅提升了视觉推理能力。例如,在复杂的图形推理任务中,模型能够自主提出假设、进行推理验证,并根据结果不断调整假设,最终得出正确答案。
此外,豆包 1.5 还新增了…
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...