火山引擎发布豆包 1.5・视觉深度思考模型，新增 GUI Agent 能力

4.3K 0 0

GoodNav 报道，火山引擎今日在 FORCE LINK AI 创新巡展・上海站发布了豆包 1.5 视觉深度思考模型 (Doubao-1.5-thinking-vision-pro)。该模型参数量仅 20B，却在多模态理解和推理方面表现出色，在 60 个公开评测基准中，有 38 个达到了业界领先水平（SOTA），尤其在视频理解、视觉推理和 GUI Agent 能力方面处于领先地位。

在视频理解方面，豆包 1.5 通过动态帧率采样技术，显著提升了视频片段定位能力。结合向量搜索，模型能精准找到与文本描述相匹配的视频片段，方便深入分析和检索视频内容。

该模型新增了视频深度思考能力。通过学习海量多模态数据，模型积累了丰富的视觉知识，并利用强化学习技术，大幅提升了视觉推理能力。例如，在复杂的图形推理任务中，模型能够自主提出假设、进行推理验证，并根据结果不断调整假设，最终得出正确答案。

此外，豆包 1.5 还新增了…