苹果携手复旦大学推 StreamBridge 端侧视频大语言模型框架,AI 可实时响应视频流
GoodNav 5月13日消息,科技媒体marktechpost报道,苹果公司与复旦大学合作,推出名为StreamBridge的端侧视频大语言模型框架,旨在提升AI理解直播视频的能力。
直播视频理解的难点
传统的视频大语言模型主要针对静态视频,难以应对需要实时感知的场景,例如机器人技术和自动驾驶。这些场景需要模型快速理解直播视频流并做出反应。
现有模型面临两大挑战:一是实时处理多轮信息,需要在分析新视频片段时,同时保留历史视觉和对话信息;二是主动响应,要求模型像人一样主动监控视频流,在没有明确指令的情况下,及时反馈信息。
StreamBridge框架的创新之处
为了解决这些问题,苹果和复旦大学的研究者开发了StreamBridge框架。该框架通过内存缓冲区和动态压缩策略,有效处理长期的上下文信息。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...