Loading...

苹果携手复旦大学推 StreamBridge 端侧视频大语言模型框架,AI 可实时响应视频流

GoodNav 5月13日消息,科技媒体marktechpost报道,苹果公司与复旦大学合作,推出名为StreamBridge的端侧视频大语言模型框架,旨在提升AI理解直播视频的能力。

直播视频理解的难点

传统的视频大语言模型主要针对静态视频,难以应对需要实时感知的场景,例如机器人技术和自动驾驶。这些场景需要模型快速理解直播视频流并做出反应。

现有模型面临两大挑战:一是实时处理多轮信息,需要在分析新视频片段时,同时保留历史视觉和对话信息;二是主动响应,要求模型像人一样主动监控视频流,在没有明确指令的情况下,及时反馈信息。

StreamBridge框架的创新之处

为了解决这些问题,苹果和复旦大学的研究者开发了StreamBridge框架。该框架通过内存缓冲区和动态压缩策略,有效处理长期的上下文信息。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...