V
Vision-Agents
Stream的Open Vision Agents,快速构建语音和视觉智能体。
🌍 海外免费+付费开源编程与开发开源多模态AI低延迟视频处理
支持平台:WebiOSAndroidReact NativeFlutterUnity
- 地区
- 海外
- 定价
- 免费+付费
- 是否开源
- 是
- GitHub Stars
- ★ 7.9k
- 收录来源
- GitHub
- 收录于
- 2026-06-05
- 最近确认可用
- 2026-06-05

详细介绍
Stream的Open Vision Agents是一个快速构建语音和视觉智能体的工具,它允许用户使用任何模型或视频提供商来创建多模态AI代理。该工具利用Stream的边缘网络实现超低延迟,适用于需要实时处理视频数据并结合语音识别的应用场景。开发者可以通过安装SDK、获取API密钥等步骤轻松开始构建自己的智能体。
核心功能
- ▪支持YOLO等多种模型
- ▪超低延迟<30ms
- ▪兼容多种视频边缘网络
- ▪提供原生API接口
适用场景
高尔夫教练AI无人机火灾检测体育/游戏训练助手物理治疗辅助
优点
- +易于集成现有系统
- +支持多种编程语言
- +免费试用额度高
局限 / 注意
- -可能需要额外学习成本
适合谁
软件开发者AI研究人员企业解决方案提供商
以上介绍由 AI 基于公开资料整理,可能存在偏差,以官网为准。
常见问题
如何开始使用Vision Agents?
通过uv命令安装vision-agents,并从Stream获取API密钥后按照快速入门指南操作。
相似智能体
信息有误?欢迎在 关于页 联系我们更正。