- 地区
- 海外
- 定价
- 免费
- 是否开源
- 是
- GitHub Stars
- ★ 3.8k
- 收录来源
- GitHub
- 收录于
- 2026-06-06
- 最近确认可用
- 2026-06-06
详细介绍
LoRAX 是一个多 LoRA 推理服务器,能够在单个 GPU 上服务数千个微调模型,从而大幅降低服务成本而不牺牲吞吐量或延迟。它通过动态加载适配器、异构连续批处理等技术实现高效推理。适用于需要大规模部署微调语言模型的场景。
核心功能
- ▪支持数千个微调模型
- ▪动态适配器加载
- ▪异构连续批处理
- ▪优化推理性能
- ▪生产就绪
适用场景
大规模微调模型部署多租户环境下的模型服务高性能推理需求
优点
- +高吞吐量和低延迟
- +支持多种大型语言模型
- +开源免费商用
局限 / 注意
- -需要一定的技术基础
- -依赖于特定硬件
适合谁
AI 研究人员机器学习工程师企业开发者
以上介绍由 AI 基于公开资料整理,可能存在偏差,以官网为准。
常见问题
LoRAX 支持哪些大型语言模型?
支持 Llama、Mistral 和 Qwen 等大型语言模型。
如何开始使用 LoRAX?
安装依赖后启动 LoRAX 服务器,并通过 REST API 或 Python 客户端进行请求。
信息有误?欢迎在 关于页 联系我们更正。