l

lorax

多LoRA推理服务器,支持数千个微调模型的高效服务。

🌍 海外免费开源
支持平台:API开源自部署
地区
海外
定价
免费
是否开源
GitHub Stars
★ 3.8k
收录来源
GitHub
收录于
2026-06-06
最近确认可用
2026-06-06

详细介绍

LoRAX 是一个多 LoRA 推理服务器,能够在单个 GPU 上服务数千个微调模型,从而大幅降低服务成本而不牺牲吞吐量或延迟。它通过动态加载适配器、异构连续批处理等技术实现高效推理。适用于需要大规模部署微调语言模型的场景。

核心功能

  • 支持数千个微调模型
  • 动态适配器加载
  • 异构连续批处理
  • 优化推理性能
  • 生产就绪

适用场景

大规模微调模型部署多租户环境下的模型服务高性能推理需求

优点

  • 高吞吐量和低延迟
  • 支持多种大型语言模型
  • 开源免费商用

局限 / 注意

  • 需要一定的技术基础
  • 依赖于特定硬件

适合谁

AI 研究人员机器学习工程师企业开发者

以上介绍由 AI 基于公开资料整理,可能存在偏差,以官网为准。

常见问题

LoRAX 支持哪些大型语言模型?

支持 Llama、Mistral 和 Qwen 等大型语言模型。

如何开始使用 LoRAX?

安装依赖后启动 LoRAX 服务器,并通过 REST API 或 Python 客户端进行请求。

信息有误?欢迎在 关于页 联系我们更正。