lorax

多LoRA推理服务器，支持数千个微调模型的高效服务。

🌍 海外免费开源

支持平台：API开源自部署

详细介绍

LoRAX 是一个多 LoRA 推理服务器，能够在单个 GPU 上服务数千个微调模型，从而大幅降低服务成本而不牺牲吞吐量或延迟。它通过动态加载适配器、异构连续批处理等技术实现高效推理。适用于需要大规模部署微调语言模型的场景。

大规模微调模型部署多租户环境下的模型服务高性能推理需求

AI 研究人员机器学习工程师企业开发者

以上介绍由 AI 基于公开资料整理，可能存在偏差，以官网为准。

LoRAX 支持哪些大型语言模型？

支持 Llama、Mistral 和 Qwen 等大型语言模型。

如何开始使用 LoRAX？

安装依赖后启动 LoRAX 服务器，并通过 REST API 或 Python 客户端进行请求。

信息有误？欢迎在关于页联系我们更正。