vLLM

基于PagedAttention的高吞吐LLM推理引擎,显著提升GPU利用率

推理高性能GPU

访问 vLLM 官网 →

分类
开源项目
官方网址
https://github.com/vllm-project/vllm
最近更新
Wed Apr 08
标签
推理 · 高性能 · GPU