C/C++ 系 + Rust 系 + Go GGUF / LLM 推理引擎

最后发布时间 : 2026-05-08 16:32:39 浏览量 :

https://github.com/ggml-org/llama.cpp 109k
https://github.com/ericlbuehler/mistral.rs 7.1k
https://github.com/ollama/ollama 171k
https://github.com/Michael-A-Kuykendall/shimmy 4.8k
https://github.com/huggingface/candle 20.2k
https://github.com/tracel-ai/burn 15k
https://github.com/mudler/localai 46.1k
https://github.com/vllm-project/vllm 79.4k

有的，而且现在“GGUF / LLM 推理引擎”已经分成两大生态：C/C++ 系 + Rust 系 + Go 轻量绑定/推理层。我帮你按语言和成熟度梳理一下，会更清晰。

🧠 一、C/C++ 生态（最成熟、性能最强）

1. llama.cpp（基准级）

GGUF 原生支持
CPU / GPU / Metal / CUDA
最广泛被二次封装

👉 几乎所有其他语言都是“调用它”

2. MLC LLM（Mobile/WebGPU 方向）

基于 TVM / WebGPU
支持：
- 浏览器
- iOS / Android
模型可编译成 WASM / WebGPU IR

👉 特点：

更偏“部署系统”，不是研究库
可在浏览器跑 LLaMA / Qwen

3. TensorRT-LLM（NVIDIA）

NVIDIA 官方 LLM 推理引擎
CUDA 深度优化
支持：
- FP8 / INT4 / INT8
- KV cache fusion
- 多 GPU 并行

👉 用于：

生产级 GPU 推理
大模型高吞吐服务

4. vLLM（非常重要）

Python/C++ 混合
核心优化：
- PagedAttention
- 连续 batching（吞吐极高）

👉 特点：

API server 非常成熟
常用于 OpenAI-compatible server

🦀 二、Rust 推理生态

1. Candle（HuggingFace）

完全 Rust 推理框架
支持：
- Transformer
- LLaMA / Mistral / Qwen（部分 GGUF）
GPU：WGPU / CUDA（实验中）

👉 优点：

纯 Rust
易嵌入服务
安全性高

2. burn（新兴）

Rust DL 框架
目标类似 PyTorch
LLM 支持还在发展

3. mistral.rs（轻量推理）

Rust + GGUF
目标：比 Candle 更轻

🟦 三、Go 语言推理生态（重点回答你）

Go 不是主力 LLM 推理语言，但可以用，主要分三类：

1. llama.cpp Go binding（最常见）

go-llama.cpp

llama.cpp 的 CGO 封装
直接加载 GGUF

👉 示例库：

github.com/go-skynet/go-llama.cpp
github.com/huandu/llama.go（不同 fork）

示例代码（Go）

import llama "github.com/go-skynet/go-llama.cpp"

func main() {
    model, _ := llama.New("model.gguf")

    out, _ := model.Predict("Hello", llama.SetTokens(128))

    println(out)
}

2. LocalAI（Go 写的 LLM Server）

👉 非常重要（生产级）

特点：

Go 写服务端
后端支持：
- llama.cpp
- whisper.cpp
- diffusers
OpenAI API 兼容

架构：

Client
  ↓
Go API Server (LocalAI)
  ↓
llama.cpp / gguf runtime

👉 很多私有部署替代 OpenAI 用它

3. Ollama（Go + C++ hybrid）

Go 写调度层
llama.cpp 做推理
提供 CLI + API

ollama run llama3

👉 特点：

极简体验
自动模型管理
Docker-like UX

4. LiteLLM（Go + Python proxy）

不是推理引擎
是 LLM gateway（路由）

🧠 四、总结对比（核心）

引擎	语言	GGUF	GPU	特点
llama.cpp	C++	✅	⚡	最底层标准
vLLM	Python/C++	❌（需转换）	🚀	高吞吐 server
TensorRT-LLM	C++	❌	🚀🚀	NVIDIA 最强
MLC LLM	C++	⚠️	🌐	Web / mobile
Candle	Rust	⚠️	⚠️	Rust 原生
burn	Rust	❌	⚠️	DL 框架
go-llama.cpp	Go	✅	⚡	FFI 封装
LocalAI	Go	✅	⚡	API server
Ollama	Go+C++	✅	⚡	最易用

🧠 五、工程建议（很关键）

如果你在做系统（你之前做 FastAPI / DAG / pipeline 那种）：

✔ 推荐架构

方案 A（生产最稳）

Go / Rust / Python API
        ↓
LocalAI / Ollama
        ↓
llama.cpp (GGUF)

方案 B（高性能 GPU）

FastAPI / Go gateway
        ↓
vLLM / TensorRT-LLM

方案 C（Rust 系统）

Rust service
  ↓
Candle / llama.cpp FFI

🚀 如果你想继续深入，我可以帮你做这些：

👉 Go 写一个 GGUF 推理服务（含 streaming）
👉 Rust + Go 混合 LLM gateway 架构
👉 LocalAI 二次开发（接入你的 DAG pipeline）
👉 vLLM vs llama.cpp 在生信 pipeline 中选型
👉 自己实现一个 mini GGUF runtime（教学级）

你现在更偏向：
👉 “做服务（API）”
还是
👉 “做推理引擎底层”？

Hugging Face 的 hf download 图像生成模型（Diffusion）是什么结构