Github开源生信云平台 DEMO
有的,而且现在“GGUF / LLM 推理引擎”已经分成两大生态:C/C++ 系 + Rust 系 + Go 轻量绑定/推理层。我帮你按语言和成熟度梳理一下,会更清晰。
👉 几乎所有其他语言都是“调用它”
基于 TVM / WebGPU
支持:
模型可编译成 WASM / WebGPU IR
👉 特点:
NVIDIA 官方 LLM 推理引擎
CUDA 深度优化
👉 用于:
Python/C++ 混合
核心优化:
完全 Rust 推理框架
GPU:WGPU / CUDA(实验中)
👉 优点:
Go 不是主力 LLM 推理语言,但可以用,主要分三类:
👉 示例库:
github.com/go-skynet/go-llama.cpp
github.com/huandu/llama.go
import llama "github.com/go-skynet/go-llama.cpp" func main() { model, _ := llama.New("model.gguf") out, _ := model.Predict("Hello", llama.SetTokens(128)) println(out) }
👉 非常重要(生产级)
特点:
Go 写服务端
后端支持:
OpenAI API 兼容
Client ↓ Go API Server (LocalAI) ↓ llama.cpp / gguf runtime
👉 很多私有部署替代 OpenAI 用它
ollama run llama3
如果你在做系统(你之前做 FastAPI / DAG / pipeline 那种):
Go / Rust / Python API ↓ LocalAI / Ollama ↓ llama.cpp (GGUF)
FastAPI / Go gateway ↓ vLLM / TensorRT-LLM
Rust service ↓ Candle / llama.cpp FFI
你现在更偏向:👉 “做服务(API)”还是👉 “做推理引擎底层”?