llama.cpp(CUDA 编译)+ unsloth 的 Qwen3.6-27B Q4_K_M GGUF。
整个流程三步:编译 → 下模型 → 起服务。
编译 llama.cpp(指定 sm_86,对应 RTX 3090):
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=86
cmake --build build --config Release -j$(nproc)
下载模型(Q4_K_M 单文件约 17GB,hf-transfer 加速十几分钟):
pip install hf-transfer
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download unsloth/Qwen3.6-27B-GGUF Qwen3.6-27B-Q4_K_M.gguf --local-dir ./models
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download bartowski/Qwen_Qwen3.6-27B-GGUF mmproj-Qwen_Qwen3.6-27B-f16.gguf --local-dir ./models
起服务(暴露 OpenAI 兼容协议):
./build/bin/llama-server \
-m ./models/Qwen3.6-27B-Q4_K_M.gguf --mmproj ./models/mmproj-Qwen_Qwen3.6-27B-f16.gguf \
--host 0.0.0.0 --port 8080 \
-ngl 99 --ctx-size 8192 --reasoning off