日志

3090 本地跑 Qwen 3.6 27B

已有 124 次阅读2026-5-8 21:53

llama.cpp（CUDA 编译）+ unsloth 的 Qwen3.6-27B Q4_K_M GGUF。

整个流程三步：编译 → 下模型 → 起服务。

编译 llama.cpp（指定 sm_86，对应 RTX 3090）：

cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=86

cmake --build build --config Release -j$(nproc)

下载模型（Q4_K_M 单文件约 17GB，hf-transfer 加速十几分钟）：

pip install hf-transfer

HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download unsloth/Qwen3.6-27B-GGUF Qwen3.6-27B-Q4_K_M.gguf --local-dir ./models

HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download bartowski/Qwen_Qwen3.6-27B-GGUF mmproj-Qwen_Qwen3.6-27B-f16.gguf --local-dir ./models

起服务（暴露 OpenAI 兼容协议）：

./build/bin/llama-server \

-m ./models/Qwen3.6-27B-Q4_K_M.gguf --mmproj ./models/mmproj-Qwen_Qwen3.6-27B-f16.gguf \

--host 0.0.0.0 --port 8080 \

-ngl 99 --ctx-size 8192 --reasoning off

GMT+8, 2026-5-31 10:37 , Processed in 0.022766 second(s), 5 queries , Gzip On, Redis On.