注册 登录
自由的生活_软路由 返回首页

心想事成的个人空间 https://bbs.routerclub.com/?681 [收藏] [复制] [分享] [RSS]

日志

3090 本地跑 Qwen 3.6 27B

已有 5 次阅读2026-5-8 21:53

 llama.cpp(CUDA 编译)+ unsloth 的 Qwen3.6-27B Q4_K_M GGUF。
整个流程三步:编译 → 下模型 → 起服务。
编译 llama.cpp(指定 sm_86,对应 RTX 3090):
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=86
cmake --build build --config Release -j$(nproc)
下载模型(Q4_K_M 单文件约 17GB,hf-transfer 加速十几分钟):
pip install hf-transfer
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download unsloth/Qwen3.6-27B-GGUF  Qwen3.6-27B-Q4_K_M.gguf --local-dir ./models
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download bartowski/Qwen_Qwen3.6-27B-GGUF   mmproj-Qwen_Qwen3.6-27B-f16.gguf --local-dir ./models
起服务(暴露 OpenAI 兼容协议):
./build/bin/llama-server \
  -m ./models/Qwen3.6-27B-Q4_K_M.gguf --mmproj ./models/mmproj-Qwen_Qwen3.6-27B-f16.gguf \
  --host 0.0.0.0 --port 8080 \
  -ngl 99 --ctx-size 8192 --reasoning off


路过

雷人

握手

鲜花

鸡蛋

评论 (0 个评论)

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 注册

QQ|Archiver|手机版|小黑屋|软路由 ( 渝ICP备15001194号-1|渝公网安备 50011602500124号 )

GMT+8, 2026-5-11 00:10 , Processed in 0.023075 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2001-2026 Discuz! Team.

返回顶部