跳至正文
大神K

编程技术 / Web开发 / AI学习笔记

大神K

编程技术 / Web开发 / AI学习笔记

  • 首页
  • AI
  • 运维
  • 漏洞
  • 安全
  • 逆向
  • 工具
  • 资源
    • 科学上网
  • 资讯
  • 🛒大神商城
  • ✨ 项目展示
  • 👋 关于我
  • 首页
  • AI
  • 运维
  • 漏洞
  • 安全
  • 逆向
  • 工具
  • 资源
    • 科学上网
  • 资讯
  • 🛒大神商城
  • ✨ 项目展示
  • 👋 关于我
关

搜索

大神K

编程技术 / Web开发 / AI学习笔记

大神K

编程技术 / Web开发 / AI学习笔记

  • 首页
  • AI
  • 运维
  • 漏洞
  • 安全
  • 逆向
  • 工具
  • 资源
    • 科学上网
  • 资讯
  • 🛒大神商城
  • ✨ 项目展示
  • 👋 关于我
  • 首页
  • AI
  • 运维
  • 漏洞
  • 安全
  • 逆向
  • 工具
  • 资源
    • 科学上网
  • 资讯
  • 🛒大神商城
  • ✨ 项目展示
  • 👋 关于我
关

搜索

家/AI与自动化/Hermes + Qwen3.6:本地最强 Agent 组合!零成本、无限 Token,太香了!
AI与自动化

Hermes + Qwen3.6:本地最强 Agent 组合!零成本、无限 Token,太香了!

作者 大神K
2026年5月3日 4 分钟阅读
0

Hermes + Qwen3.6:本地最强 Agent 组合!零成本、无限 Token,太香了!

如果现在让我推荐一套最适合普通用户跑本地模型 + Agent 的方案,我会毫不犹豫地推荐:Hermes + Qwen3.6 最新开源模型。这套组合最大的优势就是:免费、好用、灵活,而且非常适合日常使用。
Pasted image 20260503224804.png

无论你是想让 AI 帮你处理自动化任务,还是辅助代码编写、中文理解、逻辑推理,Qwen3.6 都已经可以满足大多数人的日常需求。相比很多需要订阅、需要充值 Token 的在线 AI 服务,本地部署最大的好处就是——真正做到 Token 自由。

你不用担心每次对话都在消耗额度,也不用每个月支付固定会员费。模型运行在自己的电脑上,数据不上传到第三方平台,隐私也完全掌握在自己手里。而 Hermes Agent 的加入,则让这套方案变得更加实用。
Pasted image 20260503224831.png

部署完成后,你可以把它变成一个真正属于自己的 AI 助手:
支持手机随时对话,支持开机自动启动,也可以长时间保持在线。无论是写代码、查资料、整理内容,还是执行一些自动化操作,它都可以成为你电脑上的 24 小时 AI 助理。
Pasted image 20260503224840.png

简单来说,Hermes 负责 Agent 能力,Qwen3.6 负责大模型能力。两者结合之后,就可以在本地打造一套免费、私有、可长期使用的 AI 工作流。

对于想体验本地 AI、又不想被 Token 限制的朋友来说,这套方案非常值得尝试。
Pasted image 20260503224846.png

接下来,我会从零开始,带大家一步一步把 Hermes + Qwen3.6 部署到自己的电脑上,让你的本地 AI 助手真正跑起来。

部署教程:

第一步:确认环境并安装WSL

# PowerShell 管理员运行
wsl --install           # 装 Ubuntu 24.04
wsl --set-default-version 2

重启后再执行安装Ubuntu 24.04系统

装完会自动重启,重启后会弹出 Ubuntu 窗口让你设置用户名和密码(随便设,记住就行)。

Ubuntu 24.04 装好并登录成功,现在先验证 GPU 是否直通正常:

nvidia-smi

Pasted image 20260503224943.png

第二步:装 Python 和 pip

sudo apt update && sudo apt install -y python3-pip python3-venv

如果你出现下方这个错误的话,那么主要是因为显卡驱动太旧了,现在我们去更新下驱动!
Pasted image 20260503225002.png

升级 Windows NVIDIA 驱动 【点击前往】去 Windows 下载最新驱动,WSL2 会自动继承;
Pasted image 20260503225008.png

更新驱动以后,本来我是想通过vllm或者DFlash进行加速运行,但是考虑到很多人的显存没有那么大,可能会爆显存所以我们改用 llama.cpp 方案,更稳定。

第三步:安装 llama.cpp

sudo apt install -y cmake build-essential git
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89
cmake --build build -j$(nproc)

好,如果出现这个错误的话,这主要是因为 CUDA Toolkit 没装导致的。WSL2 里需要单独装,运行:

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install -y cuda-toolkit-12-8

这个下载比较大(约2GB),耐心等….  下载好以后现在设置路径然后重新编译:

export PATH=/usr/local/cuda-12.8/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH
echo 'export PATH=/usr/local/cuda-12.8/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc

cd ~/llama.cpp
rm -rf build
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89
cmake --build build -j$(nproc)

第四步:下载开源的本地模型

编译大概需要5-10分钟,编译成功!现在下载模型并启动,运行:

hf download unsloth/Qwen3.6-27B-GGUF \
  Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --local-dir ~/models/

这个文件约 17GB,下载完贴最后几行,我们再启动服务。如果下载很慢或卡住,那么你可以切换到 ModelScope 国内镜像。

这里需要注意,因为我的显存是24G的,所有我选择 Qwen3.6-27B,如果你的显存没这么大,那么可以选择尺寸小一点的模型,比如Qwen3.5
Pasted image 20260503225053.png

下载好模型以后,现在启动模型服务:(注意把下方命令中的模型名称替换成你自己的):

~/llama.cpp/build/bin/llama-server \
  --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --n-gpu-layers 99 \
  --ctx-size 32768 \
  --flash-attn on \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --presence-penalty 1.5 \
  --port 8080

🎉 成功启动!
Pasted image 20260503225129.png

现在打开 Windows 浏览器访问:http://localhost:8080,就能看到内置聊天界面,直接开始和 Qwen3.6-27B 对话了。
Pasted image 20260503225157.png

亲测效果极快
Pasted image 20260503225203.png

默认它是开启深度思考模式的,如果需要关闭 Thinking 模式要在启动命令里加参数,先 Ctrl+C 停掉服务,然后:

~/llama.cpp/build/bin/llama-server \
  --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --n-gpu-layers 99 \
  --ctx-size 32768 \
  --flash-attn on \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --presence-penalty 1.5 \
  --chat-template-kwargs '{"enable_thinking":false}' \
  --port 8080

关掉 Thinking(非思考模式)

速度快 20-30%
适合:简单问答、写作、代码补全、解释代码
不适合:复杂算法设计、debug 难题、架构分析

开启 Thinking(思考模式)

速度慢,但推理质量明显更好
适合:复杂编程问题、多步骤逻辑、需要深思熟虑的任务

第五步:安装对接 Hermes Agent

第一步:先保持 llama-server 运行(新开一个 WSL2 终端窗口,让模型服务继续跑在 8080)
第二步:在当前终端安装 Hermes Agent

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

安装程序会自动处理所有依赖(Python、Node.js、ripgrep、ffmpeg),你只需要有 git 就行。

选最后的 Custom endpoint (enter URL manually),然后填:

URL: http://localhost:8080/v1

API Key: 随便填比如 12345678

Model: 会自动识别
Pasted image 20260503225240.png

接下来就按照提示,进行配置即可,比如我们可以对接第三方聊天工具:Telegram,当然你可以选择微信、QQ、Discord等
Pasted image 20260503225244.png

对接以后就可以在任何地方,通过TG来调用并控制电脑上的 Hermes Agent,执行自动化任务, 编写代码,撰写文章等,它就是你24小时帮你免费干活的 AI 助手和代理!
Pasted image 20260503225250.png

最后我们写个启动脚本,每次开机自动启动 llama-server,不用手动跑命令。创建一个启动脚本,每次打开 WSL2 自动启动 llama-server。
先创建脚本文件:

cat > ~/start-llm.sh << 'EOF'
#!/bin/bash
echo "Starting Qwen3.6-27B llama-server..."
~/llama.cpp/build/bin/llama-server \
  --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --n-gpu-layers 99 \
  --ctx-size 65536 \
  --flash-attn on \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --presence-penalty 1.5 \
  --port 8080 \
  --host 0.0.0.0 &

echo "llama-server started, PID: $!"
echo "API: http://localhost:8080/v1"
echo "Chat UI: http://localhost:8080"
EOF
chmod +x ~/start-llm.sh

然后设置 WSL2 启动时自动运行:

echo '# Auto-start llama-server' >> ~/.bashrc
echo 'if ! pgrep -f "llama-server" > /dev/null 2>&1; then' >> ~/.bashrc
echo '    ~/start-llm.sh' >> ~/.bashrc
echo 'fi' >> ~/.bashrc

这样每次打开 WSL2 终端,如果 llama-server 没在跑就自动启动,已经在跑就跳过不重复启动。

📌 版权声明

文章作者:大神K

原文链接:https://dashenk.com/2026/05/03/hermes-qwen3-6%ef%bc%9a%e6%9c%ac%e5%9c%b0%e6%9c%80%e5%bc%ba-agent-%e7%bb%84%e5%90%88%ef%bc%81%e9%9b%b6%e6%88%90%e6%9c%ac%e3%80%81%e6%97%a0%e9%99%90-token%ef%bc%8c%e5%a4%aa%e9%a6%99%e4%ba%86%ef%bc%81/

版权说明:本文为原创内容,转载请注明出处。

标签:

HermesQwen免费模型本地模型本地运行
作者

大神K

我是一个长期在技术与赚钱之间反复横跳的人。 做过网站、搞过SEO、写过程序,也踩过币圈的坑。 现在在做的事情很简单: 用 AI + 技术,把复杂的事情变简单,把一个人变成一支队伍。 这个网站,不是教程站,而是我的「操作记录」。 一个站长如何做 SEO 和流量 一个开发者如何用 AI 提高效率 一个交易者如何系统性构建赚钱模型 只讲能落地的方案,分享: 真实经验 + 踩过的坑 在这个时代,一个人,也可以是一家公司。

关注我
其他文章
上一个

10分钟拆解148条视频,用 NotebookLM “榨干”油管博主的插件实战

下一个

Shadowrocket 小火箭如何设置流量代理分组

暂无评论!成为第一个。

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

广告 × 广告
广告 × 广告
广告 × 广告
广告 × 广告

Agent AI写作 AI利用 AI变现 AI大模型 AI工具 ChatGPT Claude Cloudflare CVE Epusdt Gemma4 GEO技术 GitHub GPT GPT-Image-2 Hermes Image-2 Linux MacOS系统 OpenClaw POC RackNerd Skills VPS Windows WordPress 下载利器 两性 免费工具 免费模型 大龙虾 小红书 工具使用 开源免费 提示词 教学 教程 本地运行 梯子 漏洞 爬虫工具 社工库 资源下载 部署

大神K
🚀 AI工具|建站教程|副业变现
用技术改变收入结构
免费获取AI工具合集 →
© 2026 大神K · AI Tools & Growth System