Token 速度优化

测试模型性能，找到最佳量化配置

运行基准测试

模型 ID *

模型名称（可选）

测试会向 OpenClaw 发送一条简短请求，测量首 Token 延迟和生成速度，需要 OpenClaw 已连接并加载了对应模型。

量化方案推荐

显卡 VRAM（GB）

VRAM 不足 4GB，建议使用 CPU 推理

测试历史0 条

速度优化建议

使用 Q4_K_M 量化

在质量损失极小的前提下，速度提升约 50%，适合 4-8GB VRAM

减少上下文长度

长对话会显著降低速度，建议定期开启新对话或使用对话摘要功能

启用 GPU 加速

确保 ollama 正确识别 GPU，使用 `ollama ps` 检查是否使用 CUDA/Metal

模型预加载

在任务开始前发送一条简短消息预热模型，可减少首次响应延迟 60%