Token 速度优化
测试模型性能,找到最佳量化配置
运行基准测试
测试会向 OpenClaw 发送一条简短请求,测量首 Token 延迟和生成速度,需要 OpenClaw 已连接并加载了对应模型。
量化方案推荐
VRAM 不足 4GB,建议使用 CPU 推理
测试历史0 条
速度优化建议
使用 Q4_K_M 量化
在质量损失极小的前提下,速度提升约 50%,适合 4-8GB VRAM
减少上下文长度
长对话会显著降低速度,建议定期开启新对话或使用对话摘要功能
启用 GPU 加速
确保 ollama 正确识别 GPU,使用 `ollama ps` 检查是否使用 CUDA/Metal
模型预加载
在任务开始前发送一条简短消息预热模型,可减少首次响应延迟 60%