高质量翻译模式
高质量翻译模式是Saber Translator区别于其他漫画翻译器的差异性功能。高质量翻译模式的本质是使用**多模态 AI 模型(VLM)**进行识图翻译,AI 能够直接看到漫画图片,结合画面内容和上下文产出更准确、更自然的翻译结果。相比普通翻译模式,高质量翻译的结果更为连贯,更接近人工精翻。
核心原理
高质量翻译与普通翻译的本质区别在于:
普通翻译:仅将 OCR 识别的文字发送给 AI 翻译,翻译单位为单个文字气泡,因此无法与原图相关联,无法贴合情景。
高质量翻译:将图片 + 文字一起发送给多模态 AI,AI 能看到画面进行翻译。这意味着 AI 可以:
理解角色的表情、动作、场景氛围
根据画面判断说话者的情绪和语气
结合视觉上下文消除歧义
保持多页之间的剧情连贯性
与普通翻译的区别
| 对比项 | 普通翻译 | 高质量翻译 |
|---|---|---|
| 输入内容 | 仅文字 | 图片 + 文字 |
| 模型类型 | 文本模型 | 多模态视觉模型 |
| 处理方式 | 逐条翻译 | 批量 + 图片上下文 |
| 翻译质量 | 标准 | 更高 |
| 处理速度 | 较快 | 较慢 |
使用方法
步骤一:配置多模态模型

高质量翻译必须使用支持图片输入的多模态模型(详见 模型类型说明):
- 在设置中找到"高质量翻译"配置
- 选择支持视觉的服务商和模型(参考 模型服务配置)
- 填写 API Key(参考 如何获取 API Key)
步骤二:上传图片

- 上传需要翻译的漫画图片
- 可以一次上传多张图片
步骤三:执行高质量翻译

点击"高质量翻译"按钮,系统将自动:
- 消除文字:先对所有图片进行文字检测和消除
- OCR 识别:识别原文内容
- 收集数据:将图片和原文打包
- AI 识图翻译:将图片 + 原文发送给多模态 AI
- 渲染结果:将 AI 返回的译文渲染到图片上
高级选项
批量大小
控制每次发送给 AI 的图片数量:
- 较小值(1-2):更稳定,适合复杂图片
- 较大值(3-5):更高效,适合简单对话
会话重置频率
控制何时重置 AI 对话上下文:
- 设置为 N 表示每 N 个批次重置一次
- 适当重置可避免上下文过长导致的问题
流式输出
开启后:
- 翻译内容实时显示在终端
- 避免长时间等待超时
- 可观察 AI 的翻译过程
取消思考
对于支持推理的模型(如Gemini):
- 开启后跳过推理过程,直接输出结果
- 可加快翻译速度,降低成本
强制 JSON 输出
确保 AI 返回格式正确的 JSON:
- 提高解析成功率
- 需要模型支持
response_format参数
使用场景
适合使用高质量翻译
- 重要作品:需要精细翻译的作品
- 复杂场景:需要理解画面才能准确翻译的内容
- 情感对话:需要根据表情判断语气的对话
- 多人对话:需要根据画面判断说话者
可使用普通翻译
- 快速预览:只想快速了解剧情
- 简单对话:内容直白的日常对话
- 成本敏感:需要控制 API 调用成本
