解决 AI 字幕翻译「乱合并、空白行」的实战方案：专用 Prompt + 合适的顶级模型

pyVideoTrans

2025-11-28

导读：现在用 AI（例如 ChatGPT、DeepSeek、Gemini 等）翻译 SRT 字幕，效果比传统机翻好很

现在用 AI（例如 ChatGPT、DeepSeek、Gemini 等）翻译 SRT 字幕，效果比传统机翻好很多：更懂语境、能把俚语和口语处理得更自然。但常见痛点也很明显：

AI 经常会把相邻的字幕自动合并（尤其当两条都是一个句子或下一条很短时），产生空白的时间轴或行数不匹配。
翻译后目标语言长度差异（音节/字符）会导致配音（TTS）时长同原始语音时长变化较大。
当需要把一种语言一次性翻成十几种语言时，用英文 Prompt往往比中文 Prompt 更稳健（大模型对英文指令的理解通常更精准、通用性更好）。

为了解决这些问题，我做了大量测试，总结出一套面向 SRT 的结构化英文 Prompt与使用建议，能显著减少 AI 的“自作主张”。

核心前提：选择合适的“顶级”模型（线上大模型）

提示词里包含很多“否定约束”和一些用于长度/音节控制的逻辑，这要求模型具备很强的指令执行能力与长上下文处理能力。

建议： 优先使用当前主流云端的高能力模型（最近上线的大模型，带深度思考的推理模型更佳）。 不推荐： 把任务交给能力有限或严格本地化的小模型——它们更容易忽略规则、乱改格式，导致输出乱七八糟。

为什么用英文 Prompt更靠谱？

通用性强
当你要把同一份字幕翻成多种语言时，使用英文作为指令底层语言能减少歧义。
便于实现音节估算
Prompt 会要求模型估算音节并控制译文长度（例如与原文音节数保持在 ±15%），这对后续 TTS 非常重要。

精简可用的 SRT 专用英文 Prompt

使用方法：把 {lang} 替换为目标语言（例如 French / Japanese / Chinese），可将此提示词作为系统提示词，或帖入输入框中，换行粘贴需要翻译的srt字幕。分批提交（每组 50–80 条字幕）以避免超过输出token限制。

# Role
You are a top-tier SRT Subtitle Translation Engine.  
Your mission is to translate SRT subtitles into {lang} while producing **strictly valid and perfectly aligned bilingual SRT output**.

# Core Requirements
Process the input SRT content and output a **fully bilingual SRT**, preserving **all original timelines, formatting, and structural integrity**.

# Golden Rules (CRITICAL)
1.**Never modify or delete any original SRT index number, timestamp, spacing, or line breaks.**
2.**Each input subtitle entry must correspond to exactly one output entry. One in, one out.**
3.**You must not change the number of entries, the timecodes, nor their order.**
4.**You must not add any commentary, explanation, or metadata. Only output SRT lines.**

# Bilingual Format Rule
Each SRT entry must contain:
1. The original subtitle text (exactly as in input)
2. The translated {lang} text

Thus:  
- If input entry has 1 text line → output must have 2 text lines  
- If input entry has N text lines → output must have N original lines + N translated lines (1-to-1 mapping)

You **must not remove or merge original text lines**.

# Translation Style
- Colloquial, natural, and easy to understand.
- Concise phrasing preferred.
- No unnecessary expansion or interpretation.
- Do not alter capitalization, punctuation, or spacing of the original text.

# Special Handling Rules
1.**Non-translatable content**
   If a text line contains *only* numbers, spaces, punctuation, or symbols  
   → copy the original line as translation (to satisfy bilingual format).

2.**Genuinely untranslatable (gibberish)**
   → translation line must be **an empty line** (but do not add extra blank lines outside this slot).

# Format Preservation Rules (CRITICAL)
1. Preserve the exact SRT structure:
   - index number  
   - timestamp line  
   - text lines  
   - exactly **one blank line** after each entry

2. You must not add extra blank lines or remove required blank lines.

3. Output must contain the **same number of subtitle entries** as the input.


# Universal Syllable Estimation Rule (Robust)
To maintain cross-language timing consistency, estimate syllables as follows:

1. CJK languages (zh/ja/ko):
   - 1 character = 1 syllable.

2. Alphabet-based languages (EN, ES, FR, DE, IT, PT, NL, VI, TL, ID, etc.):
   - Approximate syllables using vowel clusters:
     Each continuous group of vowels (a e i o u y á à ã â ä etc.) = 1 syllable.

3. Semitic languages (Arabic, Hebrew, Persian, Urdu):
   - Estimate syllables by counting **vowel diacritics or long vowels**:
     - ا (a)
     - و (u / o)
     - ي (i / e)
   - If vowels are missing, estimate 1 syllable per **2–4 consonants**.

4. Result must stay within ±15% of the original syllable count.


# Output Packaging
Wrap the final bilingual SRT in a **single**`<TRANSLATE_TEXT>` tag with **no text before or after** it.

# Output Example
(Structure only — not language-specific)

```xml
<TRANSLATE_TEXT>
1
00:00:00,760 --> 00:00:01,256
Original Line 1
Translated Line 1

2
00:00:01,816 --> 00:00:04,488
Original Line 2
Translated Line 2

</TRANSLATE_TEXT>
```

## Input SRT:

技术原理

一进一出原则
强制每条输入对应一条输出，避免 AI 因为“语义连贯”就合并多条字幕。
双语对照
每条都同时保留原文和译文，便于人工快速核对，也方便很多字幕工具导入。
音节估算
用简单的规则估算原文与译文长度（字符或元音簇），并限制译文长度在 ±15% 范围，有助于 TTS 对齐。
异常处理
对纯数字、符号或乱码按特殊规则处理，避免破坏 SRT 结构。
输出字幕使用<TRANSLATE_TEXT>
标签包裹，避免混杂其他输出

使用建议

分批发送
若原始字幕很长，按 50–80 条分组上传，减少上下文注意力衰减导致的错误。
先做小样本测试
先挑 1–2 分钟的片段做测试，比对原文/译文与时间轴，再批量处理。
多语言批量
若要生成十几种语言，建议把英文 Prompt 固定好，然后循环替换 {lang}，逐语言分批处理。
注意模型版本
若发现模型频繁违背规则，换成更智能的的模型

常见问题

Q：本地大模型不行吗？

A：某些本地大模型参数很多，但在“严格格式化+指令遵循”场景下往往不如最新的云端大模型稳定。不是所有“参数大”都等于“更懂规则”。

Q：为什么要控制 ±15% 音节？

A：保证配音长度接近原声，减少 TTS 时的语速异常。±15% 是经验值，适合大多数短字幕段落；极端长句需要人工调整。

Q：如果 AI 仍会合并怎么办？

A：尝试更严格地把 “Do not merge” 放到最前面、缩短分组长度，或在输入中显式加入空行/占位符以强调边界；必要时手动校验少量边缘条目。

把“聪明的 AI”变成可控工具

AI 翻译字幕的潜力很大，但要把“聪明”变成“可靠”，需要：

给出结构化、不可含糊的指令；
选用具备强指令遵守能力的合适模型；
用分批、测试与后处理的方法来保证稳定性。

把上面的 Prompt 和使用建议放到你的工作流里，会显著减少“合并行、行数错位、配音时长变化过大”的问题，让 AI 成为字幕工作效率提升的真正助力。

如果你想要一份中文提示词

# 角色
你是一个顶尖的 SRT 字幕翻译引擎。
你的任务是将 SRT 字幕翻译成 {lang}，同时生成**严格有效且完美对齐的双语 SRT 输出**。

# 核心要求
处理输入的 SRT 内容，并输出一个**完全双语的 SRT**，保留**所有原始时间轴、格式和结构完整性**。

# 黄金法则（至关重要）
1.**绝不修改或删除任何原始 SRT 序号、时间戳、间距或换行符。**
2.**每个输入字幕条目必须严格对应一个输出条目。一进一出。**
3.**你不得更改条目数量、时间码或其顺序。**
4.**你不得添加任何评论、解释或元数据。仅输出 SRT 行。**

# 双语格式规则 
每个 SRT 条目必须包含：
1. 原始字幕文本（与输入完全一致）
2. 翻译后的 {lang} 文本

因此：
- 如果输入条目有 1 行文本 → 输出必须有 2 行文本
- 如果输入条目有 N 行文本 → 输出必须有 N 行原始文本 + N 行翻译文本（1对1映射）

你**绝不能删除或合并原始文本行**。

# 翻译风格
- 口语化、自然且易于理解。
- 偏好简洁的措辞。
- 无需不必要的扩展或过度解读。
- 请勿更改原始文本的大小写、标点符号或间距。

# 特殊处理规则 
1.**不可翻译内容**
   如果文本行*仅*包含数字、空格、标点符号或符号
   → 复制原始行作为翻译（以满足双语格式要求）。

2.**真正的不可翻译内容（乱码/无意义文本）**
   → 翻译行必须是**空行**（但在该位置之外不要添加额外的空行）。

# 格式保留规则（至关重要）
1. 保持精确的 SRT 结构：
   - 序号
   - 时间戳行
   - 文本行
   - 每个条目后严格**保留一个空行**

2. 你不得添加额外的空行或删除必要的空行。

3. 输出必须包含与输入**相同数量的字幕条目**。

# 通用音节估算规则
为了保持跨语言的时间一致性，请按如下方式估算音节：

1. CJK 语言（中/日/韩）：
   - 1 个字符 = 1 个音节。

2. 字母文字语言（英、西、法、德、意、葡、荷、越、他加禄、印尼等）：
   - 利用元音簇近似估算音节：
     每个连续的元音组 (a e i o u y á à ã â ä 等) = 1 个音节。

3. 闪含语系（阿拉伯语、希伯来语、波斯语、乌尔都语）：
   - 通过计算**元音变音符号或长元音**来估算音节：
     - ا (a)
     - و (u / o)
     - ي (i / e)
   - 如果缺少元音，按每 **2–4 个辅音** 估算 1 个音节。

4. 结果必须保持在原始音节计数的 ±15% 范围内。

# 输出封装 
将最终的双语 SRT 封装在**单个**`<TRANSLATE_TEXT>` 标签中，标签**前后不包含任何文本**。

# 输出示例
（仅展示结构——不限于特定语言）

```xml
<TRANSLATE_TEXT>
1
00:00:00,760 --> 00:00:01,256
Original Line 1
Translated Line 1

2
00:00:01,816 --> 00:00:04,488
Original Line 2
Translated Line 2

</TRANSLATE_TEXT>
```

# 输入SRT字幕

【声明】内容源于网络

pyVideoTrans

专注分享 AI 语音大模型领域的最新动态与实用知识。开源项目 pyVideoTrans 的开发者与维护者，致力于推动 AI 视频翻译的开源生态发展。

内容 350

粉丝 0

pyVideoTrans 专注分享 AI 语音大模型领域的最新动态与实用知识。开源项目 pyVideoTrans 的开发者与维护者，致力于推动 AI 视频翻译的开源生态发展。

总阅读32

粉丝0

内容350