首页

一条30秒“狗生赢家”视频，我是怎么用DeepSeek+即梦+剪映做出来的？

晓圈派

2026-03-31

导读：这周，我接到一个任务：为“上海狗狗幼稚园”这个热点事件，做一个30秒的短视频。老板说：“要有趣、有网感、能传播。

这周，我接到一个任务：为“上海狗狗幼稚园”这个热点事件，做一个30秒的短视频。

老板说：“要有趣、有网感、能传播。”

于是，有了这篇文章。

说实话，这条视频能成，DeepSeek帮了大忙——从素材整理、文案创作，到分镜头脚本、提示词撰写，再到这篇教程本身，每一步都有它的参与。

如果你也在用AI辅助做视频，这篇文章可能对你有用。

下面是我生成好的成品

01 第一步：定调性，想清楚要“说什么”

接到任务的第一反应，是去网上搜了一圈“上海狗狗幼稚园”的相关信息。

我发现了几个关键点：

真的有这样一家店，叫“爪立方”，在上海宝山

狗要上社交礼仪课、有下午茶、按性格分班

家长们疯狂到租“学区房”、跨区送学、成立家委会

我当时的判断是：

这件事本身已经很“离谱”了，不需要编，只需要把事实讲出来，加一点调侃，就是天然的爆款素材。

于是，我打开DeepSeek，把我搜集到的素材全部喂给它，让它帮我做两件事：

总结事件要点

生成带调侃讽刺风格的文案

DeepSeek给了我什么：

它先帮我梳理了一份清晰的总结，把“狗狗课程表”“师资配置”“家长疯狂行为”这些关键信息提炼出来，让我对素材心里有数。

然后，它生成了一段完整的文案，我直接拿来用了——就是视频里那些“当你的狗开始上学，你就知道内卷不分物种了”“活得不如狗是认真的”这些金句，都是DeepSeek的手笔。

💡 小技巧：做热点类视频，先问DeepSeek三个问题——

这件事最“离谱”的点是什么？

观众看完最想吐槽什么？

我想让观众看完什么感受？

把素材丢给它，让它帮你总结。你会发现，它提炼的角度，往往比你自己想的更有网感。

我的答案分别是：

狗上幼稚园、有学区房、有家委会

“活得不如狗”

笑着觉得“有点道理”

定好这三个方向，就可以开始动手了。

下面是我做好的成品

02 第二步：用DeepSeek写分镜头脚本，让即梦“听懂”我要什么

即梦这个工具，核心玩法是：你给它“提示词”，它给你画面。

但提示词不是随便写的，需要非常具体。而且，即梦对提示词的格式有“偏好”——写得越结构化，生成的结果越稳定。

DeepSeek在这里帮了大忙。

我给deepseek看了一个我之前做的一个镜头脚本“徐州博物馆”，然后让deep seek根据脚本格式模板，让它按照同样的格式，为狗狗幼稚园事件生成6个分镜头的完整脚本。

DeepSeek给我的脚本长这样：

分镜头1：上学路上（时长4秒）

【环境】二次元动漫风格，上海街头，清晨阳光洒在梧桐树影斑驳的街道上，远处隐约可见陆家嘴天际线。一只金毛犬背着迷你书包，迈着轻快步伐走在人行道上。新海诚风格，8k分辨率。不要在视频里生成字幕，画面流畅合理。

【画面】[0-2秒] 全景，上海老城区街道，阳光透过树叶洒下光斑，一只金毛犬背着绿色小书包，迈着自信的步伐走在人行道上；

[2-4秒] 中景，金毛犬走到一扇写有“爪立方幼稚园”的卡通大门前，回头朝镜头看了一眼，甩了甩尾巴，推门进去。

【负面】写实风格，3d渲染，欧美卡通，低质量，模糊，线条不流畅，上色不均匀，不同色调，不同背景，水印，文字，画面抖动，色彩过暗，人物变形，表情僵硬，光照生硬，背景杂乱，声音失真，现代建筑过多，多余路人，车辆喧嚣

💡 小技巧：写提示词的“三要三不要”
要写“环境”：什么风格？什么光线？什么分辨率？
要写“画面”：第几秒到第几秒？拍什么？镜头怎么动？
要写“负面词”：告诉AI“我不要什么”，能有效避免画面崩坏。

不要写“字幕”：字幕后期在剪映加，AI生成的字幕通常位置不对。
不要写“模糊描述”：比如“好看”“可爱”这种，AI理解不了。
不要写“复杂动作”：AI生成视频对复杂动作支持有限，尽量简单。

DeepSeek帮我写的这6个脚本，每个都包含环境、画面、负面词三部分，直接复制粘贴到即梦就能用。如果让我自己写，光是琢磨每个镜头的描述，就得花一两个小时。

我在即梦的操作流程：

把DeepSeek写的每个分镜头的“环境+画面+负面”粘贴到即梦的输入框

选择“二次元动漫”风格，新海诚预设

生成后，如果不满意，微调提示词重新生成

每个分镜头我大概生成了3-5次，选最顺眼的那版

⚠️ 避坑提醒：

“不要在视频里生成字幕”这个提示词一定要加，不然AI会乱加字

03 第三步：剪映剪辑，让“片段”变成“故事”

即梦生成的是6个独立的视频片段，需要在剪映里串起来，加上音效、配音、字幕。

我的剪映操作流程：

1. 导入素材，按顺序排列

把6个片段按分镜顺序拖进时间轴，每个片段之间留0.5秒的过渡（用“叠化”转场，效果自然）。

2. 加配音

我用的是剪映的“文本朗读”功能

选了“解说男声”，语速调到1.1倍（快一点更有网感）

画外音文案用的是DeepSeek最初生成的那一版，一个字没改

💡 小技巧：配音的语速要稍微快于正常说话，短视频的节奏就是“快”。

3. 加背景音乐

剪映音乐库搜索“轻快”“幽默”“卡通”

音乐音量调到-15dB左右，不要盖过配音

4. 加音效

脚步声、铃铛声、狗叫声、键盘敲击声、笑声、盖章声……

这些在剪映“音效”库里都有，搜关键词就能找到

音效要卡点，比如狗进门的那一下，正好配上推门声

💡 小技巧：好的音效是“隐形”的——观众不会注意到它，但没有它，画面就干巴巴的。

5. 加字幕

用剪映的“识别字幕”功能，一键生成

但自动识别的字幕通常有错别字，需要逐条校对

字幕字体我用的是“思源黑体”

字幕位置放在画面下方，不要挡住主角

6. 调色

即梦生成的画面已经很“新海诚”了，基本不需要大调

我加了一个“清新”滤镜，强度调到20%，让画面更亮一点

04 第四步：导出与发布

剪映导出设置：

分辨率：1080p

码率：推荐

帧率：30fps

格式：MP4

05 聊聊DeepSeek在这条视频里的“功劳”

这条视频从0到1，DeepSeek参与了多少？我大概算了一下：

环节	没有DeepSeek	有DeepSeek
素材整理	自己翻网页、做笔记，30分钟	丢给它，2分钟出总结
文案创作	自己憋金句，改3-5稿	它给初稿，我微调，20分钟
分镜头脚本	自己写6个镜头的描述，1小时	给它格式模板，它生成，10分钟
提示词优化	自己试错，生成10次崩8次	它写负面词，成功率提升50%
这篇教程	自己从头写，2小时	它给框架和初稿，我补充细节，40分钟

所以，我的真实感受是：

DeepSeek不是“帮我做视频”，而是让我把时间花在“做决策”而不是“写文案”上。

它负责把“想法”变成“可执行的内容”，我负责判断“这个方向对不对”“这个画面好不好”“这个节奏快不快”。

人和AI的分工，大概是这样：

我做的：定调性、判断素材、选画面、剪辑、调音效、做决定

DeepSeek做的：整理信息、写文案、写脚本、写提示词、写教程框架

各司其职，效率翻倍。

06 写在最后：一些“踩过坑”的经验

1. 即梦生成视频，一定要写“负面词”

一开始我偷懒，没写负面词，结果生成出来的画面：有的是写实风，有的是3D渲染，甚至还有水印。加了负面词之后，画面风格统一多了。这个负面词模板，是DeepSeek帮我写的。

2. 配音和音效，是画面的“灵魂”

同样的画面，没有配音和音效，是“默片”；加上了，才是“视频”。

3. 30秒是黄金时长

抖音、视频号、朋友圈，30秒以内的完播率最高。超过1分钟，很多人就划走了。

4. AI是助手，不是替代品

DeepSeek再强，也得有人告诉它“要做什么”。定调性、做判断、把控质量——这些还得自己来。

好了，以上就是我从“接到任务”到“导出成片”的全过程。

如果你也在用DeepSeek+即梦+剪映做视频，希望这篇教程对你有帮助。

最后，送上那句DeepSeek帮我写的画外音：

“狗过得开心，就是年轻人最大的KPI。”

📌 附：本次教程涉及的资源清单

一、AI与创意工具

DeepSeek——素材整理、文案创作、分镜头脚本、提示词撰写、教程框架生成

二、视频生成工具

即梦——视频画面生成（二次元动漫 / 新海诚风格，8k分辨率）

三、剪辑工具

剪映——视频剪辑、配音、音效、字幕、调色

四、视频规格

总时长：30秒

分镜头数量：6个

输出分辨率：1080p

帧率：30fps

格式：MP4

五、字幕样式

字体：思源黑体

【声明】内容源于网络

晓圈派

生成式视频技术咨询、新媒体运营、营销策划

内容 56

粉丝 0

晓圈派生成式视频技术咨询、新媒体运营、营销策划

总阅读29

粉丝0

内容56