大数跨境
0
0

我批量下载了某个公众号所有文章,分析了爆款内容的共性

我批量下载了某个公众号所有文章,分析了爆款内容的共性 产品经理瞎比比
2025-11-08
11
导读:用AI工具分析爆款文章背后的密码

之前写过一篇如何用AI+多维表格工具拆解爆款短视频的文章。

还在盲目发视频?教你一个拆解爆款视频的方法

其实平时写公众号也会遇到同样的问题,为什么同样领域的作者,写出来的内容就是受欢迎?他们的内容到底有什么特别的地方?

抱着这个问题,我们今天也有同样的思路,来拆解下爆款公众号文章的底层逻辑。

先说说大概的流程:首先我们要把想分析的文章都导出来,然后把这些文章批量进行特征的分析(比如内容框架是怎么写的,表达风格有什么规律等),得出它的风格的参数,最后,我们把这个风格变成一个模板。 有了模板后,我们写文章时,同时就可以把这个模板喂给AI,让AI按模板来修改或输出文章。

最后效果还不错。

那么,我们就来详细看看,如何用AI + python +一些非常简单的数据分析方法和工具,让“内容拆解”这件事变得更可复制。


一、批量导出文章:把内容变成可分析的数据


第一步,我们需要把要分析的公众号文章都导出来。

我经常看“饼干哥哥AGI”的公众号,因为他写的内容也是平时我会去写的。那就用他的文章来进行接下来的分析吧~

如何导出公众号文章?

这里推荐一个我经常用的免费工具:wechatdownload

(github.com/qiye45/wechatDownload)

直接在github里下载安装包就好。

页面中有详细的操作指引,这里就不细说了。

我们把文章导出为md格式的文件,因为md文件都比较小,格式也比较友好。

截图就是导出来的文章了,我们保留md的部分就好



二、文章数据预处理


因为我们导出来的文章里,可能会掺杂一些“水货”内容,比如有的文章就写了一句公告,内容过短,有的文章里会有“识别二维码”、“商务合作”、“联系作者”等等和本身内容无关的句子和词语。 这些内容会对分析产生噪音,所以第一步建议对数据进行一遍预处理,把无关的内容都删除掉

方法比较多,像我们之前介绍过的可以把内容放在多维表格来处理,也可以用自动化工作流来处理。

不过我们是把文章内容导在了本地,并且比较多(饼干哥哥高产,一年写了200多篇文章,,,)

所以我们尝试用python脚本来处理。

比如可以用AI编程工具来写个脚本

运行脚本,所有数据就被我们洗了一篇

下面就是脚本输出的一个预处理的报告

我们可以看到,它帮我们过滤了13篇文章,对每个文章的平均字段和段落数进行了统计,最后保留了220篇质量良好的文章。


三、分析爆款共性:从“感觉写得不错”到“模型可复用”


这一步我们就要对清洗后的内容进行分析了

可以从以下几个维度来进行

  • 风格分析:分析词汇特征、句式特征、结构特征

  • 风格建模:量化风格特征,生成风格画像

  • 模板生成:生成可用于指导 AI 写作的风格模板


我们可以把数据全都丢给AI来分析,但有一个问题,AI一次不能识别太多的内容,再就是,对于这种分析,它很容易产生幻觉。

所以我们就麻烦点,同样用python脚本的方式来处理

脚本里有几个分析点,对词汇特征分析(高频词、情感词、专业术语等),句式特征分析(句长分布、句型比例、标点习惯等),结构特征分析(开头模式、段落组织、结尾风格等),并进行风格评分


然后我们运行脚本,输出了一份分析报告。

我们看看这一份报告:

============================================================文章风格分析报告============================================================生成时间: 2025-11-07 23:42:32分析文章数: 220 篇------------------------------------------------------------📊 词汇特征分析------------------------------------------------------------总词数: 410,993独特词数: 22,857词汇丰富度: 5.56%平均词长: 2.7 字高频词TOP 20:   1. AI       - 3184 次   2. 生成       -  955 次   3. 我们       -  932 次   4. 工作       -  910 次   5. 代码       -  831 次   6. 模型       -  784 次   7. 内容       -  776 次   8. 用户       -  700 次   9. 数据       -  681 次  10. 直接       -  676 次  11. 工具       -  674 次  12. 需要       -  660 次  13. 饼干       -  617 次  14. 提示       -  611 次  15. 哥哥       -  607 次  16. 就是       -  586 次  17. 分析       -  582 次  18. 使用       -  566 次  19. 问题       -  553 次  20. Claude   -  542 次关键词TOP 20:   1. AI       - 权重: 0.2073   2. 生成       - 权重: 0.0353   3. Claude   - 权重: 0.0353   4. 代码       - 权重: 0.0325   5. 饼干       - 权重: 0.0319   6. Cursor   - 权重: 0.0300   7. 模型       - 权重: 0.0291   8. Agent    - 权重: 0.0275   9. MCP      - 权重: 0.0275  10. 用户       - 权重: 0.0260  11. n8n      - 权重: 0.0254  12. 一个       - 权重: 0.0243  13. 编程       - 权重: 0.0235  14. 提示       - 权重: 0.0226  15. 工具       - 权重: 0.0225  16. 内容       - 权重: 0.0217  17. --       - 权重: 0.0213  18. 可以       - 权重: 0.0213  19. 哥哥       - 权重: 0.0210  20. https    - 权重: 0.0210情感词统计:  positive    :  744 次  negative    :  211 次  surprise    :   69 次  question    : 1372 次------------------------------------------------------------📐 句式特征分析------------------------------------------------------------总句数: 19,522平均句长: 35.3 字疑问句比例: 6.42%感叹句比例: 4.56%句长分布:  short   :  4502 句 (23.1%)  medium  :  5418 句 (27.8%)  long    :  9602 句 (49.2%)常用标点TOP 10:   1. ',' - 19937 次   2. '.' - 14244 次   3. ':' -  6353 次   4. '、' -  3858 次   5. '?' -  1333 次   6. '!' -  1279 次   7. ';' -   520 次------------------------------------------------------------🏗️  结构特征分析------------------------------------------------------------总段落数: 13,780平均段落长度: 50.5 字每篇平均段落数: 62.6段落长度分布:  short   : 12394 段 (89.9%)  medium  :  1187 段 (8.6%)  long    :   199 段 (1.4%)常用开头词TOP 10:   1. AI       -  17 次   2. 用        -  15 次   3. 我        -   6 次   4. 我用       -   6 次   5. 2025     -   5 次   6. Claude   -   5 次   7. 一文       -   4 次   8. “        -   4 次   9. 为什么      -   4 次  10. 保姆       -   4 次------------------------------------------------------------🎨 风格画像------------------------------------------------------------综合评分: 4.3/10风格评分:  词汇丰富度       : █░░░░░░░░░ 1.1/10  句式多样性       : █████░░░░░ 5.5/10  情感表达        : █████░░░░░ 5.8/10  段落组织        : ██████░░░░ 6.3/10  简洁程度        : ██░░░░░░░░ 2.9/10风格标签: 详细深入, 结构清晰============================================================


这份报告,就是对饼干哥哥一年内写的公众号的一个简单的量化的分析。(可以简单做下检查和修改,比如里面的饼干就可以删掉了)

分析完成后,我们就需要对把这个风格特征变成可复用的模板了。这个模板,你可以理解为是一个AI的prompt,我们写文章的时候就把这个prompt扔进去,让AI帮我们根据风格进行润色。

同样的我们新建一个python脚本

让脚本帮我们生成模板。

运行脚本。

我们看看这个模板:

# 写作风格指南## 风格概述详细深入, 结构清晰## 词汇使用规范### 词汇特征- 词汇丰富度: 5.56%- 平均词长: 2.7 字- 总体风格: 通俗易懂### 高频词汇(请在写作中适当使用)- AI、生成、我们、工作、代码、模型、内容、用户、数据、直接- 工具、需要、饼干、提示、哥哥、就是、分析、使用、问题、Claude- Cursor、编程、能力、任务、Agent、MCP、信息、结果、开发、项目### 关键词(核心主题词)- AI、生成、Claude、代码、饼干、Cursor、模型、Agent、MCP、用户- n8n、一个、编程、提示、工具、内容、--、可以、哥哥、https## 句式风格规范### 句子长度- 平均句长: 35.3 字- 建议: 可以使用较长句子,详细阐述### 句式分布- 短句(<15字): 4502 句- 中句(15-30字): 5418 句- 长句(>30字): 9602 句### 互动性- 疑问句比例: 6.42%- 感叹句比例: 4.56%- 建议: 适当使用疑问句## 段落结构规范### 段落组织- 每篇平均段落数: 62.6- 平均段落长度: 50.5 字- 建议: 使用较多段落,保持清晰的结构### 段落长度分布- 短段(<100字): 12394 段- 中段(100-300字): 1187 段- 长段(>300字): 199 段## 写作建议### 开头方式常用开头词: AI, 用, 我, 我用, 2025, Claude, 一文, “, 为什么, 保姆### 情感表达- 情感词使用频率: 0.58%- positive: 744 次- negative: 211 次- surprise: 69 次- question: 1372 次### 整体风格评分- 词汇丰富度: 1.1/10- 句式多样性: 5.5/10- 情感表达: 5.8/10- 段落组织: 6.3/10- 简洁程度: 2.9/10## AI写作指令模板请按照以下风格撰写文章:1. **词汇风格**: 详细深入, 结构清晰2. **句子长度**: 平均 35 字左右3. **段落组织**: 每篇约 63 个段落4. **互动性**: 适度使用疑问句5. **情感表达**: 保持理性客观6. **核心词汇**: 围绕以下关键词展开 - AI, 生成, Claude, 代码, 饼干, Cursor, 模型, Agent, MCP, 用户
 

这个就是prompt了,我们可以对它进行一些修改(里面的饼干、哥哥什么的词汇就还是得删掉

还就挺有意思的了。


四、用 AI 反向生成:把爆款结构变成可复制的写作模板


我们上一步生成的模板,就是一个可直接复用的 Prompt,直接复制到AI中,让 AI(包括 Claude、Gemini、GPT 或deepseek)根据这个结构来写新的内容。

最后输出出来的文章,反正我试过后,比直接让AI写的,阅读体验更自然一些,不会像“AI 写的”。

你也可以试试看。

后续,我们可以对脚本不断地调优,对指令不断地完善,让生成的文章越来越专业。



你可能会发现,这个流程背后其实代表了一个更大的趋势:

内容创作正在从 “凭感觉” 变成 “可量化、可拆解、可复制”

而 AI 在这里扮演的不是“代写工具”,而是一个结构模型生成器

剩下的交给模型来给我们草稿,我们再用思考、经验、理解去润色。

不得不说AI工具让很多工作的效率提升了不止一点点,以往要完成这些分析,起码得花个几天,现在就快的多了。我们更多的精力,就可以放在思考和创新上。






【声明】内容源于网络
0
0
产品经理瞎比比
各类跨境出海行业相关资讯
内容 90
粉丝 0
产品经理瞎比比 各类跨境出海行业相关资讯
总阅读27.9k
粉丝0
内容90