爬虫吐出的“脏数据”，用 Go 一键洗净！——Golang 大数据处理之数据清洗实战

跨境大白

2025-10-20

导读：🌍 数据不是金矿，脏数据才是真坑你有没有遇到过这样的场景？有没有一种优雅、可配置、通用性、高性能的方式，让我们可以像洗衣机洗衣服一样，一键“清洗”各种爬虫数据？

🌍 数据不是金矿，脏数据才是真坑

你有没有遇到过这样的场景？

明明写了个超强爬虫，抓回来的却是一堆“奇形怪状”的数据：

有的字段叫 price，有的叫 cost

时间格式五花八门：2025/10/19、19 Oct 2025、2025-10-19 12:30

内容还夹杂着 HTML、广告、奇怪的换行符……

是的，这些都是**“脏数据”**。
抓取的数据可能来自很多数据源，各数据源都有自己的一套展示规则，如果不清洗干净，它们不仅拖垮你的数据库，还可能让你的分析结果“离谱到家”，甚至因为数据格式问题而引起系统崩溃或者一些安全问题。

那么问题来了：
有没有一种优雅、可配置、通用性、高性能的方式，让我们可以像洗衣机洗衣服一样，一键“清洗”各种爬虫数据？

答案当然是有的——
今天我们就用 Golang 打造一台“万能数据洗衣机”！

🚀 一、为什么用 Go 来做数据清洗？

Python 有 Pandas，Java 有 Spark，那为什么选 Go 呢？

因为 Go 天生就是为这种高并发、高吞吐的任务而生：

启动快、内存占用低，非常适合流式数据清洗；
Goroutine 并发模型轻量，同时处理上千条数据不在话下；
部署简单，无依赖，一个二进制文件即可上线，无需虚拟环境；
配合 JSON 配置，能轻松实现“规则即逻辑”的清洗引擎；
再加上他的微服务强项更显得他无敌了。

一句话：Go 写清洗服务，不仅干净，还很香。

🧠 二、目标：构建一个“可配置”的爬虫数据清洗微服务

我们要实现一个 ETL 清洗服务，让它做到：

✅ 支持从不同爬虫接入数据
✅ 按配置文件自动提取、转换、正则匹配
✅ 支持列表页面的分组提取
✅ 输出标准化 JSON，直接可入库或入Kafka

换句话说，只要换个配置文件，就能“秒适配”新网站。
想清洗电商？新闻？论坛？改 JSON 就行。

🧩 三、配置：洗衣机的“洗涤程序”

通用性靠的就是配置，配置文件是灵魂，我们用 JSON 来定义“怎么洗”（当然也可以用yaml, 这基于你的习惯），这里因为时间因素没有进一步的扩展，其实这里还有更多的配置优化空间，如标签属性值以及正则表达式的分组，以及字段的层级结构支持，太多了，这里算是留给大家讨论的空间了，欢迎大家再文章后的留言中讨论。

示例配置（config/rules.json）：

{  "rules": {    "ecommerce_site_a": {      "root_xpath": "//div[@class='product-item']",      "group_xpath": "//div[@class='product-list']/div",      "fields": {        "title": {          "xpath": ".//h2[@class='title']/text()",          "regex": "(?P<name>.+)"        },        "price": {          "xpath": ".//span[@class='price']/text()",          "regex": "([0-9.]+)"        },        "url": {          "xpath": ".//a[@class='link']/@href"        }      }    },    "news_site_b": {      "root_xpath": "//div[@id='content']",      "fields": {        "headline": {          "xpath": ".//h1/text()"        },        "publish_time": {          "xpath": ".//div[@class='date']/text()",          "regex": "([0-9]{4}-[0-9]{2}-[0-9]{2})"        },        "body_text": {          "xpath": ".//div[@class='article-body']//p/text()"        }      }    }  }}

看懂了没？这相当于告诉程序：

数据在哪一层（root_xpath）
要取哪些字段（fields）
每个字段怎么找（xpath）
找到后还要不要再“洗一遍”（regex）

配置就是逻辑，换网站，只改配置，不改代码。

⚙️ 四、核心逻辑：清洗服务的“洗衣桶”

我这里选用了 antchfx/htmlquery 来解析 HTML 并执行 XPath 查询。有些朋友会问一般我们都在爬虫程序中直接处理过滤，我觉得专事专办才是硬道理，不知道你是否认同，这样才能提高效率，关于这一点有高见的朋友也欢迎在评论区留言讨论。

下面说一下核心思路：

解析 HTML；
根据配置的 root/group XPath 找到目标节点；
对每个字段执行 XPath；
如果配置了正则表达式，进一步截取内容；
动态构建结构化结果。

核心代码如下👇：

// CleanHTMLData 根据配置清洗 HTML 数据func CleanHTMLData(source string, htmlContent []byte) ([]model.CleanData, error) {    rule, ok := ruleConfig.Rules[source]    if !ok {        return nil, fmt.Errorf("no rule found for source: %s", source)    }
    doc, err := htmlquery.Parse(bytes.NewReader(htmlContent))    if err != nil {        return nil, fmt.Errorf("parse HTML failed: %v", err)    }
    // 先找列表根节点    var groups []*htmlquery.Node    if rule.GroupXPath != "" {        groups, _ = htmlquery.QueryAll(doc, rule.GroupXPath)    } else {        groups, _ = htmlquery.QueryAll(doc, rule.RootXPath)    }
    var cleanedList []model.CleanData
    for _, node := range groups {        cleaned := model.CleanData{Source: source}
        for field, cfg := range rule.Fields {            n := htmlquery.FindOne(node, cfg.XPath)            if n == nil {                continue            }
            text := htmlquery.InnerText(n)
            // 如果配置了正则表达式，则提取匹配内容            if cfg.Regex != "" {                re := regexp.MustCompile(cfg.Regex)                match := re.FindStringSubmatch(text)                if len(match) > 1 {                    text = match[1]                }            }
            cleaned.Set(field, text)        }
        cleanedList = append(cleanedList, cleaned)    }
    return cleanedList, nil}

这段逻辑的好处是：

新网站？直接改配置；
新字段？加 XPath；
新格式？加 Regex；
一行代码都不用动。

🧱 五、运行示例：爬虫洗澡中……

假设我们爬到一个电商页面的 HTML，
执行请求：

curl -X POST "http://localhost:8080/clean_html?source=ecommerce_site_a" \     -H "Content-Type: text/html" \     --data-binary @sample_product.html

返回结果：

[  {    "title": "智能手表X10",    "price": "499.00",    "url": "https://shop.example.com/item/123",    "source": "ecommerce_site_a"  },  {    "title": "蓝牙耳机Pro",    "price": "199.00",    "url": "https://shop.example.com/item/124",    "source": "ecommerce_site_a"  }]

爬虫吐出的“脏页面”，被 Go 的“洗衣桶”洗得干干净净！得到的是纯洁的结构化数据。

🧮 六、项目结构清单

go-cleaning-service/├── main.go              // 程序入口├── config/rules.json    // 清洗规则配置├── handler/clean.go     // HTTP 接口├── service/cleaner.go   // 核心清洗逻辑├── model/record.go      // 数据结构定义└── go.mod

简单、整洁、一目了然、小项目大能效，做好小而精才是开发者的王道。
典型的 Go 风格，实用主义 + 高性能。

💡 七、架构亮点

特性	说明
🧩 可配置	所有 XPath、Regex、字段映射都在配置文件
⚡ 高性能	Goroutine 支持并发清洗，性能优于 Python/PHP
💬 通用性	适配电商、资讯、房产、招聘等多类型网站
🔄 易扩展	支持热更新配置、正则命名提取、批量清洗