使用 Node.js 和 MySQL 高效处理 100 万条记录- 大数跨境

首页

使用 Node.js 和 MySQL 高效处理 100 万条记录

索引目录

2025-03-09

由于内存限制和性能瓶颈，使用 MySQL 在 Node.js 中处理大型数据集可能具有挑战性。高效处理 100 万条记录需要优化查询、使用流式传输并确保正确索引。在本文中，我们将介绍高效处理大型数据集的最佳实践和代码示例。

Node.js 中处理大数据的挑战

内存消耗——一次获取所有记录可能会造成内存超载。
查询性能——如果不进行优化，大型数据集查询可能会变慢。
并发和瓶颈——必须批量处理数据以避免阻塞事件循环。

️ 处理 100 万条记录的解决方案

1. 使用分页或批处理

不要一次性检索所有记录，而是将它们分成较小的块进行处理。

示例：批量获取数据

const mysql = require('mysql2/promise');

async function processLargeDataset() {
    const connection = await mysql.createConnection({
        host: 'localhost',
        user: 'root',
        password: 'password',
        database: 'test_db'
    });

    const batchSize = 10000; // Process 10K records at a time
    let offset = 0;
    let rows;

    do {
        [rows] = await connection.execute(
            `SELECT * FROM large_table ORDER BY id LIMIT ?, ?`,
            [offset, batchSize]
        );

        if (rows.length) {
            console.log(`Processing ${rows.length} records...`);
            await processData(rows);
        }

        offset += batchSize;
    } while (rows.length > 0);

    await connection.end();
}

async function processData(records) {
    for (const record of records) {
        // Perform operations like transformation, writing to another table, etc.
    }
}

processLargeDataset();

这为什么有效？

用于LIMIT ? OFFSET ?分块获取记录。
通过一次处理有限的一组记录来防止内存过载。

2. 使用 MySQL Streaming 处理大数据

不要将所有内容都加载到内存中，而是使用 MySQL 的流式传输功能。

示例：使用 MySQL 流

const mysql = require('mysql2');

const connection = mysql.createConnection({
    host: 'localhost',
    user: 'root',
    password: 'password',
    database: 'test_db'
});

const query = connection.query('SELECT * FROM large_table');

query
  .stream()
  .on('data', (row) => {
      console.log('Processing row:', row);
      // Perform processing on each row
  })
  .on('end', () => {
      console.log('All rows processed.');
      connection.end();
  });

为什么这样更好？

使用流式传输，因此一次只有少量记录保留在内存中。
处理大型数据集时比传统批处理更快。

3.优化MySQL查询

如果数据集太大，请确保优化查询：

使用索引：确保WHERE、ORDER BY和JOIN子句中使用的列已编入索引。
*避免 SELECT * *：仅获取所需的列以减少内存使用量。
使用 MySQL 分区：如果适用，对大表进行分区以获得更好的性能。

4. 批量插入以加快处理速度

如果目标是传输或更新大型数据集，请使用批量插入，而不是逐个插入记录。

示例：批量插入

async function bulkInsert(records) {
    const connection = await mysql.createConnection({
        host: 'localhost',
        user: 'root',
        password: 'password',
        database: 'test_db'
    });

    const values = records.map(record => [record.id, record.name, record.value]);

    await connection.query(
        `INSERT INTO new_table (id, name, value) VALUES ?`,
        [values]
    );

    await connection.end();
}

为什么这样更好？