大数跨境

实测MiniMax Agent清洗13万条订单数据:5道关卡,4次翻车

实测MiniMax Agent清洗13万条订单数据:5道关卡,4次翻车 AI产品经理研习与实践
2026-01-29
1
导读:一篇流水账,纯粹是为了记录过程

🚀 欢迎来到AI产品经理研习之旅 🚀


今天是一篇流水账,纯粹是为了记录过程>>>
故事的开始,源于我的一个朴素需求:将过去两年的历史业务订单数据从Excel表格迁移到现代化的数据库系统中。过程中想到最近发布的MiniMax Agent据悉是个桌面Agent、能处理本地文件,我就想着试试看它能不能帮上忙。
这看似简单的数据迁移任务,实际操作起来却暗藏玄机。数据源是一份名为history_record2425.xlsx的Excel文件(我已经提前做了整理合并),包含132,838条记录和47个字段。我们的目标是将这些数据清洗后导入Supabase数据库的DWD层(明细数据层)dwd.fact_billing表。
首先,它有很多能做的事情,这我不怀疑。
但我就想看看我这个实际的需求(excel/csv的数据处理)它能不能干!
然而,从Excel到数据库的这条路,我们足足走了一个下午加一个晚上(也还是没完成)
第一关:表格有误?
在我准备就绪后,它读取文件就发现了问题,这确实还是给了我惊喜的:
毕竟它不但发现了(我没注意到的)问题,还自己尝试找到了正确的“答案”。
看似完美!数据行数是对的。这个时候我竟然有点小兴奋,小期待!
第二关:Excel打开"乱码"?列标题和值错位?
不过我在打开生成的csv表格查看时,还是发现问题了,特别是列和值的错位:
乱码本身是Excel对UTF-8编码的中文支持不佳,需要特殊的BOM(Byte Order Mark)头标识来正确识别编码。
第三关:负数金额"不翼而飞"?
验证数据时发现,所有带有负号的金额(如退款冲正场景)都变成了正数。这意味着数据在处理过程中丢失了符号信息。根本原因
最初编写的数据清洗函数使用了正则表达式r'[\d.]+',这个模式只能匹配数字和小数点,完全无法识别负号。
当然,我发现这样改动容易出错,索性让它完整修正代码后重新执行:

第四关:字段映射"名存实亡"?

运行后发现多个输出的csv表格字段完全为空:

这个时候,它已经解决了字段映射、提取和转换,我也对数据进行了人工比对/校验,确实一致了。

第五关:双医生的"名字游戏"

双医生场景下,需要正确识别哪位是主诊医生(doctor_code),另一位则填充到doctor_code_2字段。但历史数据中医生名字的写法极不统一。

我给它提供了思路,并提供了整理后的mapping表:

但还是有问题!
请重新读取《双医生处理.xlsx》。我已经对数据进行了整理1.sheet《standard_doctor_code_mapping》的A列是手工的doctor1和doctor2的值穷举的值,对应B列为标准化映射的doctor_code2.sheet《data》中,我增加了2列,目前的表头为:transaction_code,doctor_code,is_dual_doctor,dual_doctor_names,doctor1,doctor1_standard,doctor2,doctor2_standard,doctor_code_2我认为你可以基于doctor1,结合mapping表得到doctor1_standard;基于doctor2,结合mapping表得到doctor2_standard然后,再比较doctor_code是出现在doctor1_standard中,还是doctor2_standard中,没有对应上doctor1_standard或doctor2_standard则作为doctor_code_2的值

我给它重新整理数据并提供思路。

实际上,它还是没有能够解决。

最后,我只能自己在excel里,基于多个公式处理了。。。

任重而道远呀。至此赠送给我这个新用户的积分也快用完了。

期待下一个版本~

不过,听说Claude for excel很强?有没有试过的?


👉 点赞+在看+分享,让我们一起探索更多AI前沿技术和产品实践 🌟

也欢迎你在留言区与我互动。

【声明】内容源于网络
0
0
AI产品经理研习与实践
现软件产品经理、前管理咨询顾问。坚信人工智能(AI)将会深刻影响我们未来的工作、学习、生活,因此我正在积极拥抱变化、研究和学习人工智能产品经理相关的知识和技能。
内容 76
粉丝 0
AI产品经理研习与实践 现软件产品经理、前管理咨询顾问。坚信人工智能(AI)将会深刻影响我们未来的工作、学习、生活,因此我正在积极拥抱变化、研究和学习人工智能产品经理相关的知识和技能。
总阅读202
粉丝0
内容76