AI技术是为了完成模型任务,而模型任务是为了解决实际业务问题。【数据】是一切的核心。
先上脑图:

1、把数据收集和预处理看成一个黑盒子,看看输入和输出是什么
输入统称为原始数据(业务服务和生产过程中产出的所有数据),一般分为格式化数据:二维关系数据库数据,非格式数据:语音、图片、视频等文件及其他类型数据。
输出就是用于Step2的“模型设计和开发”阶段用到的训练集和测试集。
2、黑盒子里面到底做了哪些事
数据预处理 - 主要是做数据清洗、集合和变换
1)、清洗过程中,比较常见的问题是:无关数据多、数据缺失、重复数据、异常数据等。无关数据(可以用去燥算法)、重复数据、异常数据可以直接做删除处理。数据缺失一般通过替换、插补(比如用均值、中位数替换等)解决。最终我们希望拿到的数据是准确的合理的,具备一定的连续性和平滑性。
2)、集合,业务单元为了研发效率或性能优化目的,会对数据库进行了大量的拆表,导致数据冗余、结构混乱不便于分析。集合的目的就是把这些关联数据整合在一起,减少冗余,可能还需要做转换(比如A表的单位是元,B表的单位是分,就得做好转换才能合并)
3)、变换,简单的讲,就是把数据改成“科学家们”更容易看的懂的格式。目的是让数据特征更明显,更便于算法处理。比如,等比例放大缩小让数据范围控制在一个数量级内,比如做平方、开方、对数处理。还有时序变化、连续属性离散化等处理。
数据标注 - 数据分为标注数据和未标注数据。数据标注是对未经处理过的语音、图片、文本、视频等等数据进行人工标记处理,从而转变成机器可识别信息的过程。我们拿个通俗的例子:妈妈指着一个苹果说“这是苹果”,宝宝记住了【标注数据的过程】,然后他就可以从一大堆西瓜、橘子、苹果、香蕉中找出哪些是苹果【训练过程】,如果宝宝都识别对了,那说明训练效果不错。这就是标注的作用。然后妈妈拿出一个新的苹果【测试集】,问宝宝,这个是什么?宝宝说苹果。测试通过。
这里还会涉及到一个质量问题。我们还是拿宝宝举例,如果妈妈拿了一个长的像桃子的苹果,告诉报告这是苹果,那么训练效果会好吗?答案肯定不好。所以,高质量的数据集是非常重要的,一般都要保证准确性、多样性且符合社会伦理道德标准。
好了,到了这一步,我们会有2部分数据,标注过的训练集和未标注过的测试集。
存储(存算一体) - 把上面标注好的训练集、未标注的测试集存储到云数据库(一般分公有/私有)。但是目前实际应用中存在2个问题:1、非结构化数据增长远大于结构化数据(大量UGC内容,当然AIGC产生的就量级会更恐怖);2、存储墙和功耗墙问题。
目前都有解决方案,但数据和算力需求的增长太快了,且国内GPU被限制、算力需求小而散等等原因,这依然是一个待突破的课题。

看一下全球云服务市占率数据,任重道远。
另外,目前国内外有很多开放数据集可供下载,大家可以手动百度搜索一下,直接可以拿来用。
完成了这些步骤后,我们Setp1就完成了。在后面模型设计和开发的过程中,可以通过代码调用数据集。
------ 本文完 ------
介绍一下自己:30年游戏玩家,14年游戏相关行业从业者。聚焦科技创新+商业化落地解决方案。
扫码加我微信,未来我们会每周调研一个AIGC相关细分赛道,如果您也有想要了解和探索的方向,欢迎一起交流合作。也欢迎各位交流行业、市场、产品、技术、管理等方面内容。


