
在教育领域,特别是在学校教育中,数据[1]成为教学改进最为显著的指标。
例如:每个学生回答一个问题所用的时间是多长,不同学生在同一问题上所用时长的区别有多大,整体回答的正确率是多少,这些具体的数据经过专门的收集、分类、整理、统计、分析就成为大数据。
"大数据"曾经是一个全球炙手可热的名词,在2017年~2019年之间达到顶峰。
同样的还有:机器学习,加密货币,大数据,元宇宙,cahtGPT等。
那时,大家都认为,数据在未来将指数式增长,世界将被海量数据淹没。
如何处理这些数据,就成为了关键问题。
它决定了一个企业甚至一个国家在信息时代的竞争力。
于是,有教育专家想当然的提出,大数据是一个学校在数字时代的竞争力。
同时,国内有600多所高校[2]开设了"大数据专业"或"大数据学院",其中包括北京大学、复旦大学这样的名校。

然而,人们预言和期望中的大数据时代,看上去似乎没有来临。
笔者一直对此持怀疑态度,实际上也是实事。
直到看到一篇文章,谷歌的大数据工程师乔丹·蒂加尼[3] (Jordan Tigani),最近直言不讳地说:"大数据已死"。
也佐证了这个怀疑,笔者不成熟的观点如下,期待批判。
大概有5个方面的依据:
1、绝大多数教育类学校或机构的数字化数据到不了大数据级别。
教育类学校的数据量往往不到 1TB,很多甚至不到 100GB。一个网校加上学生提交作业的数据等,甚至加上校园监控每天产生的数据也是有限的,
甚至有数字校园公司把天气数据、每个学生佩戴手环等产生数据和日志等算到一起,每天产生的数据可能也只有几个 GB,这跟大数据相差甚远。
2、"数据会指数式增长"这个假设并不成立

没有新业务的情况下,数据是线性增长的, 即每天的新增数据与以前的数据结构相同。
以前的数据一旦写入数据库,通常就不再发生变化,甚至被覆盖掉,
对于一个教育类学校或者机构来说,"数据会指数式增长"这个假设并不成立。
3、人们大多数情况下只对最近的数据感兴趣
最频繁的查询是针对3-5年内产生的少数相关数据,更久以前的历史数据只会偶尔被查询。
教育内容和考试等每年都在变化,5年前存储的数据可能只是存储着,
那些数据更像静态数据,而不完全是动态数据(没被检索使用的)。
4、大数据分析服务昂贵
大型数据集的查询非常昂贵。谷歌的 BigQuery 的 PB 级别查询报价[4]是 5,000 美元,即使是大公司也不会经常使用。
例如,校园安全中的移动跟踪计算,采用华为的边缘计算技术,
代价是昂贵的,并且无法全部纳入计算,同时却没有得到客观的效益。
5、大多数学校的服务器仅仅实现互联网服务,很少用于计算
无论是学校办公OA,还是自动评测等依然依托的web服务,或者实现移动化。
几乎不涉及计算等服务,更何谈AI等。
引用链接
[1] 数据: https://bigdata.qfnu.edu.cn/info/1087/1643.htm[2] 高校: https://m.mp.oeeee.com/a/BAAFRD000020200728349302.html[3] 蒂加尼: https://motherduck.com/blog/big-data-is-dead/[4] 报价: https://www.ruanyifeng.com/blog/2023/03/weekly-issue-244.html


机器人教育 | VEX EDR | 信息技术 | 学Python | Python 13例 | 教育技术 | 直播教学 | 计算机速成课 | 生涯规划 | 读书摘记 | 闲侃红楼 | 教育科技文摘 | 关于我


