大数跨境
0
0

港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了

港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了 量子位
2026-01-06
9
导读:一代人有一代人的学习机
梦瑶 发自 凹非寺
量子位 | 公众号 QbitAI

AI真·走进大学期末考场,且是以“作弊者”身份——这不是段子,而是发生在香港科技大学《计算机网络原理》本科期末考试的真实实验。

一副搭载ChatGPT-5.2模型的AI眼镜,在完全复刻真实考试条件下完成整套试卷:30分钟交卷,斩获92.5分,在百余人中位列前五,超越95%的人类考生。

当AI已能稳定跑通“读题—理解—推理—作答”全流程,传统以标准答案为核心的教学评估体系,正面临根本性挑战。

一副AI眼镜,跑完了一整场大学期末考试

该实验由香港科技大学张军教授、孟子立教授团队主导,目标明确:让搭载大模型的AI眼镜在真实考试环境中“光明正大作弊”,检验其学术表现边界。

测试科目直指公认难度较高的《计算机网络原理》,该课程涵盖大量专业概念与严密逻辑推导,对人类学生尚属挑战,对AI更是高阶考验。

硬件选型上,团队系统评估12款主流商业智能眼镜(含Meta、小米、乐奇Rokid等),最终选定乐奇Rokid AI眼镜。原因在于:其SDK开放性强、开发自由度高;相较Meta设备缺乏显示内容控制接口、Frame相机画质受限等问题,Rokid更契合实验需求。

大模型层面,团队对比多款主流模型后,选定OpenAI最新发布的ChatGPT-5.2——兼顾响应速度与通用知识能力。

考试流程高度自动化:学生低头看题→眼镜摄像头实时拍摄→通过“眼镜—手机—云端”链路传输图像至大模型→生成答案反向回传→显示于镜片供抄录。

结果:搭载GPT-5.2的乐奇Rokid眼镜取得92.5分,超95%考生;多项选择题与单页短答题满分;跨页短答题(SAQ)亦获高分,展现强上下文连贯推理能力。

实验同时暴露当前AI眼镜短板: 功耗问题突出——连续Wi-Fi高清图像传输下,30分钟电量从100%骤降至58%; 视觉输入质量敏感——题目模糊、反光或拍摄角度偏差,直接导致模型推理信息不全、答题稳定性下降。

更深层冲击在于教育评估逻辑本身:当“标准答案产出能力”成为核心考核指标,而AI恰恰在此维度具备又快又稳又准的优势时,现有评估体系的合理性与有效性便值得重审。

有了聪明的AI,传统教学评估标准还站得住脚吗

长期以来,笔试评估聚焦于“是否记住知识点”与“能否按标准路径解题”。这套机制曾在人类能力存在显著个体差异的时代行之有效。

但当AI在记忆、计算、步骤推导等维度实现零误差、无波动、全天候稳定输出时,“标准答案导向”的评估逻辑开始失焦。

类似逻辑已在多个场景显现:创业者Eddy Xu改装Meta眼镜实现国际象棋实时最优解提示;英国雷丁大学研究发现,混入题库的AI答卷有94%被误判为人类作答,且平均成绩明显高于真实学生。

真正被忽视的,是那些难以被标准化测量却关乎核心素养的能力: ——提出关键问题的能力; ——信息不全时的判断力; ——多方案间的权衡取舍能力; ——理解现实情境与他人立场的能力。

这些能力指向学习过程、思考路径与决策质量,而非单一答案。它们长期游离于笔试之外,却恰恰是AI最难替代、最能区分学生真实水平的关键维度。

评估重心从「交答案」到「交思路」

教育心理学家加德纳在《Frames of Mind》中指出,人类智能至少包含语言、逻辑数学、空间、音乐、人际、内省、身体运动、自然观察八大类型。而现行评估体系长期仅覆盖其中极窄一维。

这也解释了为何部分标准化测试表现平平的学生,在真实世界中反而展现出更强的创造力、协作力与复杂问题解决力——考试成绩反映的是“标准化环境下的发挥稳定性”,而非综合素养。

新评估范式已在探索: 纽约大学Stern商学院Panos Ipeirotis教授推出AI支撑口试机制——学生需现场阐释作业决策依据与思路路径,由Claude、Gemini、ChatGPT分别对口试转录独立评分并交叉校验,聚焦真实理解深度与教学盲区识别; 《华盛顿邮报》报道显示,海外多所高校正引入口试、项目展示、过程性档案袋等评估形式,核心目标正是让“思考过程可见”。

因此,乐奇AI眼镜高分过关的意义,不在“AI是否胜过学生”,而在它像一次显影实验,将一个长期存在却被忽略的问题清晰呈现: 传统评估过度依赖终局答案,却几乎无法刻画学习全过程——理解是否发生、思路是否连贯、判断是否经过审慎取舍,这些关键环节仍被压缩为单一分数,难以区分与看见。

技术无法被简单阻挡,真正的挑战在于:如何引导学生把AI用于信息整理、方案推演与假设验证,而将人的认知资源集中在判断、理解、选择等不可外包的核心环节。当工具已能稳定交付答案,课堂与考试是否还能精准识别不同层次的思考质量,已成为教育必须回应的时代命题。

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14606
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读107.5k
粉丝0
内容14.6k