港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了- 大数跨境

首页

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了

量子位

2026-01-06

导读：一代人有一代人的学习机

梦瑶发自凹非寺
量子位 | 公众号 QbitAI

AI真·走进大学期末考场，且是以“作弊者”身份——这不是段子，而是发生在香港科技大学《计算机网络原理》本科期末考试的真实实验。

一副搭载ChatGPT-5.2模型的AI眼镜，在完全复刻真实考试条件下完成整套试卷：30分钟交卷，斩获92.5分，在百余人中位列前五，超越95%的人类考生。

当AI已能稳定跑通“读题—理解—推理—作答”全流程，传统以标准答案为核心的教学评估体系，正面临根本性挑战。

一副AI眼镜，跑完了一整场大学期末考试

该实验由香港科技大学张军教授、孟子立教授团队主导，目标明确：让搭载大模型的AI眼镜在真实考试环境中“光明正大作弊”，检验其学术表现边界。

测试科目直指公认难度较高的《计算机网络原理》，该课程涵盖大量专业概念与严密逻辑推导，对人类学生尚属挑战，对AI更是高阶考验。

硬件选型上，团队系统评估12款主流商业智能眼镜（含Meta、小米、乐奇Rokid等），最终选定乐奇Rokid AI眼镜。原因在于：其SDK开放性强、开发自由度高；相较Meta设备缺乏显示内容控制接口、Frame相机画质受限等问题，Rokid更契合实验需求。

大模型层面，团队对比多款主流模型后，选定OpenAI最新发布的ChatGPT-5.2——兼顾响应速度与通用知识能力。

考试流程高度自动化：学生低头看题→眼镜摄像头实时拍摄→通过“眼镜—手机—云端”链路传输图像至大模型→生成答案反向回传→显示于镜片供抄录。

结果：搭载GPT-5.2的乐奇Rokid眼镜取得92.5分，超95%考生；多项选择题与单页短答题满分；跨页短答题（SAQ）亦获高分，展现强上下文连贯推理能力。

实验同时暴露当前AI眼镜短板： 功耗问题突出——连续Wi-Fi高清图像传输下，30分钟电量从100%骤降至58%； 视觉输入质量敏感——题目模糊、反光或拍摄角度偏差，直接导致模型推理信息不全、答题稳定性下降。

更深层冲击在于教育评估逻辑本身：当“标准答案产出能力”成为核心考核指标，而AI恰恰在此维度具备又快又稳又准的优势时，现有评估体系的合理性与有效性便值得重审。

有了聪明的AI，传统教学评估标准还站得住脚吗

长期以来，笔试评估聚焦于“是否记住知识点”与“能否按标准路径解题”。这套机制曾在人类能力存在显著个体差异的时代行之有效。

但当AI在记忆、计算、步骤推导等维度实现零误差、无波动、全天候稳定输出时，“标准答案导向”的评估逻辑开始失焦。

类似逻辑已在多个场景显现：创业者Eddy Xu改装Meta眼镜实现国际象棋实时最优解提示；英国雷丁大学研究发现，混入题库的AI答卷有94%被误判为人类作答，且平均成绩明显高于真实学生。

真正被忽视的，是那些难以被标准化测量却关乎核心素养的能力： ——提出关键问题的能力； ——信息不全时的判断力； ——多方案间的权衡取舍能力； ——理解现实情境与他人立场的能力。

这些能力指向学习过程、思考路径与决策质量，而非单一答案。它们长期游离于笔试之外，却恰恰是AI最难替代、最能区分学生真实水平的关键维度。

评估重心从「交答案」到「交思路」

教育心理学家加德纳在《Frames of Mind》中指出，人类智能至少包含语言、逻辑数学、空间、音乐、人际、内省、身体运动、自然观察八大类型。而现行评估体系长期仅覆盖其中极窄一维。

这也解释了为何部分标准化测试表现平平的学生，在真实世界中反而展现出更强的创造力、协作力与复杂问题解决力——考试成绩反映的是“标准化环境下的发挥稳定性”，而非综合素养。

新评估范式已在探索：纽约大学Stern商学院Panos Ipeirotis教授推出AI支撑口试机制——学生需现场阐释作业决策依据与思路路径，由Claude、Gemini、ChatGPT分别对口试转录独立评分并交叉校验，聚焦真实理解深度与教学盲区识别；《华盛顿邮报》报道显示，海外多所高校正引入口试、项目展示、过程性档案袋等评估形式，核心目标正是让“思考过程可见”。