在上一篇文章中,我们回顾了数据标注的“前世今生”,梳理了其发展脉络与核心价值;而本篇则将视角拉近,以“庖公解牛”式的方式深入剖析标注的内涵,并配套呈现了一份覆盖不同对象和技术维度的标注分类清单,为具体项目中的标注选择提供清晰参考和实用指南。
为了更直观地理解数据标注的本质,用一个比喻来展开:人工智能就像一个小学生,而数据标注就是为它编写“教科书”。教科书的编写过程涉及四个关键问题:编写哪些教材?怎么编写?内容是什么?谁来编写?
教材是什么? 对应的是标注的对象,也就是AI要学习的“材料”,包括图像、视频、音频、文本等。
怎么编写教材? 对应的是标注的技术方法。以图像为例,常见的标注方式包括边框标注、语义分割、实例分割、关键点标注等,每种方法都像是不同的“教学手段”。
教材的内容是什么? 对应的是标注的内容类型和格式。内容类型包括关系、分类、行为等;而内容格式则分为结构化、半结构化和非结构化三种。
谁来编写教材? 对应的是标注的执行方式,可以由人工标注员完成,也可以通过机器自动标注实现。
为了让这些抽象概念更具象、更易理解,我整理了一张标注维度总览图。图中从标注对象、标注技术到标注内容,逐一展开,帮助读者清晰地看到在实际工作中这些维度具体指什么、如何相互关联,并为后续的标注策略选择提供直观参考。
在实际应用中,针对不同的标注对象(如图像、视频、音频、文本)以及不同的业务场景,需要灵活选择合适的标注技术、内容类型和格式要求。例如,图像识别可能需要边框标注或语义分割,行为分析则可能涉及关系或动作类标注,而文本处理则更偏向结构化或半结构化格式。为了提高标注效率和准确性,我们整理了一份涵盖各类标注方式的完整清单,可根据具体任务需求进行选择和匹配。
按照标注对象分类:
分类
|
定义
|
价值
|
图像标注
|
对静态图像中的目标(物体、区域)添加标签、边框或像素级标记,转换为机器可识信息
|
支撑目标检测、语义分割等计算机视觉任务,为自动驾驶、人脸识别提供训练数据
|
视频标注
|
对视频序列中目标、行为或场景进行逐帧/关键帧标注(如目标跟踪、行为分类)
|
支持动态视觉分析,应用于安防监控、动作识别、自动驾驶时序决策
|
3D点云标注
|
对三维点云数据中的物体轮廓、类别、姿态进行标注(如3D框、语义分割)
|
实现三维环境感知,支撑自动驾驶、机器人导航、工业三维建模
|
语音标注
|
对语音数据中的文本信息、声音特征(口音、情绪、噪声)提取并添加标签
|
完善语音识别、语音合成、情感分析,提升语音交互系统自然度
|
文本标注
|
对文本数据进行语义、情感、实体等特征标记(如命名实体识别、情感极性标注)
|
为自然语言处理(机器翻译、文本分类)提供训练数据,提升模型语义理解能力
|
多模态标注
|
对跨模态数据(文本+图像+语音)进行联合标注,建立模态间关联关系
|
支撑多模态大模型训练,提升AI系统对复杂场景的综合理解能力
|
图像标注技术形式和标注内容类型:
类型
|
描述
|
示例
|
|
技术形式
|
边框标注
|
用矩形框圈定目标位置
|
框出“人”、“车”等
|
语义分割
|
每个像素赋予类别标签
|
地面、天空、树木等像素分类
|
|
实例分割
|
每个像素赋予类别+实例标签
|
区分“狗A”和“狗B”
|
|
关键点标注
|
标注物体的关键点位置
|
人体关节、面部五官、车轮轴心
|
|
轮廓标注
|
用多边形或线条精确描绘目标形状
|
标注道路边缘、建筑轮廓
|
|
图像级标签
|
给整张图像打标签
|
“风景”、“室内”、“夜景”
|
|
语义内容
|
属性标注
|
标注对象的属性
|
“红色衣服”、“玻璃材质”、“打开状态”
|
关系标注
|
标注对象之间的关系
|
“人骑车”、“狗在车上”
|
|
分类标注
|
标注对象或图像的类别
|
“猫”、“狗”、“汽车”
|
|
图像描述
|
用自然语言描述图像
|
“一个小女孩在公园骑车”
|
|
行为/动作标注
|
标注对象正在做的动作
|
“奔跑”、“挥手”、“吃饭”
|
|
场景/背景标注
|
标注环境或背景信息
|
“公园”、“办公室”
|
视频标注技术形式和标注内容类型:
类型
|
描述
|
示例
|
|
技术形式
|
时序边框
|
在连续帧中标注目标位置
|
标注“人”在第10–50帧的位置
|
视频分割
|
对视频帧进行语义或实例分割
|
标注“车”在整个视频中的像素区域
|
|
轨迹标注
|
标注目标在时间轴上的运动轨迹
|
标注“狗”从左到右奔跑的路径
|
|
视频分类
|
给整段视频打标签
|
“教学视频”、“交通监控”
|
|
语义内容
|
动作标注
|
标注对象的动作
|
“人挥手”、“狗跳跃”
|
事件标注
|
标注视频中的事件
|
“交通事故”、“比赛进球”
|
|
场景标注
|
标注环境或背景
|
“室内”、“操场”、“夜晚”
|
|
多人互动关系
|
标注人物之间的互动
|
“人A与人B握手”
|
音频标注技术形式和标注内容类型:
类型
|
描述
|
示例
|
|
技术形式
|
音频切分
|
将音频按时间段切分
|
将语音按句子划分
|
音素/音节标注
|
精细语音分析
|
标注“ma”音的起止时间
|
|
声源分离
|
分离不同声源
|
分离“人声”和“背景音乐”
|
|
转录
|
将语音转为文本
|
“你好,我想订票”
|
|
语义内容
|
情感标注
|
标注语音情绪
|
“愤怒”、“平静”
|
事件标注
|
标注声音事件
|
“狗叫”、“玻璃破碎”
|
|
语言识别
|
标注语言种类
|
“普通话”、“英语”
|
|
说话人识别
|
标注说话人身份
|
“说话人A”、“说话人B”
|
文本标注技术形式和标注内容类型:
类型
|
描述
|
示例
|
|
技术形式
|
词级标注
|
对词或短语进行标注
|
标注“北京”为地名
|
句级标注
|
对整句进行分类或情感分析
|
“这部电影太棒了”→ 正面情感
|
|
文档级标注
|
对整篇文本打标签
|
“法律文书”、“新闻报道”
|
|
语义内容
|
命名实体识别
|
标注人名、地名、组织 |
“乔布斯”→ 人名
|
情感分析
|
标注情绪倾向
|
“愤怒”、“中性”
|
|
意图识别
|
标注用户意图
|
“我要订票” → 订票意图
|
|
关系抽取
|
标注实体间关系
|
“乔布斯创办苹果”→ 创办关系
|
|
事件抽取
|
标注事件及要素
|
“地震发生在东京”→ 地震事件
|
3D点云标注技术形式和标注内容类型:
类型
|
描述
|
示例
|
|
技术形式
|
3D边界框
|
在三维空间中框定目标
|
标注“车辆”的空间位置
|
点云分割
|
对点云语义、实例分割
|
标注“建筑”、“树木”点云
|
|
网格/体素标注
|
对网格或体素进行分类
|
标注“墙体”、“地面”体素
|
|
语义内容
|
结构标注
|
标注物体组成部分
|
“车轮”“车门”“车窗”
|
姿态标注
|
标注物体或人的空间姿态
|
“人面向东,抬右手”
|
|
场景理解
|
标注空间环境
|
“室内办公区”、“街道”
|
|
动作轨迹
|
标注运动路径
|
“人从A点走到B点”
|
分类
|
定义
|
价值
|
优点
|
缺点
|
结构化标注
|
标注者从预设标签候选集合中匹配标注对象
|
保证标注结果规范性,便于数据分析和模型训练
|
标签类别清晰,标注效率高
|
面对模糊对象时,易导致标注偏差
|
非结构化标注
|
标注者在约束内自由组织关键字或文本描述标注对象
|
灵活表达复杂语义,适用于无预设标签开放场景 |
自由度高,可表达个性化观点
|
数据格式不统一,后期需额外结构化处理
|
半结构化标注
|
标签值为结构化,标签域为非结构化
|
适用于需同时提取固定特征和自由描述的场景
|
平衡标注效率与语义丰富度
|
对标注者要求高,耗时较长
|

