在人工智能领域有一句箴言:有多少人工就有多少智能。据估计,在中国有约千万名“人类专家”在给人工智能喂数据。
近期,随着人工智能的大火,全国多地数据标注招聘市场火热、相关创业模式也不断涌现,提升数据质量成为人工智能开发商“弯道超车”的最新策略。
早在2021年,人社部就发布了《人工智能训练师》国家职业技能标准,覆盖数据标注员、人工智能算法测试员两个工种,可见当时相关产业已经成势。这份标准将人工智能训练师分为5个等级,从初级工到高级技师。
(资料图)
山东济南,人工智能基础数据产业基地内,正在工作的“人工智能训练师”。图片来源:科技日报。
据了解,数据标注员每天的工作就是通过打标签的方式,辅助人工智能学习,可以说数据标注师就是人工智能背后的“人工”。
位于济南市明水国家经济开发区百度智能云(山东)人工智能基础数据产业基地,是百度在全国布局的第二家、山东布局的第一家数据标注基地,目前已经容纳了1500名“人工智能训练师”。
中国工程院院士邬贺铨曾对人工智能训练师做过解释,他表示:“比如AI训练师会进行智能驾驶的训练。智能驾驶中需要让汽车自动识别马路,但如果只是将视频单纯地传给计算机,计算机无法识别,需要人工在视频中将道路框出,再交由计算机,计算机多次接受此类信息后,才能逐渐学会在视频和照片中识别出道路。”
自动驾驶是数据服务需求最大的行业之一,还需要大量的标注数据对模型进行训练和调优。同时,除了“聪明的车”,自动驾驶同样需要“智慧的路”,通过车路协同的共同数据训练,才能实现降本增效。因此,专业、高质量的数据才能够保证自动驾驶的精准和安全。
实际上,现在人们生活中常见的小度智能屏、小爱同学、天猫精灵等智能产品背后,都有AI训练师的身影。
给汽车进行“拉框”,一张图片就要重复数次类似操作。图片来源:网络
就像从零搭建一座结构精密的建筑,每个AI的成长都会经历人工训练的过程。导航语音的生成,智能音箱的应答,人脸支付,动作捕捉……在业界有一种说法,数据标注员是“人工智能的老师”,是他们日复一日地拉框,教会了人工智能理解人类世界。
现在,你去问ChatGpt,它也会“亲口”承认,“在我的训练过程中,开发者们还使用了一些人工标注的数据集,以帮助我识别语言中的关键概念和语法规则。这些数据集通常由人类专家进行标注,包括注释句子结构、命名实体识别和情感分析等等。这些标注数据可以帮助我更好地理解自然语言,并使我更准确地执行我的任务。”
人工智能的三大基石是数据、算力与算法,数量越多质量越高的数据,往往越能够训练出更“聪明”的模型。
人工智能的主流方向是深度学习。在过去,由人来告诉机器,猫身上都有哪些特征,机器根据这些特征判断一个物体是不是猫;深度学习则是通过“喂养”大量不同猫的图片,机器就能自行归纳出猫的特征。这就需要大量经人工标注的图片,有多少智能,就得付出多少人工。
数据标注领域有过一个神话——ImageNet项目。图片来源:网络
数据标注领域有过一个神话——ImageNet项目。这个项目数据库拥有超过1400万张已被标注的图片,其中识别出的物体种类超过20000种——包括120个不同品种的狗。
“人工智能的发展离不开数据标注,没有数据标注,就没有人工智能。没有数据标注,就没有无人驾驶、刷脸支付、阿尔法狗、智能音箱。”河南商丘某公司招聘广告上这样写着。
济南也有不少公司发布关于数据标注员的招聘需求,其中的招聘薪资为每月3-5千元或4-9千元不等。图片来源:网络
海报新闻记者在浏览某招聘平台时,发现在济南也有不少公司发布关于数据标注员的招聘需求,其中的招聘薪资为每月3-5千元或4-9千元不等。招聘要求的学历多为大专以上学历,专业不限。在AI产业中,这类岗位令人联想起电子厂的“流水线”工作。
有个别公司还在招聘需求里写了职业培养方向:数据标注师—数据质检师—项目培训师—项目主管—项目经理。
记者发现,除了较大规模的数据标注产业基地,数据标识行业“个体户”正大量涌现。在百度贴吧上,大量项目正在召集所谓“团队”接标,从发帖内容可以看出,只要有一个相对固定人数、固定工作时长的团队,就可以接下大公司分发下来的项目标。
正在给汽车拉框的数据标注员。图片来源:网络
“如果数据量太大,一般公司会雇外包公司承担。”有从业人员告诉记者。外包公司将数据标注变成了算计件工分的一种工作。有从业者介绍,刨去场地租赁、电脑和桌椅配置、每月水电费、人工开支,这种个体分包商赚取的是中间差价。
不过,这个行业当然也正向着规模化、公司化的方向发展。行内有两种类型的公司,一种是大型互联网公司的内部部门、一种是外包公司。后者正成为资本市场上的“香饽饽”。
图片来源:视觉中国
按照招聘平台上的信息,人工智能训练师是依据工作内容来定时薪价格。时薪能达到30元档的是指3D类工作,一般是对实际场景中的特定事物进行标注,例如对一条道路上的雷达车道线、雷达目标拉框。接着是语音类,是指对音转文、方言转写、唤醒助手等进行标注。
2D类被认为更简单,是指对平面图像、文字段落进行标注,或者是OCR(文字识别)转写,例如对交通违规图片里的人和车、红绿灯、交通标示进行识别。
价格最低的打码类,是指验证码里的计算题、哪些图片中含有火车这类工作。
据iResearch数据,2019年我国数据标注市场规模为30.9亿元,预计2025年市场规模突破100亿元,年复合增长率达到14.6%。图片来源:第一财经
“数据标注十分枯燥无味,纯体力活,每标注200个就有一种想吐的感觉。”正在浙江某高校读研的小何对记者表示。
以此谋生的数据标注师,工作强度可能更为难忍,除了需要耐心在电脑前面坐上几小时、耗尽眼力,可能还要面对原始数据里的限制级内容,涉及性、暴力、仇恨言论等。
在2021年版的《人工智能训练师国家职业技能标准》中,对该职业的能力特征描述是“具有一定的学习能力、表达能力、计算能力;空间感、色觉正常”,普遍受教育程度写的是“初中毕业”。言外之意,这是一份门槛不太高的职业。
数据标注产业促进了不少城镇和农村就业,在河南、河北、贵州等地,还出现了一些特色的“数据标注村”。
轮椅上的人工智能训练师。2022年2月23日,陕西省铜川市宜君县,张文涛每天骑着轮椅去上班。 图片来源:视觉中国
“95后”张文涛来自陕西省铜川市宜君县,在做人工智能训练师之前,他只去过一次县城。14岁那年,他因为意外造成了腰椎粉碎性骨折,后来去县城办了残疾证。
直到2021年4月,26岁的张文涛进入宜君县数字就业中心,成了一名人工智能训练师,这是张文涛第二次来到宜君县城。
人工智能训练师通过对大量文本、图片、语音、视频等数据进行归类、整理、纠错和批注等,让机器人因为大量数据的训练而变得越来越精准,相当于机器人的“教练”。
张文涛的工作是给高德地图做数据标注,从此,每天上亿人在用的这款地图导航APP,背后有了张文涛的贡献。因为腿脚不便很少出门,不能像普通人一样去很多城市和景点,所以他把这项工作看成是自己在线上的“旅游”。
人工智能训练师看上去是人工智能领域一个“入门”工种:技术门槛低,招工人群范围广泛。他们通过每天数千次的重复动作,和最前沿科技的人工智能产生联系。也因此,外界给这个行业贴上了“AI富士康”的标签。
然而,围绕着人工智能训练师的低薪、长期伏案、内容重复和精神压力,社会舆论也正围绕着相关职业保护而发酵。如果无法改善其工作环境、提升价值,这种职业的长久性仍令人存疑。
图片来源:视觉中国
为了训练人工智能,数据标注行业带来了技术红利,但如果人工智能发展到一定程度,甚至有可能够取代数据标注师的工作。
数据标注看似“无脑”,但却因实际落地需要而需要严谨的工作态度。比方说,如果对自动驾驶领域的数据标注缺乏质量把控,那么相关软件就无法令汽车安全地行驶在道路上。
随着GPT-4和文心一言的陆续出场,人工智能正“升级换代”,数据标注行业也伴随着新的变化。
目前的人工智能训练,大家更多地聚焦在数据加工这件事,但如果再往前看,更多的是数据的优化、还有一些相关的解决方案。数据标注是一个很好的行业入门工种,作为从业人员有机会更深度参与到产业链协作当中,例如后续当数据标注越来越机器化,人工和自动化之间要有机的协同,这也对员工提出了更高的要求。
但是也有不少学者对此表示乐观,当数据标注越来越机器化,人工智能训练师是一个转换工种的机会,标注员们现在标注数据,未来可能向数据治理、数据解决方案设计和项目管理等方向发展。
“得数据者,得人工智能”。未来,随着AI应用场景逐渐多领域化,在行业内部,人工智能训练从业者也必将随着AI行业而一同进入细分市场追逐阶段,将迎来的是机遇与挑战并行。