大模型时代的数据标注:从劳动密集向技能密集升级

2023-06-25 08:44:47 来源: 天翼智库

(CWW)算力、算法和数据是人工智能的“三驾马车”。过去的十多年,算力、算法、数据等技术的创新和迭代,都取得了“大爆炸”式发展。ChatGPT横空出世背后,有海量训练数据、人工标注指令微调以及基于人工反馈的强化学习。未来,人工智能在垂直场景落地,需要大量经过标注处理的数据完成算法训练。现阶段,数据标注属于劳动密集型产业,人工智能尤其是大模型的崛起,将数据标注推向AI辅助标注、自动标注,数据标注进入技能密集时代。

我国数据标注行业现状及特点

数据标注是指借助特定软件标注工具,将图片、语音、文本、视频等数据内容进行分类、标准特征标签等(例如图片属于“猫”、“狗”、“鸟”等分类),使其易于被机器学习算法可理解和快速处理。近年来,随着人工智能的快速发展,数据标注需求激增,我国数据标注市场呈现如下特点。


【资料图】

一是在需求和政策共推下高速发展。2022年我国数据产量已达8.1ZB,同比增长22.7%,全球占比10.5%,位居世界第二,数据已成为我国重要的资源禀赋优势。与此同时,我国数据要素市场化配置进程加速,政策加持国内 AI 产业发展,市场对高质量数据标注需求激增。根据艾瑞咨询、华经产业研究院数据,2021年我国数据标注市场规模为43至44亿元,2025年有望突破百亿元。此外,数据标注是劳动力资源密集省市政府解决就业难的抓手,多个省市纷纷出台政策支持数据标注产业发展或建立数据标注产业园,如山西省出台了《山西省数据标注产业发展规划(2019-2025 年)》、《山西省加快数据标注产业发展的实施意见》、《山西人工智能基础数据产业专项资金管理办法》等,山西、河南、四川、贵州等省已形成了众多数据标注小镇,全国范围来看,集数据采集、存储、标注、服务等于一体的AI基础数据相关产业持续壮大,进入高速发展期。

二是AI头部企业纷纷入局并赢得竞争优势。数据标注市场有两类参与者,一类是专业的第三方数据标注公司,如Testin云测、澳鹏appen、海天瑞声、数据堂、龙猫数据、曼孚科技等;一类是AI科技公司内部的标注部门。两类数据标注力量都在壮大,第二类发展更快,越来越多的AI头部企业自建标注工具平台和标注基地,如百度在山西建立人工智能基础数据产业基地、推出数据标注开放平台,京东在山东设立京东众智大数据标注助残基地、推出 Wise 开放标注平台,字节跳动在全国设立了六个标注基地。这些AI头部企业资本雄厚、数据需求旺盛、技术实力强,后发优势显著,百度、京东已进入数据标注市场第一阵营。

三是市场需求以定制化服务为主。相关数据显示,2021年我国数据标注及审核市场中定制化服务占比85.41%,而标准化的数据集产品仅占13.33%。这与AI在垂直场景深度落地需要与特定任务类型、特定应用场景相匹配的数据进行算法训练。大模型时代下,“基础模型+微调”有望成为 AI 开发新范式,微调是让AI获特定领域知识,并赋予其组织、应用知识的能力,可以预见,贴合垂直场景的高精准定制化数据标注服务在未来将是市场需求主流。

数据标注行业面临的问题与挑战

早期,市场对数据采集标注的要求较低,准入门槛低,行业内云集了大量中小规模的服务商和灵活就业/兼职个人,数据标注领头企业主要采用转包、众包模式提供服务,行业存在标注效率低下、数据质量参差不齐、高技能人才不足、全程数据安全合规风险高等问题。

一是标注效率低下、数据质量参差不齐。当前数据标注高度依赖人力,十分枯燥、耗费眼力体力,很多中小供应商缺少AI辅助标注、AI质检能力,标注师个人能力素质直接影响标注效率和数据质量,形成行业生产效率低下、数据质量不均衡的局面。

二是高技能产业人才缺乏。从任务需求来看,以较为复杂的语音标注、计算机视觉标注为主,医疗医药、法律、金融、电力等专业数据集标注生产,还对标注师的学科知识储备有一定要求。从人才培养来说,人工智能训练师新型岗位培养、专业设立并没有受到社会重视,市场上缺乏经过系统性训练的高技能人才。

三是全程数据安全合规风险高。根据中国信通院报告,80%的安全风险发生在数据流通环节。从行业现状来看,数据标注的链条较长,包括采集、标注、存储、传输等环节,转包模式下信息链条更长,黄赌毒/暴力信息过滤、隐私保护、数据不当使用等都是标注和审核企业面临的难题。

数据标注行业存在的变化及趋势

随着人工智能技术在更多垂直应用场景落地深化,数据标注表现出以下几个趋势:

一是AI辅助标注、自动化数据标注成为新竞争力,助推行业从劳动密集转向技术密集。从全球范围来看,美国由于人力成本较高,较早使用机器替代人力,谷歌、微软等互联网巨头都推出了自动标注系统,Playment和Scale AI合作,为全球高分辨率 LiDAR传感器制造商 Data 联合开发了高级深度学习标注工具。在中国,用工管理日趋规范以及标注需求量的激增,纯人工标注在效率和成本上的优势将很快消失,使用AI赋能的自动标注能力与相关工具来提升效率和质量,将逐渐成为数据标注企业提高市场竞争力、降本增效的利器。AI辅助标注、自动标注不仅提升了数据的产出效率,同时也在标注模型工具的迭代中打造出了完善的 AI 基础设施,从而助推行业向技术密集转型。

二是行业走向垂直化、定制化,门槛提高,市场集中度提升。随着人工智能进入多元行业和场景落地阶段,自动驾驶、医疗医药、小语种、法律、金融等有一定专业性要求的垂直场景将成为主要需求,带动行业进一步朝着垂直化、定制化发展,专业性要求越来越高,市场准入门槛将显著提高。同时,头部的品牌数据服务商由于具备较强算法能力和稳定训练数据资源,有实力打造AI辅助标注、自动化标注平台工具,标注效率、质量和成本优势将凸显。未来,品牌数据服务商和需求方自建的标注团队将逐步替代中小供应商,行业市场集中度将显著提升。如,2019年中小数据供应商的市场份额高达 47%,百度市场份额为11%,2022年百度的市场份额跃居到18%。

三是追求更高的数据质量、安全性和隐私性。大部分算法在拥有足够多普通标注数据的情况下,能够将准确率提升到 95%,但再提升到 99%甚至 99.9%,则需要高质量数据。另一方面,海量原始数据的采集标注,涉及大量敏感数据,如人脸、语音等内容,随着数据安全合规法律政策体系的完善和监管升级,对数据的采集、标注、存储、传输的每一个环节的安全合规要求越来越高。因此,围绕标注质量和全流程数据安全合规,建立一套完善的流程机制,并有技术工具保驾护航,就成为当下诸多数据标注服务商着重建设发展的能力。

电信运营商的探索和机遇

电信运营商在数据资源的内部场景化应用、外部产品化流通方面,主要使用结构化数据,非结构化数据采集标注仅在客户服务场景中的热线话务、投诉及故障工单的智能打标,以及装维流程中的现场作业规范管理等少数场景应用;外部产品化应用主要是视联网产品的AI视频分析识别,如明厨亮灶中对进入厨房区域的厨师服/帽、口罩的穿戴着装,抽烟、玩手机、老鼠检测、外来人员识别等实时告警等。整体来说,电信运营商的语音标注、计算机视觉标注处于探索期,尚未像百度、京东一样形成专业化标注生产能力,但值得肯定的是,在为数不多的探索中运营商选择了AI辅助标注、自动化标注路径。当下,AI大模型炙手可热,催化数据采标需求加速释放,电信运营商可审视如下机遇点。

一是面向垂直行业的AI辅助标注、自动化标注工具及解决方案。一方面是我国尚未形成AI辅助标注、自动化标注的领先产品,另一方面是对数据安全要求严格或期望降低数据生产成本的企业,纷纷从选择专业标注公司驻场服务到自购通用标注工具、模型训练工具进行适配优化,自行完成数据标注,这给专注于某个垂直领域的基础数据服务商带来了机会:针对细分领域提供自动化标注工具或解决方案。

二是面向数据采集标注全流程的数据安全合规基础设施。AI基础数据生产涉及到采集、存储、标注、传输等环节,市场需要低成本的覆盖全流程的数据可信生产流通环境,运营商在云网数字基础设施中增加诸如区块链、前沿密码等技术,将产生新的优势。

三是垂直行业的专业数据集生产。运营商长期深耕金融、政法、公安、医疗、交通、教育等行业解决方案,在众多垂直领域形成了产业生态,具有将企业数据与垂直领域的跨组织、跨区域数据资源融合汇聚,提供专业数据集的潜能。


标签:

[责任编辑:]

最近更新