數(shù)據(jù)作為新型生產(chǎn)要素,高質(zhì)量標(biāo)注數(shù)據(jù)是人工智能模型訓(xùn)練的核心支撐。在政策層面,國家 “十四五” 規(guī)劃等明確數(shù)據(jù)標(biāo)注戰(zhàn)略地位,提出 2027 年年均增速超20%的目標(biāo);粵港澳大灣區(qū)憑借多語言文化環(huán)境、密集科技企業(yè)集群及 “數(shù)字灣區(qū)”“數(shù)據(jù)特區(qū)” 等政策優(yōu)勢,構(gòu)建起 “國家頂層設(shè)計—區(qū)域協(xié)同—跨境合作” 政策體系,成為語言數(shù)據(jù)標(biāo)注產(chǎn)業(yè)重要集聚地。
根據(jù)澳門中西創(chuàng)新學(xué)院和北京語言大學(xué)聯(lián)合發(fā)布的《粵港澳大灣區(qū)語言數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展白皮書》(2025)顯示,從全球與中國產(chǎn)業(yè)格局來看,2023 年全球數(shù)據(jù)標(biāo)注市場規(guī)模達(dá) 140.7 億美元,美國以 30% 份額居首,形成 “專業(yè)公司 + 眾包平臺 + 標(biāo)準(zhǔn)組織” 的完整生態(tài)。同年中國市場規(guī)模約 800 億元,以北京、廣東為核心區(qū)域,但存在企業(yè)規(guī)模小、技術(shù)創(chuàng)新不足的問題。2024 年,大灣區(qū)語言數(shù)據(jù)標(biāo)注產(chǎn)值 44.02 億元,占區(qū)域數(shù)據(jù)標(biāo)注產(chǎn)業(yè) 69.9%,廣深雙核聚集 88% 的企業(yè),形成 “綜合型企業(yè)主導(dǎo)、專業(yè)化企業(yè)補(bǔ)充” 的格局。
在產(chǎn)業(yè)發(fā)展現(xiàn)狀上,截至 2024 年,大灣區(qū)有 3775 家語言數(shù)據(jù)標(biāo)注相關(guān)企業(yè),實現(xiàn)產(chǎn)值 44.02 億元,擁有從業(yè)人員 1.28 萬人。其中,含語言數(shù)據(jù)標(biāo)注的企業(yè)占 94.9%,貢獻(xiàn) 85.8% 產(chǎn)值;純語言數(shù)據(jù)標(biāo)注企業(yè)雖僅有 52 家,但標(biāo)注精度高;外資語言數(shù)據(jù)標(biāo)注企業(yè)占比 3.7%,市場參與度有限。企業(yè)規(guī)模集中在 100 萬—5000 萬元區(qū)間,呈現(xiàn)“紡錘形” 分布,市場集中度中等(CR10=45.44%)??臻g上,大灣區(qū)形成“廣深雙核 + 次級節(jié)點(diǎn)” 結(jié)構(gòu),深圳、廣州聚集 88.24% 的企業(yè),貢獻(xiàn) 95.47% 的產(chǎn)值。珠海、佛山等為次級節(jié)點(diǎn),港澳特區(qū)雖直接參與有限,但可在跨語言數(shù)據(jù)標(biāo)注標(biāo)中發(fā)揮作用,且區(qū)域空間集聚度高(HHI=3960),部分區(qū)域已形成 “算法—數(shù)據(jù)—應(yīng)用” 生態(tài)閉環(huán)。產(chǎn)業(yè)鏈涵蓋數(shù)據(jù)采集、工具研發(fā)、標(biāo)注執(zhí)行、質(zhì)檢交付,存在專業(yè)外包、眾包平臺、企業(yè)自建三種模式,與數(shù)字經(jīng)濟(jì)、人工智能、新質(zhì)生產(chǎn)力高度協(xié)同,數(shù)據(jù)標(biāo)注產(chǎn)業(yè)規(guī)模每增加10%,數(shù)字經(jīng)濟(jì)指數(shù)、人工智能企業(yè)數(shù)、新質(zhì)生產(chǎn)力水平分別增長 0.30%、8.96%和0.24%,對區(qū)域經(jīng)濟(jì)驅(qū)動作用顯著。
技術(shù)創(chuàng)新與標(biāo)準(zhǔn)體系方面,自 2015 年起我國語言數(shù)據(jù)標(biāo)注專利申請量快速增長,2022 年達(dá) 800 件,大灣區(qū)專利申請量位居全國第二,騰訊、平安等企業(yè)在智能標(biāo)注工具、質(zhì)量控制算法上領(lǐng)先,但基礎(chǔ)理論創(chuàng)新不足。AI 輔助標(biāo)注、聯(lián)邦學(xué)習(xí)標(biāo)注等技術(shù)廣泛應(yīng)用,“機(jī)器預(yù)標(biāo)+人工精修” 模式使效率提升 50% 以上。國家初步建立 “國標(biāo)—行標(biāo)—團(tuán)標(biāo)” 體系,大灣區(qū)試點(diǎn)跨境數(shù)據(jù)流通標(biāo)準(zhǔn),推動多模態(tài)標(biāo)注、質(zhì)量評估等區(qū)域規(guī)范,并通過多級質(zhì)檢、標(biāo)準(zhǔn)化流程保障數(shù)據(jù)質(zhì)量管理,強(qiáng)化隱私脫敏、眾包權(quán)益保護(hù)等倫理措施,探索聯(lián)邦學(xué)習(xí)等技術(shù)防止數(shù)據(jù)泄露。
人才供需狀況顯示,大灣區(qū)語言數(shù)據(jù)標(biāo)注崗位以基礎(chǔ)標(biāo)注為主,通用標(biāo)注員占比 68.18%,AI 訓(xùn)練師(15.13%)、大模型標(biāo)注(3.34%)等新興崗位逐漸崛起。崗位主要集中在廣深,占比 64.4%,薪資多在 6000—8000 元 / 月,兼職時薪 15—30 元,高技能崗位稀缺。企業(yè)以中小微為主,64.4% 的企業(yè)員工不足 500 人,外包現(xiàn)象普遍。全國語言數(shù)據(jù)標(biāo)注人才缺口超 100 萬,大灣區(qū)面臨 “低端過剩、高端短缺” 問題,亟待完善職業(yè)技能標(biāo)準(zhǔn),推動產(chǎn)教融合,設(shè)立技能競賽,保障從業(yè)者權(quán)益,構(gòu)建 “初級標(biāo)注員—高級訓(xùn)練師” 晉升通道。
粵港澳大灣區(qū)語言數(shù)據(jù)標(biāo)注產(chǎn)業(yè)雖已具備規(guī)模與集群優(yōu)勢,但仍存在企業(yè)規(guī)模小、區(qū)域發(fā)展不平衡、技術(shù)存在瓶頸等問題。為此,建議加強(qiáng)區(qū)域協(xié)同,打造世界級數(shù)據(jù)標(biāo)注產(chǎn)業(yè)集群;培育數(shù)據(jù)標(biāo)注龍頭企業(yè),建設(shè)產(chǎn)業(yè)園區(qū);攻關(guān)智能標(biāo)注技術(shù),參與國際標(biāo)準(zhǔn)制定;健全語言數(shù)據(jù)標(biāo)注人才培養(yǎng)與保障體系;強(qiáng)化數(shù)據(jù)治理與行業(yè)自律。通過政策、技術(shù)、人才協(xié)同發(fā)力,推動產(chǎn)業(yè)向 “規(guī)范化、智能化、高質(zhì)量” 發(fā)展,為我國人工智能發(fā)展提供核心支撐和有力保障。