在chatGPT掀起人工智能(AI)熱潮的當下,AI三要素之一的數據也成為了熱門話題。
(資料圖)
作為AI大語言模型高質量回答的基礎,訓練數據生產過程主要包括四個環(huán)節(jié):設計(訓練數據集結構設計)、采集(獲取原料數據)、加工(數據標注)及質檢(各環(huán)節(jié)數據質量、加工質量檢測)。其中,數據標注需要識別圖像、文本、視頻等原始數據,并添加一個或多個標簽為機器學習模型指定上下文,幫助其做出準確的預測。
不過,數據標注是仍需要大量人工來完成的環(huán)節(jié)。“人工有多強大,智能才有多強大。”主營AI數據采集標注業(yè)務的杭州景聯文科技副總裁劉云濤在接受第一財經采訪時稱,這還是一個先有雞或先有蛋的故事。
但劉云濤同時表示,數據采集標注行業(yè)發(fā)展至今,已成為半人工智能、半人工化的行業(yè)。全棧AI數據及模型解決方案供應商倍賽科技創(chuàng)始人兼CEO杜霖也認為,數據標注本質上是一個研發(fā)密集型產業(yè)。
數據標注與大模型質量正相關
“當下的機器學習技術大部分依賴于human-in-the-loop,即有監(jiān)督或來自人類反饋的學習。”杜霖在接受第一財經采訪時表示,“而監(jiān)督和反饋即人對數據的標注與評價。”
AI分析公司Cognilytica研究數據顯示,在AI項目中,對數據相關的處理過程可占據超過80%的時間,其中數據標注環(huán)節(jié)的耗時占比可達25%。
數據標注是指對未經處理的語音、圖片、文本、視頻等數據進行轉義、打點、拉線、拉框等操作,標注為電腦可以識別的信息,再上傳到數據庫,實現人工智能。一般來說,標注上傳的數據越多、越準確,人工智能也就越智能。
招商證券表示,GPT-3與前一代產品GPT-2架構相同,但訓練數據與參數量顯著提升,GPT-2的預訓練數據量為40GB、參數量僅有15億個,而GPT-3的參數訓練量達到45TB、參數量更是高達1750億個,約有4900億個tokens。從回答質量上看,ChatGPT回答內容比GPT-2更貼切、準確,并且符合人類語言習慣。
不過,杜霖認為,標注數據貴不在數量而在質量。
“從GPT的實驗發(fā)現,隨著模型參數量的增加,模型性能均得到不同程度的提高。但值得注意的是,通過來自人類反饋的強化學習(RLHF)生成的InstructGPT模型,比100倍參數規(guī)模無監(jiān)督的GPT-3模型效果更好,也說明了有監(jiān)督的標注數據是大模型應用成功的關鍵之一。”
如何提升數據標注的質量?劉云濤認為,一是提高標注準確率,二是提高貼合度。“以自動駕駛為例,紅綠燈、車道線等標注準確度越高,算法精度就越高;貼合度從5個像素點變成1個像素點,算法精度也隨之提升。”劉云濤表示,“此外,多維度也是提高質量的方式。比如chatGPT在面對一些問題時面對不同的人會有不同的答案。”
我國數據標注行業(yè)迅速發(fā)展
隨著全球新一輪AI熱潮來臨,大量訓練數據已成為AI算法模型發(fā)展和演進的“燃料”。
艾瑞咨詢數據顯示,包括數據采集、數據處理(標注)、數據存儲、數據挖掘等模塊在內的AI基礎數據服務市場,將在未來數年內持續(xù)增長,到2025年,國內AI基礎數據服務市場的整體規(guī)模預計將達到101.1億元,整體市場增速將達到31.8%(2024-2025年)。
而據iResearch數據,2019年我國數據標注市場規(guī)模為30.9億元,預計2025年市場規(guī)模突破100億元,年復合增長率達到14.6%。
與此相伴隨,中國數據標注行業(yè)正在迅速發(fā)展。招商證券認為,一方面,進入大數據時代后,人們各種行為的電子化、網絡化帶來海量數據,但產生的數據只有1%能被收集和保存,并且收集的數據中90%是非結構化的數據;另一方面,人工智能的興起帶來模型訓練所用結構化數據的巨大需求,數據標注的重要性逐漸突顯。
按照下游場景類型,2021年我國人工智能數據標注市場中,計算機視覺類、智能語音類和NLP類需求占比分別為45.3%、40.5%和14.2%。而AI基礎數據及軟件服務提供商龍貓數據相關人士告訴第一財經,隨著數據量的不斷增長和數據結構的不斷變化,數據標注行業(yè)涉及的領域也越來越廣泛,特別是在自動駕駛、AIGC等領域內,數據標注需求量極大。
劉云濤也持類似觀點。“現在最大的需求點就是自動駕駛,目前數據采集標注這個行業(yè)內所有的公司都在圍繞自動駕駛,未來5到10年的需求量還會越來越大。”
資料顯示,國內AI訓練數據提供商龍頭海天瑞聲(688787.SH)正在積極發(fā)力自動駕駛業(yè)務,該公司已于2022年6月上線第三代智能駕駛標注平臺并發(fā)力研發(fā)第四代產品,截至2022年第三季度,海天瑞聲已驗收訂單以及在手訂單合計約5000萬元,同比增長超200%。
AI大模型也將帶來大量需求。劉云濤稱,“預計今年10月國內會迎來一波大的類chatGPT大模型的數據需求,而且這是一個海量的需求,以目前國內幾家頭部數據標注公司來看,目前產能還不足以滿足需求。”為此,景聯文科技正加大對大模型方案的投入并深化相關業(yè)務。
AI背后:人工有多強大,智能才有多強大?
標注數據如同實現人工智能的一磚一瓦,對于數據采集標注企業(yè)來說,數據質量和經營效率無疑是最直接的競爭力,除了自研標注工具外,數據標注員的管理是重要抓手。
“當前,大部分數據標注任務仍然需要人工完成,而且各種數據類型和應用領域都需要相應領域的專業(yè)標注員來完成標注任務。”龍貓數據相關人士表示。
據悉,數據標注員是數據標注公司最核心的崗位之一,主要工作是借助標注工具,對人工智能學習數據進行加工,數據一般為圖片、視頻、文本等,通過不斷地拉框、標點等操作,為人工智能提供足夠的數據集。
此前,數據標注員的門檻較低,只需要細致有耐心;如今在一些高難度、高質量標準的標注任務中,標注員的素質對標注過程和結果的準確性和穩(wěn)定性至關重要。例如,在自動駕駛、AIGC等數據類型的標注任務中,標注員需要有相應領域的專業(yè)知識和技能才能準確地標注數據。
龍貓數據相關人士表示,數據標注行業(yè)壓力也很大,市場競爭激烈,標注公司為了保持競爭優(yōu)勢,需要投入更多的成本來吸引、留存、培養(yǎng)和管理標注員隊伍,而這些額外的成本也增加了行業(yè)的人力密集型特征。
劉云濤也贊同上述觀點,不過,他表示,數據采集標注行業(yè)發(fā)展至今,已成為半人工智能、半人工化的行業(yè)。
面對大語言模型動輒上百億參數的數據質量控制,需要通過標注平臺將一個個復雜RLHF需求拆成很多個簡單的工作流,讓機器去做預處理,人去做深層的基于理解的反饋,以減少人在簡單問題上的精力消耗,專注在專業(yè)問題上的標注。杜霖介紹,“比如交叉驗證模式,即通過人和機器混合驗證的模式或者復檢的模式,來進一步提升標注質量;此外一系列標準化任務培訓的機制,以確保人類反饋的答案一致性,也都是通過平臺來實現的。”
景聯文也采用主動質檢加被動質檢的方式,前者靠人為去做質檢,后者是靠算法去做一些預識別。“現在數據標注行業(yè)還是‘人工智能的背后,人工有多強大,智能才有多強大’。雖然有標注工具,但這還是一個先有雞或先有蛋的故事。”劉云濤坦言。
據悉,目前數據標注工具的準確率部分僅百分之幾,部分準確率則可以達到80%、90%。“機器標注的識別率越高,我們的人工需求就會越少,成本、利潤、速度、質量都能更加可控。”劉云濤稱。
杜霖認為,數據標注行業(yè)的核心是高效的人機交互工具和任務分發(fā)管理平臺,“我們公司員工大部分都是圍繞著我們平臺來做研發(fā)和運營管理,真正的標注則通過賦能產能網絡去完成。我們主要積累的技術是圍繞在怎么通過工具和更高效的流程來實現自動化的任務拆解、預處理與匹配,所以我們是本質上是一個研發(fā)密集型公司,而不是一個勞動密集型公司。”
龍貓數據相關人士則稱,隨著技術不斷發(fā)展,未來數據標注行業(yè)可能會實現更高的自動化程度,但應用領域不同,仍然需要一定數量的標注人員來進行標注任務。
關于我們| 聯系方式| 版權聲明| 供稿服務| 友情鏈接
咕嚕網 m.ulq4xuwux.cn 版權所有,未經書面授權禁止使用
Copyright©2008-2020 By All Rights Reserved 皖ICP備2022009963號-10
聯系我們: 39 60 29 14 2@qq.com