人民網(wǎng)
人民網(wǎng)>>廣東頻道

人工智能訓(xùn)練師:我教AI如何“更懂”人類

2022年08月09日16:11 | 來(lái)源:廣州日?qǐng)?bào)
小字號(hào)

電腦前,張力文向記者演示一個(gè)火情識(shí)別算法模型的數(shù)據(jù)標(biāo)注及模型訓(xùn)練的過(guò)程。

智慧安防、智慧物流、智能交通……人工智能技術(shù)正讓我們的生活更便利。而讓人工智能(AI)“更懂”人類的新職業(yè)——人工智能訓(xùn)練師在當(dāng)中起到十分重要的作用,相當(dāng)于人工智能的教練。

人工智能訓(xùn)練師在2020年正式成為新職業(yè)并納入國(guó)家職業(yè)分類目錄。隨著去年底該職業(yè)的國(guó)家職業(yè)技能標(biāo)準(zhǔn)頒布,業(yè)內(nèi)開(kāi)展職業(yè)培訓(xùn)和人才技能評(píng)價(jià)有了基本依據(jù)。人社部發(fā)布的報(bào)告顯示,經(jīng)測(cè)算我國(guó)人工智能人才缺口超過(guò)500萬(wàn)。近日記者采訪了解到,在廣東,人工智能訓(xùn)練師的需求旺盛,“現(xiàn)在有做AI的公司基本都有自己的人工智能訓(xùn)練師,隨著人工智能在各個(gè)應(yīng)用領(lǐng)域的不斷拓展,數(shù)據(jù)標(biāo)注員等工種存在較大的人才缺口?!睒I(yè)內(nèi)人士說(shuō)道。

新職業(yè)檔案:人工智能訓(xùn)練師

使用智能訓(xùn)練軟件,在人工智能產(chǎn)品實(shí)際使用過(guò)程中進(jìn)行數(shù)據(jù)庫(kù)管理、算法參數(shù)設(shè)置、人機(jī)交互設(shè)計(jì)、性能測(cè)試跟蹤及其他輔助作業(yè)的人員。

主要工作任務(wù):

1.標(biāo)注和加工圖片、文字、語(yǔ)音等業(yè)務(wù)的原始數(shù)據(jù);

2.分析提煉專業(yè)領(lǐng)域特征,訓(xùn)練和評(píng)測(cè)人工智能產(chǎn)品相關(guān)算法、功能和性能;

3.設(shè)計(jì)人工智能產(chǎn)品的交互流程和應(yīng)用解決方案;

4.監(jiān)控、分析、管理人工智能產(chǎn)品應(yīng)用數(shù)據(jù);

5.調(diào)整、優(yōu)化人工智能產(chǎn)品參數(shù)和配置。

訓(xùn)練:“喂數(shù)據(jù)”圖片數(shù)以萬(wàn)計(jì)?還要避免AI“背題”

給人工智能“喂數(shù)據(jù)”,讓其“長(zhǎng)智慧”是人工智能訓(xùn)練師的主要工作。日前,記者在天翼數(shù)字生活科技有限公司見(jiàn)到了正在給人工智能“喂數(shù)據(jù)”的張力文,研究生畢業(yè)后他便進(jìn)入公司從事機(jī)器視覺(jué)相關(guān)的算法研發(fā)工作,至今已有七年時(shí)間。

“我的日常工作主要包括人工智能需求分析、數(shù)據(jù)標(biāo)注、算法開(kāi)發(fā)以及算法調(diào)優(yōu)等,其中數(shù)據(jù)標(biāo)注和算法開(kāi)發(fā)是最主要的工作?!彪娔X前,張力文向記者演示了一個(gè)火情識(shí)別算法模型的數(shù)據(jù)標(biāo)注及模型訓(xùn)練的過(guò)程。只見(jiàn)他在電腦用標(biāo)注工具將圖片中的火焰逐一圈出來(lái),并標(biāo)注為“fire”,標(biāo)注一定數(shù)量后將這些圖片數(shù)據(jù)“喂”給人工智能學(xué)習(xí),學(xué)習(xí)后進(jìn)行測(cè)試,再逐張查看人工智能識(shí)別火焰的結(jié)果是否正確。張力文發(fā)現(xiàn),人工智能將圖片里的黃色盒子誤判成“火焰”了,于是他把該黃色盒子重新標(biāo)注為“非火焰”,對(duì)算法進(jìn)行調(diào)優(yōu),再對(duì)人工智能進(jìn)行迭代訓(xùn)練,如此往復(fù)……

每訓(xùn)練一次,系統(tǒng)會(huì)自動(dòng)生成一次測(cè)試結(jié)果,在訓(xùn)練兩三百次之后形成有多個(gè)指標(biāo)結(jié)果的“l(fā)oss曲線”圖,loss值是判斷“智能還是智障”的關(guān)鍵指標(biāo)?!拔覀冎饕榭磧蓚€(gè)指標(biāo)來(lái)判斷人工智能是否需要重新學(xué)習(xí)?!睆埩ξ恼f(shuō),一般來(lái)說(shuō)他們會(huì)查看人工智能“訓(xùn)練集”和“測(cè)試集”的正確率,如果訓(xùn)練集數(shù)據(jù)正確率高,但測(cè)試集的低,那么說(shuō)明人工智能存在“背題”的情況,需要再次學(xué)習(xí),如果兩者正確率都高,說(shuō)明人工智能已經(jīng)“學(xué)會(huì)”。

張力文介紹,一個(gè)算法模型的訓(xùn)練,少則需要5000-10000張圖片數(shù)據(jù),多則要幾萬(wàn)張甚至幾十萬(wàn)張圖片數(shù)據(jù),“像目標(biāo)檢測(cè)一般一萬(wàn)張圖片數(shù)據(jù)即可,但識(shí)別類算法,比如人臉識(shí)別,通常要幾十萬(wàn)張圖片數(shù)據(jù)?!辈贿^(guò)在數(shù)據(jù)標(biāo)注階段,如今已有智能標(biāo)注幫忙,訓(xùn)練師在智能標(biāo)注后再進(jìn)行個(gè)別的人工標(biāo)注即可,大大減輕人工標(biāo)注的工作量。這些圖片數(shù)據(jù)如何來(lái)?張力文說(shuō),網(wǎng)上開(kāi)源數(shù)據(jù)一般可滿足人工智能的基礎(chǔ)訓(xùn)練,但針對(duì)性訓(xùn)練的數(shù)據(jù)需要購(gòu)買或搜集,有時(shí)候甚至需要他們自己拍攝。

經(jīng)驗(yàn):要有核心算法?還要“走出去”

張力文從小對(duì)數(shù)學(xué)、物理十分感興趣,每天都會(huì)花很多時(shí)間鉆研相關(guān)理論。2012年,張力文大學(xué)本科畢業(yè),看到人工智能技術(shù)在國(guó)內(nèi)興起,誕生很多技術(shù)創(chuàng)新和應(yīng)用創(chuàng)新,各種人工智能應(yīng)用遍地開(kāi)花,為此他決定繼續(xù)攻讀數(shù)字圖像處理方向的研究生。

視聯(lián)網(wǎng)明廚亮灶、平安慧眼、天翼應(yīng)急、智慧商企……這些人工智能應(yīng)用項(xiàng)目張力文都“經(jīng)手”過(guò)。讓張力文印象深刻的是他負(fù)責(zé)的第一個(gè)項(xiàng)目。當(dāng)時(shí)他帶領(lǐng)一支應(yīng)屆生團(tuán)隊(duì)研發(fā)智能相冊(cè),由于缺乏產(chǎn)品設(shè)計(jì)、架構(gòu)設(shè)計(jì)以及算法工程化落地相關(guān)經(jīng)驗(yàn),盡管在啟動(dòng)研發(fā)前技術(shù)方案已經(jīng)改了10個(gè)版本,但在研發(fā)過(guò)程中還是遇到了很多不可預(yù)知的漏洞及問(wèn)題?!绊?xiàng)目需要研發(fā)人臉識(shí)別以及事物分類算法,我們直接使用了開(kāi)源算法,結(jié)果項(xiàng)目完成后發(fā)現(xiàn),人工智能分析的結(jié)果簡(jiǎn)直不堪入目,相片分類有很多錯(cuò)誤,可以說(shuō)是‘人工智障’?!焙髞?lái)張力文跟團(tuán)隊(duì)經(jīng)過(guò)多個(gè)版本的迭代優(yōu)化,才正式上線商用?!斑@個(gè)經(jīng)歷讓我刻骨銘心,這說(shuō)明我們要不斷提升技術(shù)能力以及累積項(xiàng)目經(jīng)驗(yàn)。商用項(xiàng)目不能過(guò)于依賴開(kāi)源項(xiàng)目,我們要有自己的核心算法,才能做得更好,走得更遠(yuǎn)?!睆埩ξ恼f(shuō)道。

為了讓人工智能“學(xué)得更好”,訓(xùn)練師有時(shí)候還要“走出去”調(diào)研具體的應(yīng)用場(chǎng)景。比如明廚亮灶項(xiàng)目,要到廚房觀察攝像頭安裝的位置和角度,攝像頭拍攝的畫(huà)面質(zhì)量,廚房光線、擺放物品等。“我們都會(huì)做一些分析,分析會(huì)引起人工智能誤判的因素?!睆埩ξ恼f(shuō)道。

建議:求職者除了懂技術(shù)?更要懂行業(yè)

“一個(gè)新開(kāi)發(fā)的算法模型需要大量數(shù)據(jù)訓(xùn)練,這個(gè)時(shí)候就需要人工智能訓(xùn)練師介入和參與?!碧煲頂?shù)字生活科技有限公司AI視聯(lián)及行業(yè)應(yīng)用事業(yè)部副總經(jīng)理王藝指出,人工智能技術(shù)已經(jīng)滲透到各個(gè)行業(yè),包括工業(yè)、金融、教育、安防、市政、物流、交通等,這些行業(yè)對(duì)人工智能訓(xùn)練師都有著很高的需求?!艾F(xiàn)在有做AI的公司基本都有自己的人工智能訓(xùn)練師,隨著人工智能在各個(gè)應(yīng)用領(lǐng)域的不斷拓展,數(shù)據(jù)標(biāo)注和算法訓(xùn)練等工種存在較大的人才缺口?!?/p>

人社部2020年發(fā)布的《人工智能工程技術(shù)人員就業(yè)景氣現(xiàn)狀分析報(bào)告》指出,經(jīng)測(cè)算我國(guó)人工智能人才缺口超過(guò)500萬(wàn),國(guó)內(nèi)的供求比例為1:10,供需比例嚴(yán)重失衡。不斷加強(qiáng)人才培養(yǎng),補(bǔ)齊人才短板,是當(dāng)務(wù)之急。廣州市人工智能產(chǎn)業(yè)發(fā)展促進(jìn)會(huì)執(zhí)行秘書(shū)長(zhǎng)蔡遠(yuǎn)塵介紹,協(xié)會(huì)連續(xù)四年進(jìn)行廣州市人工智能大數(shù)據(jù)企業(yè)入庫(kù)工作,目前已累計(jì)入庫(kù)800多家,其中大部分企業(yè)都是應(yīng)用型傳統(tǒng)企業(yè)轉(zhuǎn)型而來(lái),對(duì)人工智能人才有大量的需求。

“找到合適的、了解某個(gè)應(yīng)用領(lǐng)域的訓(xùn)練師還是很難?!蓖跛囍赋?,人工智能并非一個(gè)單一的產(chǎn)業(yè),而是一項(xiàng)跨行業(yè)的技術(shù),“比如明廚亮灶的應(yīng)用,需要針對(duì)廚房里不規(guī)范操作進(jìn)行智能識(shí)別,這就需要了解食品安全相關(guān)規(guī)范的人員進(jìn)行數(shù)據(jù)標(biāo)注。所以,數(shù)據(jù)標(biāo)注員要了解某個(gè)垂直行業(yè)的背景知識(shí)?!?/p>

作為企業(yè)管理人員,王藝建議求職者不僅要了解算法調(diào)優(yōu)、數(shù)據(jù)清洗、標(biāo)注等基礎(chǔ)知識(shí),還要了解不同應(yīng)用行業(yè)的背景知識(shí)。“只有了解行業(yè),才能真正知道哪些數(shù)據(jù)需要標(biāo)注。訓(xùn)練師既需要有邏輯思維、理性分析,還要有敏銳感、發(fā)現(xiàn)數(shù)據(jù)的能力。”

“很多人認(rèn)為人工智能可以完全替代人力解決所有的問(wèn)題,但智能是一個(gè)不斷優(yōu)化的過(guò)程,需要人工輔助?!睆埩ξ慕ㄗh,有意入行的求職者要注重提升自身基礎(chǔ)理論以及工程實(shí)踐能力,持續(xù)關(guān)注前沿技術(shù)的發(fā)展動(dòng)態(tài);其次要做好個(gè)人的職業(yè)規(guī)劃,結(jié)合個(gè)人的興趣以及特長(zhǎng),定位從事人工智能的具體領(lǐng)域或模塊,比如機(jī)器視覺(jué)、自然語(yǔ)言處理、語(yǔ)音識(shí)別等,“做好定位后,要深入學(xué)習(xí)這些領(lǐng)域和分工涉及的軟件、基本技能、數(shù)據(jù)處理常用手段等。”

廣州日?qǐng)?bào)全媒體記者 何穎思 駱昌威

(責(zé)編:王雅蝶、初梓瑞)

分享讓更多人看到

返回頂部