為推動(dòng)智能時(shí)代的巨輪滾滾向前,AI行業(yè)需要龐大的、標注好的數據作為養分。這些數據大多出自一些拿著(zhù)微薄收入、對AI一頭霧水的年輕人,他們是人工智能背后的“人工”。
AI暗角
在科幻小說(shuō)《北京折疊》里,城市里的上流、中產(chǎn)、底層三個(gè)階層分別生活在三個(gè)空間,作者將這種階層分化割裂喻作“折疊”。如今的AI的世界也存在著(zhù)類(lèi)似的折疊:
一邊是炫酷的科技、神奇的智能應用;一邊是大量人工每天重復地生產(chǎn)機器學(xué)習的“食物”——標注好的數據。
北京和貴陽(yáng),是數據標注世界里的兩座“雙子星”城市。北京聚集了大量人工智能公司;貴陽(yáng)近年來(lái)著(zhù)力發(fā)展“大數據戰略”,已擁有相對完整的數據服務(wù)產(chǎn)業(yè)生態(tài)。
2017年,僅北京中關(guān)村大數據產(chǎn)業(yè)規模就超過(guò)700億元;貴陽(yáng)2017年的大數據產(chǎn)業(yè)及其關(guān)聯(lián)產(chǎn)業(yè)規??偭砍^(guò)1500億元。
但標注數據的人,生活在這些巨額數字之外,拿著(zhù)不高的工資,活動(dòng)在“第二空間”。
從三里屯驅車(chē)1小時(shí),行駛30千米,就到了北京郵電大學(xué)宏福校區。這里有北郵和華騰碩博合辦的電子商務(wù)培訓班,學(xué)生總數300多人,高峰時(shí)期,有120多人參與數據標注的兼職項目。
他們多是18歲左右的學(xué)生,每天盯著(zhù)電腦屏幕給圖片做標注。他們服務(wù)于一個(gè)炫酷的無(wú)人駕駛項目。
他們一個(gè)月的收入在2 000元左右,如果全職做,收入能有4 000~5 000元。他們參與的標注項目多是培訓班從上游的AI公司承包過(guò)來(lái)的。
為什么是承包?
因為能夠供機器使用的數據必須是經(jīng)過(guò)標注的數據,這意味著(zhù)需要大量人力去完成標注工作。而AI公司要么為了集中精力開(kāi)展研發(fā),要么為了保持團隊的高學(xué)歷占比,很少會(huì )選擇完全自建數據標注團隊。他們更傾向于把這些工作交給第三方公司完成。
而承包這類(lèi)工作的企業(yè),又有“眾包”和“工廠(chǎng)”兩種模式。前者是通過(guò)平臺,如“百度眾包”“京東眾智”“龍貓數據”,把任務(wù)轉發(fā)給網(wǎng)民;后者要么是正規的機構,要么是20人以下規模不等的“小作坊”,它們接到項目后會(huì )負責數據標注的全部流程。
目前來(lái)看,數據標注企業(yè)大多分布在三四線(xiàn)城市,屬于“勞動(dòng)密集型”的中低收入行業(yè)。愿意做這行的人,又大多把數據標注當成外賣(mài)、快遞行業(yè)的替代品。
例如,在距離貴陽(yáng)市中心50公里的百鳥(niǎo)河數字小鎮,就有一個(gè)規模500人的“數據工場(chǎng)”。在這500名標注員中,近一半的人來(lái)自附近一家高職的學(xué)生。
這些學(xué)生很珍惜這個(gè)兼職機會(huì )。他們每月能掙到1 500元,不僅足以自立,省吃?xún)€用還能補貼家庭。并且,數據標注不用在戶(hù)外經(jīng)受日曬雨淋,相對輕松、體面。
但這份工作的未來(lái)前途不可預期,以及相對低的收入和較大的家庭負擔,都成為了這些年輕人無(wú)法擺脫的苦惱。
野蠻生長(cháng),坑與機會(huì )并存
數據標注是一個(gè)勞動(dòng)密集型行業(yè),進(jìn)入門(mén)檻并不高。因此,許多公司就通過(guò)壓低“成本”“薄利多量”的手段開(kāi)展競爭。
據了解,許多專(zhuān)職數據標注的公司大多通過(guò)招聘臨時(shí)工來(lái)省去五險一金的人力成本。事實(shí)上,在縣級小城里僅憑7~8萬(wàn)元的啟動(dòng)資金就能組起一個(gè)“團隊”。
另一方面,AI公司也傾向壓低成本。對此,某數據標注外包公司主管表示,部分AI公司不夠重視數據標注,他們在壓低項目總體預算時(shí),會(huì )選擇把數據標注工作外包給一些不靠譜的團隊。但這些團隊做不下來(lái),又會(huì )把任務(wù)轉包給另一些小團隊,或重新找到大的數據標注公司,直接影響最終質(zhì)量和交付期限。
“低價(jià)競爭和行業(yè)不規范導致的層層外包是行業(yè)的噩夢(mèng)。”京東眾智平臺的負責人李工還認為,外包還直接折損了小團隊的利潤。
例如,何軍就在2017年底投入10萬(wàn)元,在河南周口成立了一個(gè)40人團隊的數據工作室。
“利潤其實(shí)不高,”何軍細細算賬,“一個(gè)拉框值4分錢(qián),一個(gè)標注員一天能做大約4 500個(gè),但過(guò)關(guān)率只有90%,實(shí)際只有160元左右,再除去審核的成本,再給每個(gè)標注員每天發(fā)110元左右的工資,平均下來(lái)工作室每天也就從每個(gè)人身上賺30元吧。”何軍一直都只接到二手項目,第一個(gè)月虧了本,第二個(gè)月勉強持平。他希望在2018年“爭取接到一手項目”。
事實(shí)上,小團隊只能接二手甚至是好幾手的項目,一手項目就像江湖傳說(shuō)——聽(tīng)過(guò),沒(méi)見(jiàn)過(guò)。
其實(shí),大平臺也反感層層外包。比如,要完成一些特定的復雜任務(wù),需要對人員進(jìn)行長(cháng)達1~3個(gè)月的培訓。然而,臨時(shí)工組建而成的小團隊大多跳過(guò)這一步。不僅如此,他們在理解客戶(hù)需求,保證數據的多樣性、隨機性等方面也欠缺足夠的能力。
還有5年,只有5年
何軍時(shí)常處于一種對未來(lái)的不安之中,因為他對技術(shù)動(dòng)向缺乏把握。當他聽(tīng)聞“算法升級后,將不再需要大量人工標注”時(shí),便緊張起來(lái)。
數據標注服務(wù)商BasicFinder的CEO杜霖則認為,數據標注的市場(chǎng)才剛打開(kāi),未來(lái)5年內,數據需求將緊隨AI的大規模落地,引來(lái)一波爆發(fā)式增長(cháng)。
首先,這是由于A(yíng)I行業(yè)本身的發(fā)展將進(jìn)一步帶動(dòng)數據標注行業(yè)。
其次,目前能被建模量化的數據只占真實(shí)世界中的極少一部分,而現有的數據標注業(yè)務(wù)又主要集中在安防和自動(dòng)駕駛領(lǐng)域,未來(lái)隨著(zhù)AI深入更多垂直行業(yè),新的數據需求將不斷出現。
杜霖就分享了一個(gè)很有意思的標注項目——將人的指甲框出來(lái),因為客戶(hù)要做美甲機器人。
第三,在當下主流的“有監督學(xué)習”算法模型下,為了讓算法準確率更高,需要更多數據。
第四,從感知智能向認知智能的進(jìn)化過(guò)程需要不同維度的數據,這可能會(huì )進(jìn)一步催生出更精細的數據標注需求。比如,對一段對話(huà)數據的標注,不僅要知道對話(huà)內容、語(yǔ)義,甚至還需要標注談話(huà)者的身份、情緒變化等。
杜霖還提到,目前AI公司的總支出中,20%~30%都用于數據,現階段大陸市場(chǎng)數據采集及標注的規模保守估計也有50億元。綜合以上4點(diǎn),未來(lái)包括采集、標注、清洗等流程的數據市場(chǎng)將達上百億元。
值得一提的是,這些預期都是基于“有監督學(xué)習”這個(gè)大前提。如果算法從“有監督學(xué)習”升級為“無(wú)監督學(xué)習”等新算法,那么數據標注需求將大大減少。但是在目前,無(wú)監督學(xué)習等新算法尚不能用在大規模的商業(yè)落地中。
因此杜霖判斷,新的革新性算法至少在5年內都不會(huì )出現。深度學(xué)習訓練平臺Novumind創(chuàng )始人吳韌也認為,深度學(xué)習+大數據較難出現顛覆性的其他路徑。
5年,這對數據標注公司來(lái)說(shuō)是一個(gè)可以布局、掉頭的“窗口期”。
京東眾智的李工說(shuō),他們應對變化的策略是著(zhù)力研發(fā)加速AI落地速度的Pre-A.I.產(chǎn)品,并同時(shí)研發(fā)平臺技術(shù),做到“數據與流程分離架構”,因此數據標注不是他們的核心戰略。
BasicFinder也有類(lèi)似布局,他們希望一手對接垂直行業(yè)里的數據生產(chǎn)者,一手對接上游的算法模型公司,共同推進(jìn)AI的落地。
但對數據標注員這些個(gè)體來(lái)說(shuō),5年后也許就得面臨一次“失業(yè)”。那時(shí),他們還能跟隨時(shí)代的腳步騰挪轉移嗎?
燙手的小袁
小袁暫時(shí)想不到5年后那么長(cháng)久的事。
他作為一名換過(guò)40份工作的聾啞人,很慶幸終于在數據標注行業(yè)成了“有用的人”?,F在,他是京東眾智平臺上“靜公會(huì )”的聾啞人標注員,而這個(gè)公會(huì )全部由聽(tīng)障人士組成。
聾啞人的世界里多為名詞,缺乏形容詞。比如,要向他們解釋這根線(xiàn)標得不“直”,就會(huì )比較費勁。因此,健全人1周能完成的數據標注培訓,聾啞人要花3周或更久。但是他們的優(yōu)點(diǎn)是專(zhuān)注、較真、對視覺(jué)信號敏銳,數據標注行業(yè)反而成了他們的機會(huì )。
像小袁這樣的聾啞人在眾智平臺上還有1 000多名,京東為他們成立的“靜公會(huì )”,在項目工作上優(yōu)先照顧。比如,杜霖手下也有3個(gè)殘疾人團隊,總共約80人。
杜霖和京東眾智平臺負責人都表示,愿意為更多殘疾人提供工作機會(huì ),這里是他們的家。而其中的少數人,也許能通過(guò)轉型為數據質(zhì)檢者,獲得更長(cháng)期的職業(yè)生涯。
需要思考的是,AI行業(yè)發(fā)展到一定階段可能就不再需要大量的人工標注,屆時(shí),我們會(huì )遺忘這些AI領(lǐng)域的“首批工人”嗎?這可能是除了技術(shù)水平之外,判斷那個(gè)未來(lái)是好是壞的更重要的標準。
(本文摘編自微信公眾號“甲子光年”)
編 輯:李垣諭 penguinpen@163.com
評論
全部評論(236)
-
最新最熱
行業(yè)資訊 -
訂閱欄目
效率閱讀 -
音頻新聞
通勤最?lèi)?ài)