久久一区二区精品,亚洲综合久久久久久中文字幕,国产综合精品一区二区,日韩欧美久久一区二区,综合欧美国产视频二区,亚洲国产欧美日韩精品一区二区三区,亚洲一区二区综合

數據折疊
咖啡貓 2018-07-11 15:14:47

為推動(dòng)智能時(shí)代的巨輪滾滾向前,AI行業(yè)需要龐大的、標注好的數據作為養分。這些數據大多出自一些學(xué)歷不高的人,他們是“人工智能背后的人工”。

人工智能暗角

在人工智能的世界里,存在不為人知的“數據折疊”:一邊是炫酷科技、智能應用層出不窮的光鮮表象;一邊是大量人工拿著(zhù)不高的工資,埋頭生產(chǎn)機器學(xué)習的“食物”,即標注好的數據。

例如,由北郵和華騰碩博合辦的300人規模的電子商務(wù)培訓班,其中近一半的人都會(huì )兼職數據標注項目。他們多是18歲左右的學(xué)生,每天盯著(zhù)電腦屏幕給圖片拉框,做著(zhù)枯燥的工作,而標注好的數據將用于炫酷的無(wú)人駕駛項目。他們一個(gè)月的收入在2 000元左右,如果全職做,收入能有4 000~5 000元。

培訓班學(xué)員參與的標注項目多是“外包”。某數據標注主管說(shuō),2011年AI數據標注項目的外包市場(chǎng)剛打開(kāi),2015年才開(kāi)始發(fā)展,緊接著(zhù)2016年下半年出現收縮,到了2017年又有了新一輪的爆發(fā)。

最近的這次爆發(fā)與人工智能行業(yè)的發(fā)展有關(guān)。大量人工智能機器落地后,為了投入實(shí)戰,需要進(jìn)行深度學(xué)習,于是整個(gè)行業(yè)對數據的需求量增大。但非結構數據需要經(jīng)標注后才能使用,這意味著(zhù)需要大量人力完成數據標注工作。

不過(guò),創(chuàng )業(yè)團隊和巨頭公司為了集中精力開(kāi)展研發(fā),或保持團隊的高學(xué)歷占比,很少選擇完全自建數據標注團隊。因此,BAT、人工智能創(chuàng )業(yè)公司,學(xué)術(shù)團體,以及政府、銀行等機構都可能成為“發(fā)包方”,將數據標注工作外包出去。

在“外包方”一端,有 “眾包”和“工廠(chǎng)”兩種模式。前者是把任務(wù)通過(guò)平臺轉接給網(wǎng)民,如“百度眾包”“京東眾智”“龍貓數據”;后者要么是正規的機構,要么是20人以下規模不等的“小作坊”,它們接到項目后會(huì )負責數據標注的所有流程。

總體來(lái)看,數據標注是“勞動(dòng)密集型”的中低收入行業(yè),大多散落在三四線(xiàn)城市,而愿意做這行的人,大多把數據標注當成外賣(mài)、快遞行業(yè)的替代品。

例如,在距離貴陽(yáng)市中心50公里的百鳥(niǎo)河數字小鎮,就有一個(gè)規模500人的“數據工場(chǎng)”。在這500名標注員中,近一半來(lái)自附近一家扶貧高職的學(xué)生。

這些學(xué)生很珍惜這個(gè)兼職機會(huì ),因為每月能掙1 500元,足以自立,省吃?xún)€用還能補貼家庭,而且數據標注不用在戶(hù)外經(jīng)受日曬雨淋,相對輕松且體面。

但未來(lái)工作前途的不可預期,相對低的收入,較大的家庭負擔,仍然是這些年輕人無(wú)法擺脫的苦惱。

野蠻生長(cháng),坑與機會(huì )并存

數據標注是一個(gè)勞動(dòng)密集型行業(yè),進(jìn)入門(mén)檻并不高。因此,許多公司就通過(guò)壓低“成本”“薄利多量”開(kāi)展競爭。

據記者了解,許多專(zhuān)職數據標注的公司大多通過(guò)招聘臨時(shí)工來(lái)省去五險一金的人力成本,因此,僅憑7~8萬(wàn)元的啟動(dòng)資金,就可以在縣級小城組起一個(gè)“工作室”。

另一方面,AI公司也傾向壓低成本——某數據標注外包公司主管表示,部分AI公司不夠重視數據標注,因此在壓低項目總體預算時(shí),會(huì )選擇把數據標注工作外包給一些不靠譜的團隊;但這些團隊做不下來(lái),又會(huì )把任務(wù)轉包給另一些小團隊,或重新找到大的數據標注公司,直接影響最終質(zhì)量和交付期限。

“低價(jià)競爭和行業(yè)不規范導致的層層外包是行業(yè)的噩夢(mèng)。”京東眾智平臺的負責人李工認為,除此之外,外包直接折損了小團隊的利潤。

例如,何軍就在2017年底投入10萬(wàn)元,在河南周口成立了一個(gè)40人團隊的數據工作室。

“利潤其實(shí)不高,”何軍細細算賬,“一個(gè)拉框值4分錢(qián),一個(gè)標注員一天能做大約4500個(gè),但過(guò)關(guān)率只有90%,實(shí)際只有160元左右,再除去審核的成本,再給每個(gè)標注員每天發(fā)110元左右的工資,平均下來(lái)工作室每天也就從每個(gè)人身上賺30元吧。”何軍一直接的是二手項目,第一個(gè)月虧了本,第二個(gè)月勉強持平,因此,他希望在2018年“爭取接到一手項目”。

事實(shí)上,小團隊只能接二手甚至是好幾手的項目,一手項目就像江湖傳說(shuō),聽(tīng)過(guò)沒(méi)見(jiàn)過(guò)。

另一方面,大平臺也反感層層外包。畢竟要完成一些特定的復雜任務(wù),需要對人員進(jìn)行長(cháng)達1~3個(gè)月的培訓,但是由臨時(shí)工組建而成的小團隊大多做不到;不僅如此,許多小團隊在理解客戶(hù)需求、保證數據的多樣性、隨機性上,也欠缺足夠的能力。

在這之中,還有一個(gè)角色在攪渾水——代理人。代理人就是拉項目跑活的人。一些小公司會(huì )高薪養代理人,以期打通中國人情社會(huì )中的關(guān)鍵節點(diǎn)。

而數據標注行業(yè)在經(jīng)歷了早期瘋狂生長(cháng)后,最終一定進(jìn)入洗牌時(shí)期,屆時(shí),行業(yè)變得更為規范化、透明化,數據標注的質(zhì)量會(huì )成為需求方最優(yōu)先考慮的變量。

大浪淘沙,最終會(huì )有兩類(lèi)機構留下來(lái):注重質(zhì)量及服務(wù)的中小型數據標注公司,以及自有整套數據技術(shù)的平臺。

還有5年,只有5年

由于對技術(shù)動(dòng)向缺乏把握,何軍時(shí)常處于一種對未來(lái)的不安之中。于是,當他聽(tīng)聞“算法升級后,將不再需要大量人工標注”時(shí),便緊張起來(lái)。

但數據服務(wù)商BasicFinder的CEO杜霖則認為,數據標注的市場(chǎng)才剛打開(kāi),未來(lái)5年內,數據需求將緊隨人工智能的大規模落地,引來(lái)一波爆發(fā)式增長(cháng)。

首先,這是由于人工智能行業(yè)本身的發(fā)展將進(jìn)一步帶動(dòng)數據標注行業(yè)。

其次,目前能被建模量化的數據只占真實(shí)世界中的極少一部分,而現有的數據標注業(yè)務(wù)又主要集中在安防和自動(dòng)駕駛領(lǐng)域,未來(lái),隨著(zhù)AI深入更多垂直行業(yè),新的數據需求將不斷出現。

何軍回憶到,前些天北航的學(xué)生找上門(mén)來(lái),要對“積云”進(jìn)行標注。而杜霖也分享了一個(gè)很有意思的標注項目——標注指甲區域,因為客戶(hù)要做美甲機器人。

第三,在當下主流的“有監督學(xué)習”算法模型下,為了讓算法準確率更高,對數據的需求量也將隨之增大。

第四,從感知智能向認知智能的進(jìn)化過(guò)程中,將需要不同維度的數據,這可能進(jìn)一步催生出更精細的數據標注需求。比如,對一段對話(huà)數據的標注,不僅要知道對話(huà)內容、語(yǔ)義,可能還需要標注談話(huà)者的身份、情緒變化等。

杜霖提到,目前在人工智能公司的總支出中,20%~30%都用于數據,而現階段大陸市場(chǎng)數據采集及標注的規模保守估計有五十億元。綜合以上四點(diǎn),在未來(lái),包括采集、標注、清洗等流程的數據市場(chǎng)將達上百億元。

而這一切都是基于“有監督學(xué)習”這個(gè)大前提。如果算法從“有監督學(xué)習”升級為“無(wú)監督學(xué)習”等新算法后,數據標注需求將大大減少。但是在目前,無(wú)監督學(xué)習等新算法尚不能用在大規模的商業(yè)落地中。

因此杜霖判斷,新的革新性算法至少在5年內都不會(huì )出現。深度學(xué)習訓練平臺Novumind創(chuàng )始人吳韌也認為,深度學(xué)習+大數據較難出現顛覆性的其他路徑。

5年,這對公司來(lái)說(shuō)是一個(gè)可以布局、掉頭的“窗口期”。京東眾智的李工說(shuō),他們應對變化的策略是著(zhù)力研發(fā)加速AI落地速度的Pre-A.I.產(chǎn)品,并同時(shí)研發(fā)平臺技術(shù),做到“數據與流程分離架構”,因此數據標注不是他們的核心戰略。

BasicFinder也有類(lèi)似布局,他們希望一手對接垂直行業(yè)里的數據生產(chǎn)者,一手對接上游的算法模型公司,共同推進(jìn)AI的落地。

但對數據標注者個(gè)體來(lái)說(shuō),5年后也許就得面臨一次“失業(yè)”。那時(shí),他們還能跟隨時(shí)代的腳步騰挪轉移嗎?

燙手的小袁

小袁暫時(shí)想不到5年后那么長(cháng)久的事。

他作為一名換過(guò)40份工作的聾啞人,很慶幸終于在數據標注行業(yè)成了“有用的人”?,F在,他是京東眾智平臺上“靜公會(huì )”的聾啞人標注員,而這個(gè)公會(huì )全部由聽(tīng)障人士組成。

聾啞人的世界里多為名詞,缺乏形容詞。比如,要向他們解釋這根線(xiàn)標得不“直”,就會(huì )比較費勁。因此,在數據標注工作上,健全人1周能完成的培訓,聾啞人要花3周或更久。但是他們的優(yōu)點(diǎn)是專(zhuān)注、較真、對視覺(jué)信號敏銳,數據標注行業(yè)就成了他們的機會(huì )。

像小袁這樣的聾啞人在眾智平臺上還有一千多名,京東為他們成立的“靜公會(huì )”,在項目工作上優(yōu)先照顧。比如,杜霖手下也有3個(gè)殘疾人團隊,總共約80人。

杜霖和京東眾智平臺負責人都表示,愿意為更多殘疾人提供工作機會(huì ),這里是他們的家。而其中的少數人,也許能通過(guò)轉型為數據質(zhì)檢者,獲得更長(cháng)期的職業(yè)生涯。

但科技的發(fā)展,必將帶來(lái)智能升級,也使整個(gè)行業(yè)更加規范化。因此,盡管數據標注者的工作是幫機器更好地學(xué)習,促進(jìn)人工智能行業(yè)的發(fā)展,但行業(yè)發(fā)展到一定階段時(shí),可能將不再需要大量的人工標注。

可說(shuō)到底,對知識的無(wú)限追求既是人類(lèi)的天賦,也是人類(lèi)攜帶的危險,它早已深藏在我們的基因之中,呼喚我們不斷逼近未知邊界,所以更高的智能一定會(huì )到來(lái)。屆時(shí),認知差距將取代財富差距成為人群劃分的最顯著(zhù)標準——而那可能是一種更無(wú)形的“折疊”。

未來(lái),當我們真正享受智能帶來(lái)的各種便捷時(shí),歷史會(huì )遺忘這些人工智能領(lǐng)域的“首批工人”嗎?

這可能是除了技術(shù)水平之外,判斷那個(gè)未來(lái)是好是壞的更重要的標準。

(本文摘編自微信公眾號“甲子光年”)

編 輯:李垣諭 penguinpen@163.com

鏈接:

[1]數據標注:我們準備一張有家具的圖片,在上面框出家具,并標注“家具”兩個(gè)字,就是數據標注的工作。機器通過(guò)大量圖片學(xué)習了家具的特征后,再給機器任意一張有家具的圖片,它就能識別家具。

[2]非結構數據:沒(méi)有預定義的數據模型,不方便用數據庫二維邏輯表來(lái)表現的數據。

[3]有監督學(xué)習:使用已知正確答案的示例來(lái)訓練網(wǎng)絡(luò )的。

無(wú)監督學(xué)習:可以做到通過(guò)人工智能在視頻網(wǎng)站中找貓。具體做法是:算法自動(dòng)將包含貓的視頻組合在一起,而不需要任何明確的訓練數據。

10
歡迎關(guān)注商界網(wǎng)公眾號(微信號:shangjiexinmeiti)
標簽數據  人工智能  

評論

登錄后參與評論

全部評論(54)

廣告
廣告
廣告
商界APP
  • 最新最熱
    行業(yè)資訊

  • 訂閱欄目
    效率閱讀

  • 音頻新聞
    通勤最?lèi)?ài)

廣告