李開復(fù)：從1983到2017，我的幸運(yùn)與遺憾

李開復(fù) 2017-08-16 17:29:13

(1)

今天跟大家講個故事。

1983-1988年，我正在卡內(nèi)基·梅隆大學(xué)讀計算機(jī)博士。

我正忙著暑期教書，秋天投身奧賽羅人機(jī)博弈(黑白棋游戲，那是機(jī)器第一次真正意義上打敗人類冠軍的比賽)。

我的導(dǎo)師瑞迪教授(Raj Reddy，圖靈獎得主、卡內(nèi)基梅隆大學(xué)計算機(jī)系終身教授、美國工程院院士)從美國國防部得到了300萬美元的經(jīng)費(fèi)，用來做不指定語者、大詞庫、連續(xù)性的語音識別。

也就是說，他希望機(jī)器能聽懂任何人的聲音，而且可以懂上千個詞匯，懂人們自然連續(xù)說出的每一句話。

這三個問題都是當(dāng)時無解的問題。

而瑞迪教授大膽地拿下項目，希望同時解決這三個問題。他在全美招聘了30多位教授、研究員、語音學(xué)家、學(xué)生、程序員，以啟動這個有史以來最大的語音項目。

我也在這30人名單之內(nèi)。

當(dāng)時的科研背景是，業(yè)界已經(jīng)有類似今天深度學(xué)習(xí)的算法，但一直沒有實現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化，數(shù)據(jù)量也不足夠大。

美國幾大語音識別實驗室(如MIT、 CMU、 SRI、 IBM、貝爾實驗室)都是各用各的數(shù)據(jù)庫，測試數(shù)據(jù)不同，訓(xùn)練數(shù)據(jù)不同，使用的語言模型不同，測試的詞匯量也不同。所以都各稱業(yè)界第一，大家莫衷一是。

而每個大公司都有自己的商業(yè)需求，比如說在語音識別方面，當(dāng)年做打字機(jī)的IBM想做語音打字機(jī)，壟斷美國電信的AT&T要求貝爾實驗室識別電話號碼，所以大公司并沒有動力來幫助小公司或?qū)W校。而小公司和學(xué)校，往往只有資源做些較小的數(shù)據(jù)集，結(jié)果通常也不如大公司的好。

不僅如此，數(shù)據(jù)不標(biāo)準(zhǔn)對AI研究而言是致命的，最后導(dǎo)致很多問題，包括：

1、因為測試語料庫不同，最后識別結(jié)果，大家無法復(fù)制，也無法驗證。彼此不認(rèn)可，而且因為數(shù)據(jù)沒有打通，算法就更不可能打通了。

2、因為每家做的領(lǐng)域不同，最后的結(jié)果都不可比。有些領(lǐng)域詞匯量小，比較容易，但是做出結(jié)果也可能不能通用。有些領(lǐng)域詞匯量大，但是約束很多，所以能說的內(nèi)容不多，導(dǎo)致比較容易識別，也不能通用。

3、因為每家訓(xùn)練集不一樣大，而訓(xùn)練集越大，一般結(jié)果越好。所以，有可能結(jié)果做的好，被認(rèn)為并不是靠算法，而是靠數(shù)據(jù)量大。

4、對于學(xué)術(shù)單位來說，最大的問題來自于沒有足夠的資源(也沒有興趣)收集、清洗、標(biāo)注大量的語料。對于小公司來說，語料和計算力都是問題。

最后，瑞迪教授計劃采用“專家系統(tǒng)”來完成項目，因為這個方法需要的數(shù)據(jù)有限。

專家系統(tǒng)是早期人工智能的一個重要分支，你可以把它看作是一類具有專門知識和經(jīng)驗的計算機(jī)智能程序系統(tǒng)，一般采用人工智能中的知識表示和知識推理技術(shù)來模擬通常由領(lǐng)域?qū)＜也拍芙鉀Q的復(fù)雜問題。

但我不認(rèn)同。

(2)

之前參加過的奧賽羅的人機(jī)博弈，讓我對統(tǒng)計概念有了充分的理解，我對瑞迪教授的研究方法產(chǎn)生動搖。

我相信建立大型的數(shù)據(jù)庫，然后對大的語音數(shù)據(jù)庫進(jìn)行分類，有可能解決專家系統(tǒng)不能解決的問題。

另外，在1985年，美國標(biāo)準(zhǔn)局 (NationalInstitute of Standards and Technology)也意識到數(shù)據(jù)不標(biāo)準(zhǔn)會影響科研進(jìn)步。所以在語音識別問題上，標(biāo)準(zhǔn)局設(shè)定了標(biāo)準(zhǔn)的語音和語言的訓(xùn)練集、測試集。要求每個學(xué)校的每個團(tuán)隊都用同樣的訓(xùn)練集來訓(xùn)練模型，可以自己調(diào)好系統(tǒng)參數(shù)，比賽最后一天大家拿到數(shù)據(jù)，有一天時間跑出結(jié)果，大家評比。

我從這個標(biāo)準(zhǔn)數(shù)據(jù)集和測試看到機(jī)會。

再三思考后，我決定鼓足勇氣，向瑞迪教授直接表達(dá)我的想法。我對瑞迪說：“我希望轉(zhuǎn)投統(tǒng)計學(xué)，用統(tǒng)計學(xué)來解決這個‘不特定語者、大詞匯、連續(xù)性語音識別’。”

我以為瑞迪會有些失望，沒想到他一點(diǎn)都沒有生氣，他輕輕地問：“那統(tǒng)計方法如何解決這三大問題呢?”

瑞迪教授耐心地聽完我激情的回答后，用他那永遠(yuǎn)溫和的聲音告訴我：“開復(fù)，你對專家系統(tǒng)和統(tǒng)計的觀點(diǎn)，我是不同意的，但是我可以支持你用統(tǒng)計的方法去做，因為我相信科學(xué)沒有絕對的對錯，我們都是平等的。而且，我更相信一個有激情的人是可能找到更好的解決方案的。”

那一刻，我的感動無以倫比。因為對一個教授來說，學(xué)生要用自己的方法作出一個與他唱反調(diào)的研究。教授不但沒有動怒，還給予充分的支持，這在很多地方是不可想象的。

統(tǒng)計學(xué)需要大數(shù)據(jù)庫，我們?nèi)绾尾拍芙⑵鸫蟮臄?shù)據(jù)庫呢?

瑞迪教授看到我愁眉不展的樣子，再一次給了我支持。他說，“開復(fù)，雖然說我還是對你的研究方法有所保留，但是，在科學(xué)的領(lǐng)域里，其實也無所謂老師和學(xué)生的區(qū)別，我們都是面臨這一個難題的攻克者，所以，如果你真的需要數(shù)據(jù)庫，那么，讓我去說服政府幫你建立一個大的數(shù)據(jù)庫吧!”

瑞迪教授后來說服了美國政府部門和美國標(biāo)準(zhǔn)局收集并提供了大量數(shù)據(jù)。我用美國標(biāo)準(zhǔn)局提供的標(biāo)準(zhǔn)大數(shù)據(jù)，跟多家拿國家錢的機(jī)構(gòu)數(shù)據(jù)，后來一些不拿國家錢的單位(如：IBM，AT&T)也參與進(jìn)來，我可使用的數(shù)據(jù)越滾越大。

除了大數(shù)據(jù)，統(tǒng)計學(xué)的方法還需要非?？斓臋C(jī)器，瑞迪教授又幫我購買了最新的Sun 4機(jī)器。此后每次有新的機(jī)器，他都會說：“先問問開復(fù)要不要。” 做論文的兩年多，我至少花了他幾十萬美元的經(jīng)費(fèi)。

瑞迪教授的寬容再次讓我感覺到一種偉大的力量，這是一種自由和信任的力量。

(3)

在導(dǎo)師的支持下，我開始了瘋狂的科研工作。

當(dāng)時，我?guī)е硪晃粚W(xué)生一起用統(tǒng)計的方法做語音識別。同時，其他30多人用專家系統(tǒng)做同樣的問題。從方法上來說，我們在競爭，但是在瑞迪教授的領(lǐng)導(dǎo)下，我們分享一切，我們用同樣的樣本訓(xùn)練和測試。

在1986年底，我的統(tǒng)計系統(tǒng)和他們的專家系統(tǒng)達(dá)到了大約一樣的水平，40%的辨認(rèn)率。這雖然還是完全不能用的系統(tǒng)，但畢竟是學(xué)術(shù)界第一次嘗試這么難的問題，大家還是比較欣喜和樂觀的。

1987年5月，我們大幅度地提升了訓(xùn)練的數(shù)據(jù)庫，采用了新的建模方法，不但能夠用統(tǒng)計學(xué)的方法學(xué)習(xí)每一個音，而且可以用統(tǒng)計學(xué)的方法學(xué)習(xí)每兩個音之間的轉(zhuǎn)折。針對有些音的樣本不夠，我又想出了一種方法(generalized triphones)來合并其他的音。這三項工作居然把機(jī)器的語音識別率從原來的40%提高到了80%!后來又提高到96%。

統(tǒng)計學(xué)的方法用于語音識別初步被驗證是正確的方向。

大家都相信了我用的機(jī)器學(xué)習(xí)方法和隱馬可夫模型算法，并且拋棄了不可行的專家系統(tǒng)(專家系統(tǒng)只達(dá)到60%的識別率)。在我的博士論文基礎(chǔ)上，后來的Nuance，微軟、蘋果等公司做出了業(yè)界最領(lǐng)先的產(chǎn)品。

1988年4月，我受邀到紐約參加一年一度的世界語音學(xué)術(shù)會議，發(fā)表學(xué)術(shù)論文。

這個成果撼動了整個學(xué)術(shù)領(lǐng)域。這是當(dāng)時計算機(jī)領(lǐng)域里最頂尖的科學(xué)成果。

語音識別率大幅度提高，讓全世界語音研究領(lǐng)域閃爍出一道希望的光芒，從此，所有以專家系統(tǒng)研究語音識別的人全部轉(zhuǎn)向了統(tǒng)計方法。

會后，《紐約時報》派記者JohnMarkoff來到匹茲堡對我作了采訪，文章發(fā)表于1988年7月6日，占了科技版首頁的整個半版。在這篇文章里，馬可奧夫大力報道了我的論文的突破。當(dāng)時，我只覺得在和一個和藹可親的記者聊天，事后，我才知道這是一名才華橫溢的著名記者，三次提名普利策獎，并在斯坦福兼教。

后來，《商業(yè)周刊》把我的發(fā)明選為1988年最重要的科學(xué)發(fā)明。年僅26歲初出茅廬的我，第一次亮相就獲得這樣的成功，讓我感到很幸運(yùn)，也讓我有了繼續(xù)向科技高峰攀爬的動力。

而我也因此拿到了卡內(nèi)基·梅隆大學(xué)的計算機(jī)博士學(xué)位，這離我1983年入學(xué)只有4年半的時間。在卡內(nèi)基·梅隆大學(xué)的計算機(jī)學(xué)院，同學(xué)們平均6年以上才能拿到博士學(xué)位，我用這么短的時間拿到博士學(xué)位，是一項新的紀(jì)錄。

我也因此破格留校，成為一名26歲的助理教授。

(4)

遺憾的是，雖然我找到了方向和基本方法，但以當(dāng)時的數(shù)據(jù)量級和計算水平，語音AI研究很難有商業(yè)化機(jī)會。我最終還是離開科研界，進(jìn)入商界，用產(chǎn)品改變世界。

30年過了，AI發(fā)展的土壤終于肥沃起來。

伴隨互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)而來的大數(shù)據(jù)、高效的計算機(jī)運(yùn)算能力等條件都齊備了?？蒲腥藛T需要的數(shù)據(jù)集不再那么難以觸碰，只是需要有人牽頭讓更多的公司參與進(jìn)來。這在30多年前，我還是一個AI科研人員的時代，能接觸到真實世界里如此海量的數(shù)據(jù)，是個遙不可及的夢想。

我當(dāng)年受惠于瑞迪教授的幫助和指導(dǎo)，今天也非常希望能給更多和我一樣的年輕人，創(chuàng)造研究機(jī)會和條件。

所以，昨天創(chuàng)新工場、搜狗、今日頭條聯(lián)合發(fā)起“AI Challenger 全球AI挑戰(zhàn)賽”。三家公司分別投入大量資金、也拿出千萬量級高質(zhì)量開放數(shù)據(jù)集與寶貴GPU資源。

同時，我也倡導(dǎo)商界和科研界能采用大量的數(shù)據(jù)和標(biāo)準(zhǔn)的測試方法，也歡迎更多的數(shù)據(jù)公司能夠參與到這個平臺里。

希望我們推出的Challenger.ai，可以幫助到中國AI人才成長。

在我看來，這次AIChallenger絕對不只是一個活動，也絕對不只是一個獎金200萬、年底就結(jié)束的競賽，這是推進(jìn)中國AI人才成長的重大催化劑。

希望3年或5年后，我們再來回顧這一段時光，我們發(fā)現(xiàn)中美AI人才之間沒有落差了，還能想到AI Challenger在這樣重大過程中扮演了一個小小角，我就感到這一切都有價值。

歡迎大家登錄大賽官網(wǎng)Challenger.ai，獲取信息并報名。關(guān)于這場大賽的具體信息可點(diǎn)擊文末的鏈接了解(要在電腦頁面上才能報名哦)。

你們可能無法想象，我有多么羨慕你們，生活在數(shù)據(jù)爆炸的時代，有人提供數(shù)據(jù)和獎金池，讓有才華的人一展拳腳。

~END~

歡迎關(guān)注商界網(wǎng)公眾號（微信號：shangjiexinmeiti）

標(biāo)簽李開復(fù)

全部評論（3）

24h快訊

熱門資訊

商界APP

最新最熱
行業(yè)資訊
訂閱欄目
效率閱讀
音頻新聞
通勤最愛

久久一区二区精品,亚洲综合久久久久久中文字幕,国产综合精品一区二区,日韩欧美久久一区二区,综合欧美国产视频二区,亚洲国产欧美日韩精品一区二区三区,亚洲一区二区综合

評論

全部評論（3）