百度為何開源深度機器學習平臺?
作者:深圳市新雅藍天電池能源有限公司 日期:2018-03-27
5月20日,百度在github上開源了其深度機器學習平臺。此番發布的深度機器學習開源平臺屬于“深盟”的開源組織,其核心開發者來自百度深度學習研究院(IDL),微軟亞洲研究院、華盛頓大學、紐約大學、香港科技大學,卡耐基·梅隴大學等知名公司和高校。
通過這一開源平臺,世界各地的開發者們可以免費獲得更優質和更容易使用的分布式機器學習算法源碼,從而大幅降低開發和部署分布式機器學習系統及相關應用的門檻。包括今日頭條、汽車之家等在內的多家公司已經通過該開放平臺受益。
作為在人工智能布局較早的玩家,百度擁有領先業界的實力。從2013年百度深度學習研究院(IDL)的創建及2014年Andrew Ng的加盟至今,百度DMLC分布式深度機器學習開源項目(簡稱“深盟”)已在深度學習的多個應用領域做過探索,上線了如xgboost(速度快效果好的Boosting模型)、CXXNET(極致的C++深度學習庫)、Minerva(高效靈活的并行深度學習引擎)以及Parameter Server(一小時訓練600T數據)等產品,在語音識別、OCR識別、人臉識別以及計算效率提升上發布了多個成熟產品。
而具有一系列領先優勢的百度卻選擇開源其深度機器學習平臺,為何交底自己的核心技術?
深思之下,卻是在面對業界無奈時的遠見之舉。
擁抱世界:開源的魅力
開源,顧名思義,就是開放自己的源代碼給別人查閱和使用,盡管看起來很傻,然而諸多歷史事實卻告訴我們擁抱世界也能讓世界擁抱你。
Android的逆襲就是明證,在iOS侵占絕大多數智能手機操作系統的時代誕生,Google選擇開源,讓早已在蘋果面前沒有機會的業界見到了希望,至今Android已擁有過半的市場份額,以至于在移動互聯網大行其道的今天,Google可以憑借它與旗下產品的整合打造屬于自己的強大生態系統。相比之下,生而嬌貴的Windows mobile的故事夠令人發醒的,終于微軟也不得不寄人籬下地去兼容Android和iOS平臺應用。此外,作為微軟最主要的應用程序框架,微軟對.net寄予厚望,希望它的開源可以來到所有平臺,進而重現JAVA的光輝歷史。這也證明了即使強大如微軟也無法憑借一己之力讓其產品得到世界的擁抱。
眾人拾材火焰高:用平臺籠絡世界的力量
要實現人工智能,機器必須具備自主學習能力,深度學習作為機器學習領域的重大突破,可以完成具有高度抽象特征的人工智能任務,如自然語言理解等復雜場景,因而備受業界追捧。當然,機器學習領域并不只是有深度學習這一種算法的存在,然而深度學習卻有著顯著的優勢:在數據集足夠大的情況下,深度學習擁有最好的預測能力。盡管在算法的選擇上仍然存在“殺雞焉用宰牛刀”的爭論,但深度學習算法為人工智能領域注入的強大能力卻是其他算法無以比擬的;同時,隨著深度學習技術的成熟,諸多傳統機器學習算法的淘汰幾乎是必然的。然而正如前述,深度學習對大量數據的需求及其本身的復雜性仍然是其發展壯大路上的最大阻礙,也是業界的無奈所在。
百度在此領域發力較早,且在諸多方向上進行了深入的研究,利用深入學習結合自身搜索引擎的大數據讓機器翻譯及自然語言等技術實現了新的飛躍。然而在面向更廣大更具體的應用場景時,任何一個公司都難以滿足所有需求。借鑒歷史,開放共贏不僅可以把事情做的,也讓業界和生態系統得到健康發展。
百度此次開源也是完全奔著建平臺去的。完全采用C++語言搭建核心,為平臺的穩定高效運行奠定了基礎;覆蓋了三類最常用的機器學習算法,包括用于點擊預測的稀疏線性模型、用于排序的決策樹模型以及深入學習,滿足了最廣大的需求;重點開發的“蟲洞”項目將自動構建深盟所有項目,為所有組件提供一致的數據流支持且提供包括Amazon EC2,Microsoft Azure, Google Compute Engine在內的云計算平臺兼容支持,降低平臺的準入門檻。
開源并入駐Github也進一步強調了其開放的心態和對平臺的信心。一系列的動作都是希望讓開發者可以獲得更優質更容易使用的深入學習算法源碼,降低開發和部署深入學習系統及相關應用的門檻,進而利用世界的力量壯大自身。
面對可預料的爆發,技術一定程度上漸發成熟,但也因為各自的技術基因和路線差異,面臨著極大的分裂傾向。開放的心態擁抱世界,打造機器學習領域的國際標準,百度的此舉既是對前期研究投入的回收保障,更是攜手籠絡友商,確保自身的話語權所在。