對話Hadoop之父Doug Cutting|大數(shù)據(jù)和開源的未來
2016-08-24 大數(shù)據(jù)文摘 真正致歉:大數(shù)據(jù)文摘在8月23日的頭條文章中,將中科院院士“陸汝鈐”錯寫成了“陸汝鈴”。對此,大數(shù)據(jù)文摘全體編輯組深表歉意,向所有讀者和陸汝鈐院士真誠致歉,并感謝在后臺留言提醒的所有讀者。 大數(shù)據(jù)文摘自2013年成立以來一直堅持每日更新,從未間斷,之后也會繼續(xù)帶來更多高質(zhì)量好文。 【線上活動報名】 活動:螞蟻金服&阿里云在線金融技術峰會 講師:8位阿里及螞蟻金服資深大V線上培訓答疑 時間:8月30日-31日晚20:00-21:30 免費報名方式見文末 課程結(jié)束后,PPT等素材會在群里第一時間公開 ◆ ◆ ◆ 前言 對中國大數(shù)據(jù)產(chǎn)業(yè)來說,2016年是從垂直領域野蠻生長到爆發(fā)全國范圍關注熱潮的一個轉(zhuǎn)折點。不論是人山人海巨頭云集的貴陽數(shù)博會,還是首次在華舉辦的全球頂級大數(shù)據(jù)會議Strata + Hadoop World,都揭示了中國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的澎湃動力。 在Hadoop生態(tài)領域,Cloudera是規(guī)模最大、知名度最高的企業(yè),也是當前大數(shù)據(jù)領域最強有力的解決方案服務商之一。帶著對中國大數(shù)據(jù)市場的滿滿誠意,Cloudera創(chuàng)始人、董事長兼首席戰(zhàn)略官Mike Olson以及Hadoop之父、Cloudera首席架構(gòu)師Doug Cutting日前到訪清華,講述了Hadoop的發(fā)展歷程,并與清華大學軟件學院副院長、黨委書記王建民及現(xiàn)場的同學們展開了深刻而有趣的對話。 相關新產(chǎn)品的涌現(xiàn)對于大數(shù)據(jù)技術的未來會有什么樣的影響?大數(shù)據(jù)服務的云平臺未來應該如何選擇?怎樣去發(fā)現(xiàn)中國真正的大數(shù)據(jù)市場?中國的開源發(fā)展目前是什么情況?大數(shù)據(jù)文摘今日推送對話三位大師關于以上問題的對話實錄。 對話人物簡介 Doug Cutting:畢業(yè)于美國斯坦福大學,Lucene、Nutch等開源項目的發(fā)起人,打造了目前在云計算和大數(shù)據(jù)領域里如日中天的Hadoop,讓大數(shù)據(jù)推動業(yè)務的數(shù)字化轉(zhuǎn)型有了開源的技術平臺。他擅于把高深莫測的搜索技術形成產(chǎn)品并貢獻于市場及大眾,現(xiàn)任Cloudera首席架構(gòu)師,同時也在Apache軟件基金會董事會任職。 Mike Olson:畢業(yè)于加利福利亞大學,曾作為Sleepycat軟件公司CEO主導開發(fā)了全球應用廣泛的開源數(shù)據(jù)庫Berkeley DB,后被甲骨文收購,任甲骨文嵌入式技術副總裁。2008年與其他三位合伙人創(chuàng)立Cloudera,將其打造成國際領先的大數(shù)據(jù)數(shù)據(jù)管理和分析平臺的服務商,2014年12月Cloudera進入中國。 王建民:清華大學軟件學院副院長、清華大學軟件學院大數(shù)據(jù)中心主任,國家科技部中青年科技領軍人才,國家基金委杰出青年基金獲得者,國家“核高基”科技重大專項總體組成員,國家863計劃先進制造領域?qū)<摇倚l(wèi)計委信息化專家委專家、我國第一個大數(shù)據(jù)專項“核高基”-“非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)”負責人;工信部“中國制造2025”:“操作系統(tǒng)與工業(yè)軟件”工作組組長。 ◆ ◆ ◆ 一、 關于HADOOP與Spark、GPU,及商業(yè)化未來 1、面對Spark這類新興技術的發(fā)展,以及MapReduce市場萎縮的情況,你們?nèi)绾慰创@種市場變化? 邁克:Hadoop由很多部分構(gòu)成,第一層是HDFS,完全做分布式存儲,此外MapReduce用來做分布式處理;有分布式地面向列的開源數(shù)據(jù)庫技術HBase;Impala可以在支持Hadoop的HDFS系統(tǒng)上,直接做SQL的查詢;也有Cloudera做的Kudu這樣的新型存儲技術。 Spark只是其中的新技術之一,并不是好像全世界都只用Spark。當然,我們?nèi)绻ケ容^Spark和MapReduce,從現(xiàn)在的情況來看,Spark的確會勝出,但基于Hadoop還會不斷涌現(xiàn)出更多新技術。 道克:沒錯,Spark的確非常好。在實時批處理上表現(xiàn)優(yōu)異,但它不是全能的,比如它不具備SQL訪問查詢、Solr和Lucence搜索倒排索引、HDFS、Kudu的數(shù)據(jù)存儲能力等。Spark僅僅是Spark,它不代表Hadoop所有的技術,Hadoop將會孕育更多新技術出來。 2、計算機和大數(shù)據(jù)技術都在日新月異的變化,特別在硬件方面,我們看到很多下一代硬件不斷的涌現(xiàn),這些新產(chǎn)品的涌現(xiàn)對于大數(shù)據(jù)技術的未來會有什么樣的影響? 邁克:像網(wǎng)絡、CPU在未來會出現(xiàn)非常多的變化,正確的方法是軟件去適配硬件,而不是無視硬件的變化。硬件的升級并不會妨礙未來大數(shù)據(jù)技術的發(fā)展,反而大數(shù)據(jù)系統(tǒng)會更好的去利用這些新硬件去改變世界,兩者不存在替代關系。 過去十年,我們已經(jīng)看到了很多這類變化。Cloudera有著非常深厚的英特爾背景,我們的很多員工來自于英特爾,英特爾也是我們的投資人之一。我相信我們和英特爾的密切關系,未來會更多的幫助下一代軟硬件技術的融合與適配。 道克:很多人在問我,怎么把GPU和Hadoop結(jié)合,這其實是一個錯誤的命題。Hadoop實際上是基于IO Intensive的系統(tǒng),它整個系統(tǒng)的瓶頸是在系統(tǒng)的IO上,包括磁盤IO、網(wǎng)絡IO,所以它需要解決的根本并不是CPU的問題。未來當IO不再困擾我們的時候,也許那時再來談怎么用CPU加速的技術解決更多問題更有意義。 像谷歌Tenzing的機器學習系統(tǒng)就可以很好的利用GPU,而不是現(xiàn)在吧的大數(shù)據(jù)系統(tǒng)來加速。但我相信在這個領域?qū)頃懈嗟臋C會,我們將看到很多數(shù)據(jù)結(jié)構(gòu)、系統(tǒng)結(jié)構(gòu),會適應新硬件的變化趨勢而發(fā)生轉(zhuǎn)變。 3、Hadoop3.0的關鍵特性 邁克:Hadoop3.0的確會有一些側(cè)重,排在首位的就是多租戶技術,將來我們會在Hadoop 3.0的平臺上看到更多不同的像MapReduce、Spark這樣的技術,可以同時在一個平臺上被不同的用戶運行,就像Yarn正在做的一樣。所以Hadoop 3.0的特點就是支持更多的系統(tǒng)可以更好的運行,更好的去實現(xiàn)多租戶這個概念。 另外,Hadoop3.0更多的是適配新硬件技術的改變,比如英特爾新推出的優(yōu)化存儲、CPU的新技術,特別是SSD技術。硬件價格的走低,讓我們更有可能去利用這些技術。Cloudera新啟動的一個Apache開源項目叫Apache Kudu,這是一個新型的存儲系統(tǒng),Kudu就正在利用這樣一些這樣的新硬件技術。 道克:現(xiàn)在還有另一個我們在做的項目,內(nèi)容是基于HDFS和新型硬件結(jié)合做系統(tǒng)復制。這種復制技術,不只能加快系統(tǒng)的速度,還會提升系統(tǒng)的容量。這個項目的開發(fā)者就在英特爾中國公司,中國已經(jīng)出現(xiàn)了很多很好的創(chuàng)新技術。 4、CDH商業(yè)產(chǎn)品的未來怎么樣? 邁克:Cloudera一直在保持這個系統(tǒng)的開源,雖然上面有很多收費的工具,但是這樣做的目的并不是阻止用戶。因為現(xiàn)在有很多商業(yè)軟件巨頭會利用我們的開源系統(tǒng),把它作為商業(yè)軟件,去獲得更多的市場機會,去贏取更多的利潤。所以我們一方面會保持底層數(shù)據(jù)存儲、處理引擎系統(tǒng)的開源,讓用戶可以把這個技術用得更好、讓系統(tǒng)變得更易用;同時,堅持收費的舉措也讓我們能夠有能力在大數(shù)據(jù)系統(tǒng)市場上和大型商業(yè)軟件公司競爭。 開源將有利于更多人參與系統(tǒng)的開發(fā),讓更多的大學可以參與學習,讓更多的用戶可以接受新知識。所以大家看到了Impala和Spark。我很高興看到作為一家公司Cloudera在大數(shù)據(jù)市場上越來越多的成長機會。 道克:開源平臺上,Apache僅僅是把所有技術囊括在一起,但Apache上面可能有二十多種不同的打包方式,怎么去安裝?怎么去配置?怎么去打包?這些其實對很多用戶來講都非常具有挑戰(zhàn)性。所以我們推出CDH Commercial版,已經(jīng)幫大家把對應的系統(tǒng)打包好了,通過CDH我們會幫助大家更好的管理數(shù)據(jù),管理大數(shù)據(jù)系統(tǒng)。 如果用戶愿意去使用免費開源系統(tǒng)這沒有任何問題,但是如果用戶需要我們的幫助,可以去訂購Cloudera的商業(yè)版。這就是硅谷現(xiàn)在的開源文化,有越來越多的公司在做開源。開源的東西是免費的,但我們在不斷提供增值服務。我們也需要有更多的客戶認可這樣的服務價值并愿意幫助Cloudera這樣的公司在市場上存活下去,跟我們建立更長期的合作關系,支持我們的業(yè)務。 ◆ ◆ ◆ 二、 關于大數(shù)據(jù)系統(tǒng)的應用,選擇與困擾 5、如果我們現(xiàn)在有一個項目剛開始,面對這么多大數(shù)據(jù)系統(tǒng),應該怎么選擇一個合適的平臺? 道克:這的確很難,我們可能需要去熟悉所有的系統(tǒng)和工具,需要更多的實驗,去測試這些系統(tǒng)。在滿足工作負載的前提下,比較在哪個系統(tǒng)工具上工作得更好。但幸運的是,這類測試的確越來越容易了,現(xiàn)在有越來越多的工具可以進行輔助。 但是真正在設計的過程中需要去考慮很多技術細節(jié),比如系統(tǒng)處理速度和系統(tǒng)吞吐的平衡。這個過程更像是一門藝術,而不像一個技術。 邁克:你選Cloudera就行了,不用去想更多的(哈哈)。 6、我們現(xiàn)在碰到的很大問題是面對系統(tǒng)的版本升級,用戶需要不斷去升級他們建好的系統(tǒng),Cloudera怎么看待這樣的挑戰(zhàn)? 邁克:當然,商業(yè)版的更新很簡單,一鍵安裝新的系統(tǒng)就好了。如果是開源的系統(tǒng)就會很難,因為開源你需要去選擇一個適合的文件包,需要自己去重新搭建,需要自己去測試,而這些在Cloudera商業(yè)版里都已經(jīng)幫你做好了。 道克:如果不兼容,就只能來找Cloudera,這樣我們的商業(yè)服務就能有發(fā)展空間了(哈哈)。 王建民:看來這樣的機會、這樣的服務對于Cloudera而言是一個很有價值的業(yè)務。 邁克:我們是一家創(chuàng)新公司,所以首先我們是一群創(chuàng)新者,我們的首要工作是設立未來大數(shù)據(jù)系統(tǒng)發(fā)展的方向。第二件事,我們的確做商業(yè)軟件,我們會把這些開源系統(tǒng)打包、測試,會在上面做很多工具,我們也會利用它來提供服務。 7、大數(shù)據(jù)服務的云平臺未來應該如何選擇? 邁克:在商業(yè)層面上各種主流的云平臺Cloudera都支持,我們在北美和AWS、谷歌等都有合作,在中國將和騰訊、百度等有更多的合作,可以看到云服務市場增長非常快。 道克:如何選擇云服務有很多因素要考慮。第一個是經(jīng)濟角度上,到底哪種方式更具性價比,并不是所有的公有云都比私有云更便宜。第二個是安全,雖然我們可以用多種加密的方式解決這個問題,讓別人更安心,但是安全永遠是影響抉擇的重要因素。還有另一個問題,我們需要考慮得非常清楚,通常我們遷移大數(shù)據(jù)系統(tǒng)是非常昂貴的,所以我們在選擇一個云的運營商之前,首先要意識到,這個運營商給我們提供的技術是不是我們需要的。一旦需要在這個平臺上進行轉(zhuǎn)換,是不是很容易操作。我能見到的最大錯誤就是選擇了某個云平臺之后被吃定,無法遷移轉(zhuǎn)換。 邁克:我們選擇開源有一個非常大的好處,因為底層的技術其實都是一樣的,是完全兼容的。如果我們選擇了不合適的云運營商,或者不合適的大數(shù)據(jù)商業(yè)軟件合作伙伴,我們可以比較容易完成系統(tǒng)遷移。 道克:還有一個融合的問題。比如企業(yè)內(nèi)部有架構(gòu)存儲一部分數(shù)據(jù),同時在公有云上也存儲一部分數(shù)據(jù),如果我們選擇混合云的方式,可能會讓我們在處理數(shù)據(jù)時非常困難,因為這兩個架構(gòu)之間任一方向的數(shù)據(jù)遷移,都非常昂貴。是否需要把數(shù)據(jù)放在不同的地方,這也是我們在選擇云計算架構(gòu)時必須要非常認真考慮的一個問題。 8、如何去發(fā)掘Hadoop系統(tǒng)的應用性領域,尤其在中國?怎樣去發(fā)現(xiàn)中國真正的大數(shù)據(jù)市場? 邁克:大數(shù)據(jù)分析、機器學習等技術發(fā)展,都在真實發(fā)生著,這些事情觸發(fā)了我們會有更多的數(shù)據(jù),需要更多的處理能力,需要有更多的分析應用,這樣正是我們希望看到的市場需求。 2006年我代表Oracle來中國,當時正好是中國“十一五”開端的第一年,中國政府第一次在“十一五”的五年規(guī)劃中開始強調(diào)創(chuàng)新,今年是2016年,是“十三五”的開局之年,中國政府不但強調(diào)創(chuàng)新,還強調(diào)了創(chuàng)業(yè),我認為中國現(xiàn)在有一個非常好的開端。 對于Cloudera而言,在中國市場需要尋找更多的合作伙伴。我們看到像GM跟上汽合作為全球市場設計新車,中國已經(jīng)出現(xiàn)越來越多的垂直細分領域,比如像電信、保險,有越來越多的中國公司在使用大數(shù)據(jù),成為很好的行業(yè)范例。中國大數(shù)據(jù)的應用前景非常好,已經(jīng)取得了令人刮目相看的成就。中國市場的體量非常大,增量也會很大,不只是大數(shù)據(jù)市場,中國在其它細分領域一定會出現(xiàn)更多更好的創(chuàng)新,會孵化出更多大數(shù)據(jù)的技術與應用。 ◆ ◆ ◆ 三、 關于開源及未來 9、事實上,人們對開源還有困惑,很多中國團隊的想要致力于開源,你們有什么建議給那些想要參與進來的人? 道克:第一件事是找到一個恰當?shù)念I域,現(xiàn)在的開源項目不是那么容易做好,首先要確保你的產(chǎn)品是有用的。 提問:這個領域是什么? 道克:這個很難去做預測,每個細分行業(yè)都有不同的現(xiàn)實情況,但相信大家是可以找發(fā)掘的。第二點,明確領域后,我們要建立對應的大數(shù)據(jù)系統(tǒng);第三點,系統(tǒng)做出來之后我們需要有更多的參與者,需要讓大家意識到這個系統(tǒng)的價值,并愿意投入去改進你現(xiàn)在做的系統(tǒng),愿意加入這個的社區(qū)團隊。這就是我們講到的開源文化。 這三步做到之后,你的項目規(guī)模自然而然就會增長,就會吸引更多的人參與,而且在這個過程中,所有參與項目的人需要非常開放,樂于幫助,更多這樣的人加入才會促使這件事成功。反之,如果我們做的是非常狹隘的一個領域,并希望它控制在一個什么樣的范圍內(nèi),通常這樣的項目就難以成功。 邁克:在成為Cloudera的Leader之前,我曾是一個開發(fā)人員,做伯克利的數(shù)據(jù)庫。在我的經(jīng)驗中,社區(qū)是最重要的。并不是說一個開源社區(qū)做出來就是為了免費,關鍵是有更多人參與。現(xiàn)在中國的團隊不只是參與到既有的項目中,有的已經(jīng)開始去創(chuàng)造自己的新項目。 比如說來ebay中國的一群人創(chuàng)造了麒麟這個項目,這個項目現(xiàn)在已經(jīng)變成了Apache的一個典型項目。所以我非常樂于見到更多來自中國的技術可以貢獻在全球。 王建民:現(xiàn)在中國有非常好的開源文化,很多年輕一代都非常熱情,愿意去做這件事情,但苦于我們沒有找到正確的門路和方法。清華正在做這方面的努力,清華數(shù)科院和Cloudera的戰(zhàn)略合作,其中非常重要的部分就是如何幫助中國開源社區(qū)的成長,我們也希望通過這樣的方式,培養(yǎng)更多的中國本土的Leader,將來他們可以去創(chuàng)建多樣化的開源社區(qū),去領導更多的項目。 道克:需要強調(diào)一下,開源并不是一件容易的事情,它意味著我們需要投入更多的努力。我們需要有大量來自全球的有關需求的溝通,可能你的團隊在中國,你的需求來自于英國或者是美國,語言障礙會帶來挑戰(zhàn)。此外,選擇做開源,選擇一個更多人可以用的東西,一定意味著需要有更多付出。 舉一個例子,我和我孩子做飯,可以選擇我自己做,讓我的孩子做,或者教我的孩子做。讓我做飯很簡單,但是讓我的孩子做飯一定是個災難。如果讓我選擇,教我的孩子如何做飯,雖然培養(yǎng)的過程需要花很多的精力,但最終當孩子學會做飯之后,就能一勞永逸。 開源社區(qū)也是這樣,開始階段需要投入比我們現(xiàn)有項目更多的努力,但是一旦我們很好的建立一個社區(qū)和社區(qū)文化,這個項目就會有一種自我生長、自我繁殖的能力。 10、中國另一個現(xiàn)狀就是天賦的缺失,你們有什么建議? 道克:這個的確很難,因為現(xiàn)在大數(shù)據(jù)技術的變化演進非常快,如果你希望成為一個大數(shù)據(jù)人才,就必須有非常強的學習新技術的能力。技術變化太快了,只有最好的人才能做到。真正能夠解決的方式只有自我不斷的學習,以及可以有第三方提供的培訓來幫助大家。Cloudera提供了一些課程出來,這個課程對大學是免費的。 王建民:為了解決大數(shù)據(jù)人才的問題,中國已經(jīng)有很多大學開設了大數(shù)據(jù)教育的課程,清華數(shù)科院就有相關的碩士計劃,第一屆已經(jīng)有150名以上的學生,來自清華不同院系的師資支持這個課程,但是這個課程到底應該怎么去上呢? 參與授課的學生基本上可以分成三類,第一類是有很強的IT背景,可以做很多數(shù)據(jù)工程的事情;第二類來自社會信息學的領域,在他的工作中有很大部分就是在處理數(shù)據(jù)。第三類人是來自傳統(tǒng)行業(yè),比如像機械工程這樣的領域,他們以前沒有足夠的IT知識和處理數(shù)據(jù)的技能。 我們在去年的授課過程中也在不斷的調(diào)整課程,我們認為更好的解決方法,是理論和實踐結(jié)合,讓大家在學習理論課程的同時有更多的實踐機會,能夠更好的去解決技能問題。Cloudera提供的這些免費課程將會被引進到清華大數(shù)據(jù)碩士教育的計劃中。 11、大數(shù)據(jù)技術在中國未來會怎樣發(fā)展? 王建民:第一點,大數(shù)據(jù)在中國的進步會非常好,數(shù)據(jù)來源會非常多,中國有越來越多的人、越來越多的機器、越來越多的在線交易,都在產(chǎn)生大量的數(shù)據(jù)。但是在這個過程中我們要改變現(xiàn)在的文化,讓決策聽從數(shù)據(jù)驅(qū)動。第二點,不要把大數(shù)據(jù)神化,認為大數(shù)據(jù)可以做更多的事情,要有耐心把大數(shù)據(jù)和我們的業(yè)務更好的結(jié)合起來。第三點,我們需要更多的注意安全和隱私,我們會有越來越多的數(shù)據(jù),數(shù)據(jù)安全實際上是這個發(fā)展的前提。第四點,要更多發(fā)展中國自己的技術。 邁克:中國大數(shù)據(jù)有非常好的未來,清華這邊也在做很多和大數(shù)據(jù)相關的事情,大數(shù)據(jù)在全球的發(fā)展已經(jīng)非常成功,在中國經(jīng)濟方面、社會方面都會涌現(xiàn)非常多的機會。 道克:是的,中國一定會有很多的機會,而且中國的技術也已經(jīng)很先進了,更重要的是現(xiàn)在開源社區(qū)給了我們更多的機會去參與學習。 12、大數(shù)據(jù)技術的未來又是什么樣的? 道克:這個非常難預測,現(xiàn)在不太可能會知道,如果要知道我就去做了。我認為更可能知道的是在座的各位,如果大家有什么樣非常好的想法,可以去積極嘗試。 邁克:在中國,小米正在使用Kudu,而Spark社區(qū)現(xiàn)在也變得越來越熱,這個情況在五年前我們都是見不到的。所以現(xiàn)在開源社區(qū)給我們一個非常好的環(huán)境和生態(tài)系統(tǒng),像Hadoop這樣,可以幫助大家更好的去發(fā)展更多新的技術。 王建民:我們能夠看到的是,大數(shù)據(jù)系統(tǒng)對于中國的很多用戶來講,非常難使用,已有的開源技術并不能被很好的利用起來。在我們實驗室現(xiàn)在就有這樣一個項目,可以幫助大家更簡化的使用今天Hadoop的系統(tǒng),是一種用機器學習的方法更多去完成自動化的參數(shù)、自動化的控制,我們正在做更多的努力。 邁克:這個方向很好,機器學習一定是未來的趨勢,我們應該思考怎么在更多方面結(jié)合這項技術。 本文授權轉(zhuǎn)自數(shù)據(jù)派(datapi) 【線上活動報名】 活動:螞蟻金服&阿里云在線金融技術峰會 講師:8位阿里及螞蟻金服資深大V線上培訓答疑 時間:8月30日-31日晚20:00-21:30 點擊文末閱讀原文鏈接直接報名 掃碼加入“大數(shù)據(jù)文摘-阿里云棲社區(qū)”,有專人指導報名和做相關交流。 如果掃碼入群有問題, 請加微信bigdataGJJ,備注"螞蟻" 培訓資料和錄像將在群內(nèi)第一時間公開