從2008年唐洪組建飛天團(tuán)隊(duì)開(kāi)始做設(shè)計(jì), 到2009阿里云團(tuán)隊(duì)在北京上地簡(jiǎn)陋的辦公室寫(xiě)下第一行代碼,再到如今飛天達(dá)到5000臺(tái)集群的規(guī)模,并支撐起阿里內(nèi)部大部分的數(shù)據(jù)業(yè)務(wù),這一系列技術(shù)突破的背后,是迎難而上的執(zhí)著和對(duì)發(fā)展自有技術(shù)、底層自主研發(fā)的堅(jiān)持。如今的飛天已成為阿里擁抱云計(jì)算并對(duì)外提供云計(jì)算服務(wù)的堅(jiān)實(shí)基礎(chǔ),也使阿里與谷歌、微軟和亞馬遜比肩,從此成為世界上獨(dú)立擁有相關(guān)技術(shù)能力的屈指可數(shù)的公司之一。
2006年Amazon推出S3服務(wù),揭開(kāi)了以分布式存儲(chǔ)和大規(guī)模計(jì)算為標(biāo)志的云計(jì)算的面紗。阿里一直關(guān)注并在思考著如何來(lái)做云計(jì)算。2008年,王堅(jiān)博士加入阿里,阿里正式成立云計(jì)算公司,并決定自主研發(fā)大規(guī)模分布式計(jì)算系統(tǒng)――“飛天(Apsara)”。
2009年春節(jié)后上班第一天,阿里云團(tuán)隊(duì)在北京上地一間簡(jiǎn)陋的連空調(diào)都沒(méi)有的辦公室寫(xiě)下第一行代碼。
而彼時(shí),在大洋彼岸,唐洪剛從北美第四大搜索公司Ask.com跳到美國(guó)雅虎,正在埋頭于大規(guī)模分布式計(jì)算系統(tǒng)Hadoop。當(dāng)王堅(jiān)博士在美國(guó)硅谷偶遇唐洪并初次介紹“飛天”時(shí),唐洪對(duì)王堅(jiān)博士說(shuō)了一句大實(shí)話:“開(kāi)發(fā)飛天這件事,完全不靠譜。”就連王堅(jiān)博士后來(lái)也坦承:“我覺(jué)得他是對(duì)的,世界上沒(méi)有人會(huì)覺(jué)得這個(gè)事情靠譜,因?yàn)樗茈y。”
時(shí)光總愛(ài)開(kāi)玩笑。一年以后,唐洪遭遇了事業(yè)發(fā)展中的巨大挑戰(zhàn)――“2010年的時(shí)候雅虎在Hadoop上的投入也在逐漸減少,而當(dāng)時(shí)雅虎已經(jīng)確定了把所有與數(shù)據(jù)相關(guān)的業(yè)務(wù)和處理都搬到Hadoop上。越來(lái)越繁重的業(yè)務(wù)壓力,讓程序員們?yōu)橹С志€上系統(tǒng)疲于奔命。所以我們有很多好的想法,都無(wú)法實(shí)現(xiàn)。”需要重構(gòu)職業(yè)路線:是放棄自己執(zhí)著多年的東西去一些新領(lǐng)域嘗試新的技術(shù)挑戰(zhàn),比如當(dāng)時(shí)在硅谷火熱的社交網(wǎng)絡(luò)Startup;還是加入一家真正有決心和堅(jiān)持的公司去共同攀登大規(guī)模分布式計(jì)算系統(tǒng)的技術(shù)巔峰?
而此時(shí),盡管相對(duì)Google、微軟、Amazon這些分布式底層已經(jīng)比較成熟的企業(yè)而言,阿里才剛剛起步,但阿里云的決心卻已讓“飛天”有了更大的成長(zhǎng)空間。
一通漫長(zhǎng)的越洋電話之后,2010年,唐洪離開(kāi)硅谷,正式加盟阿里云,并帶領(lǐng)美國(guó)、杭州、北京多個(gè)團(tuán)隊(duì),肩負(fù)起阿里云計(jì)算整個(gè)技術(shù)底層的研發(fā),成為剛剛兩周歲還處于雛形階段的飛天技術(shù)負(fù)責(zé)人。對(duì)于這一選擇,唐洪曾如此解釋:“世界上除了Google、微軟和Amazon,就只有阿里了,我找不到第五家公司能有決心長(zhǎng)期投入在自主研發(fā)大規(guī)模分布式系統(tǒng)上。”
去IOE,飛天勢(shì)在必行
阿里的IT基因中,開(kāi)始植入云計(jì)算,伴隨著一場(chǎng)“去IOE”運(yùn)動(dòng)的進(jìn)行。
翻開(kāi)歷史,淘寶曾啟用全亞洲最大的OracleRAC集群,阿里更是購(gòu)買(mǎi)過(guò)3年無(wú)限制的許可,阿里在IBM小型機(jī)以及EMC SAN存儲(chǔ)上的投入也曾成為媒體爭(zhēng)相報(bào)道的事件。但隨著互聯(lián)網(wǎng)爆發(fā)式發(fā)展,淘寶、支付寶和阿里巴巴B2B的注冊(cè)用戶數(shù)激增,阿里只能不停地通過(guò)水平和垂直擴(kuò)展架構(gòu)來(lái)應(yīng)對(duì)新增用戶生成的海量數(shù)據(jù)。而這種集中式數(shù)據(jù)庫(kù)的架構(gòu),使得數(shù)據(jù)庫(kù)成為了整個(gè)系統(tǒng)的瓶頸,越來(lái)越不適應(yīng)海量數(shù)據(jù)對(duì)計(jì)算能力的巨大需求,更不用說(shuō)越來(lái)越難以承受的高昂投入。阿里的“去IOE”已經(jīng)勢(shì)在必行:通過(guò)自主研發(fā)的分布式系統(tǒng)取代集中式數(shù)據(jù)庫(kù)架構(gòu),使用MySQL + HBase取代MySQL,商用機(jī)取代小型機(jī) + SAN。
選擇自主研發(fā),這也是阿里云在步入云計(jì)算之路上做出的最重要的抉擇:堅(jiān)持追求擁有自有的最有競(jìng)爭(zhēng)力的核心技術(shù)。在唐洪看來(lái),云計(jì)算是一門(mén)高技術(shù)門(mén)檻的生意,具備核心技術(shù)競(jìng)爭(zhēng)力等于具備了在戰(zhàn)場(chǎng)上可以正面抗衡競(jìng)爭(zhēng)對(duì)手的實(shí)力,盡管這個(gè)技術(shù)攻關(guān)的歷程非常之艱難。選擇自主研發(fā)而非采用開(kāi)源Hadoop優(yōu)化,也是基于一定的考慮,盡管Hadoop在離線大數(shù)據(jù)處理上具備優(yōu)勢(shì),但無(wú)法完全提供阿里云要求的大規(guī)模分布式計(jì)算與處理的能力,而目前基于飛天上線的云服務(wù),已遠(yuǎn)遠(yuǎn)超出Hadoop的能力。開(kāi)源可以說(shuō)是一條先易后難的路,盡管一開(kāi)始可以走一些捷徑,但事后在版本升級(jí)、研發(fā)上都會(huì)受頗多限制;從核心知識(shí)產(chǎn)權(quán)角度來(lái)看,今天無(wú)論是微軟、Amazon、或者Google的云計(jì)算平臺(tái),都沒(méi)有采用Hadoop且不開(kāi)放代碼開(kāi)源,本質(zhì)上都是在追求自有的核心競(jìng)爭(zhēng)力。開(kāi)源軟件無(wú)法徹底成為一個(gè)云計(jì)算底層平臺(tái)的基礎(chǔ),采用開(kāi)源軟件并非解決做分布式系統(tǒng)這個(gè)問(wèn)題的一劑良方。
發(fā)展自有技術(shù),堅(jiān)持底層自主研發(fā),如今能夠構(gòu)建超級(jí)計(jì)算機(jī)的飛天已成為阿里擁抱云計(jì)算,以及對(duì)外提供云計(jì)算服務(wù)的堅(jiān)實(shí)基礎(chǔ)。
目標(biāo)5K,突破再突破
理想有多么美好,挑戰(zhàn)就有多么巨大。在技術(shù)上,唐洪把自主研發(fā)大規(guī)模分布式系統(tǒng)飛天的挑戰(zhàn)概括為三點(diǎn)。
首先,小概率事情變成常態(tài),主要包括故障率放大、故障類型不可預(yù)知及線上診斷修復(fù)不可避免;其次,昂貴的全局同步代價(jià),Jim Gray在1996 SIGMOD的論文里指出,競(jìng)爭(zhēng)代價(jià)是規(guī)模增長(zhǎng)的三次方,因此,10節(jié)點(diǎn)集群擴(kuò)展到1000節(jié)點(diǎn),同步代價(jià)有可能放大百萬(wàn)倍,這就意味著兩點(diǎn)――性能關(guān)鍵路徑上需要避免全局同步,并與不精準(zhǔn)的全局狀態(tài)達(dá)成妥協(xié);第三,動(dòng)態(tài)的運(yùn)行環(huán)境,這個(gè)問(wèn)題主要是基于線上業(yè)務(wù),由互聯(lián)網(wǎng)應(yīng)用的爆發(fā)式增長(zhǎng)、服務(wù)器負(fù)載的周期性變化,及系統(tǒng)熱點(diǎn)的無(wú)時(shí)不在和瞬時(shí)轉(zhuǎn)移特性導(dǎo)致。
迎難而上,是突破再突破。2008年10月24日,組建飛天團(tuán)隊(duì)開(kāi)始做設(shè)計(jì);2009年12月18日,飛天有了第一個(gè)應(yīng)用――為阿里金融做的大規(guī)模離線處理;2010年8月24日,飛天成功地支持搜索、郵箱、大規(guī)模數(shù)據(jù)處理、彈性計(jì)算存儲(chǔ)等服務(wù);2011年7月28日,阿里云自主研發(fā)的飛天云計(jì)算平臺(tái)開(kāi)始以公共服務(wù)的方式對(duì)外提供云計(jì)算商業(yè)服務(wù);同年,首屆阿里云開(kāi)發(fā)者大會(huì)上,基于飛天的阿里云開(kāi)放服務(wù)產(chǎn)品體系全面亮相;2013年3月,飛天單集群規(guī)模已達(dá)1500臺(tái);2013年8月15日,飛天5K成功,承載著阿里巴巴集團(tuán)數(shù)據(jù)業(yè)務(wù)的“開(kāi)放數(shù)據(jù)處理服務(wù)(Open Data Processing Service,簡(jiǎn)稱ODPS)”集群正式開(kāi)始生產(chǎn)運(yùn)營(yíng),單集群規(guī)模達(dá)到5000臺(tái)。
在實(shí)現(xiàn)單集群5000節(jié)點(diǎn)之后,通過(guò)上層應(yīng)用ODPS,飛天已經(jīng)支撐了阿里內(nèi)部大部分?jǐn)?shù)據(jù)業(yè)務(wù),其中包括阿里小貸、數(shù)據(jù)魔方、阿里媽媽廣告聯(lián)盟、廣告搜索、點(diǎn)擊預(yù)測(cè)模型訓(xùn)練、支付寶所有業(yè)務(wù)、淘寶指數(shù)、阿里無(wú)線等。2014年7月,以RESTful API方式提供數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘和其他數(shù)據(jù)應(yīng)用服務(wù)的ODPS,正式對(duì)外開(kāi)放。今天,已有近百萬(wàn)應(yīng)用部署在阿里云平臺(tái)上面,客戶遍及全國(guó)不同地域、不同行業(yè)領(lǐng)域。
取得一系列技術(shù)突破的背后,是不為人知的一場(chǎng)艱難的歷程,其中更大的困難在于人。召集一群能夠做這件事的人難,而召集一群能耐住寂寞為夢(mèng)想實(shí)現(xiàn)而甘于奉獻(xiàn)的人更難,無(wú)數(shù)難題讓飛天人吃盡苦頭?;叵胍宦返臍v程,唐洪說(shuō):“當(dāng)飛天第一天立項(xiàng)、從第一行代碼開(kāi)始,便是帶著明知山有虎,偏向虎山行的決絕和勇氣前進(jìn)的。而這一路不僅僅有阿里巴巴集團(tuán)的研發(fā)人員在投入這場(chǎng)戰(zhàn)斗,還有更多的是我們的客戶、合作伙伴的支持,才能走到今天5K的目標(biāo)。2013年10月25日,杭州轉(zhuǎn)塘阿里云創(chuàng)業(yè)創(chuàng)新基地專門(mén)為飛天5K設(shè)立了紀(jì)念標(biāo)志,我們?cè)谶@個(gè)標(biāo)志上不僅留下了在項(xiàng)目室小黑屋封閉開(kāi)發(fā)的程序員、趕著早高峰下班的開(kāi)發(fā)運(yùn)維人員的名字,也有每個(gè)周末都趕來(lái)陪同加班的家屬,更有把身家性命放在阿里云上的客戶的名字,其實(shí)從另一個(gè)維度來(lái)說(shuō),因?yàn)橛辛怂麄儾庞辛私裉斓?K。”
未來(lái),騰飛的阿里云計(jì)算
飛天5K的正式上線,也標(biāo)志著阿里與Google、微軟和Amazon比肩,從此成為世界上獨(dú)立擁有相關(guān)技術(shù)能力的屈指可數(shù)的公司之一。
未來(lái),唐洪看的更遠(yuǎn):“目前飛天所支撐的業(yè)務(wù)占有市場(chǎng)份額還不足1 % ,接下來(lái)的路還很漫長(zhǎng)且艱辛。著眼未來(lái),5K只能是飛天已經(jīng)邁過(guò)的一道門(mén)檻,是阿里云一個(gè)新的起點(diǎn)。”
有一種追求叫自主研發(fā)!相信唐洪和這群有理想、有信仰的年輕人們?cè)谶@片更加廣闊的天空中能夠更加自由的翱翔!
杭州市濱江區(qū)偉業(yè)路3號(hào)
業(yè)務(wù)熱線(微信同號(hào)):18143453325
業(yè)務(wù)郵箱:2848414880@qq.com
業(yè)務(wù)QQ:2848414880
目標(biāo):致力于幫助中國(guó)企業(yè)出海淘金
使命:為國(guó)內(nèi)企業(yè)跨境出海提供動(dòng)力支持
愿景:打造用戶期待和尊重的外貿(mào)服務(wù)商