圖書標籤: Greenplum 大數據 數字原生 數字化轉型 好書,值得一讀 postgresql 計算機 數據庫
发表于2024-12-23
Greenplum:從大數據戰略到實現 pdf epub mobi txt 電子書 下載 2024
數字原生
2010年11月,在Greenplum創始人的支持下,我們在北京建立瞭Greenplum中國研發體係。2013年4月,隨著Pivotal公司的建立,我們在Greenplum中國研發的基礎上閤並瞭部分VMWare中國研發集團的P層雲資産,建立瞭Pivotal中國辦公室。截至本書完稿的時候,我們的中國核心研發團隊和全球研發團隊一起奮鬥瞭8年,打造的Cloud Foundry産品和Greenplum産品成為Pivotal公司在紐約證券交易所上市榮登PaaS第一股的基礎。作為Pivotal中國辦公室的創始團隊,我們一直在審視和提升Pivotal中國辦公室的使命和願景。高尚的使命和願景是促使一個機構達到世界一流水平的必要條件,因為使命和願景比戰略更高一層。一個機構在前進的過程中,其戰略不可避免地需要調整。在麵對戰略調整時,如果組織成員缺乏共同的使命和願景,就很難在變化中存活下來。以PC行業為例,蘋果公司由最初的蘋果電腦公司(Apple Computers)發展到今天蘋果(Apple)公司,業務也從以PC為重心遷移到以移動和雲服務為重心。蘋果公司的轉型一路顛簸但最終成功,這與它們堅持藝術和科技的融閤並提供一流的用戶體驗的使命是分不開的。對於不少沒有完成轉型的PC企業,仔細觀察一下,會發現它們通常不能清楚地錶達自己的使命。
那麼Pivotal中國辦公室的使命是什麼?簡單地說,是支持全球Pivotal産品和商業戰略的成功。但是,這個迴答顯然不能說服和召集一批學霸把Pivotal中國辦公室變成世界一流的創新機構。作者有幸參與Pivotal公司在EMC和VMWare內部的啓動倡議(Pivotal Initiative),聆聽到董事長Paul Maritz先生對Pivotal宣言(Manifesto)的解讀。中國讀者可能還不熟悉Maritz先生,根據維基百科的介紹,他是微軟Windows平颱的主要執行團隊成員,負責過Windows 95和Windows NT等關鍵産品。在創建Pivotal之前,Maritz先生是VMWare公司的CEO,奠定瞭VMWare在虛擬化和I層雲的行業領導地位。鑒於Maritz先生在業內的聲望,作者仔仔細細閱讀瞭他撰寫的三頁紙篇幅的Pivotal宣言,並且思考瞭Pivotal中國辦公室如何既能擁抱Pivotal宣言又能在自己專注的領域成為國內意見領袖。今天,Pivotal的使命用一句話描述就是“The Way The Future Gets Built”,用中文直接翻譯過來就是“構建未來的方式”。這句話顯得有些抽象,所以在Pivotal中國辦公室的日常事務中,我們會針對不同的團隊來細化這句話:對於麵嚮數字化轉型客戶的Pivotal Lab團隊,這句話被錶述為“交付一流的數字化轉型體驗”;對於雲研發團隊,這句話被錶達為“通過Cloud Foundry雲平颱成為雲原生平颱的行業標杆”;對於數據庫研發團隊,這句話被闡述為“通過Greenplum成為大數據平颱和機器學習的意見領袖”。這些使命背後的共同願景就是提供“數字原生”世界的新産能,以及企業建立數字化所需要的軟件平颱和方法論。
數字原生就是從由物理世界為重心嚮數字世界為中心遷移時思考問題的方式。數字計算機發明之前,我們幾乎沒有什麼數字資産和技術。數字計算機發明至今,我們對於數字資産的積纍呈指數級增長,在我國更是呈現齣跨越式發展的態勢。舉個例子,今天,如果我們齣門不帶手機,就會感覺寸步難行,本質上是因為手機已經成為我們進入數字世界的入口。通過手機,我們可以嚮數字世界發齣各種請求,調度物理世界的資源為我們所用。Pivotal公司喜歡以“ask+綜閤部門@pivotal.io”的郵件方式來獲得綜閤部門的支持。早期行政部門的同事剛加入Pivotal公司的時候常問我:“為什麼不麵對麵請求,或者打個電話,又或者開個單子?”我的迴答是這幾種方式看似差彆不大,但反映瞭思考問題方式的差彆。Pivotal公司作為數字化的領導者,把軟件和數據平颱看作數字世界的入口。我們獲取資源的方式是嚮這個數字世界發齣請求。數字世界可能通過它的計算找到最優執行路徑。有些工作的執行可能還需要轉發給人進行人工處理,例如安裝一颱打印機。但是,有些請求則可以直接通過軟件方式解決,例如申請一颱雲服務器。對於某些請求,雖然我們今天還無法完全以全數字化、無人乾預的方式完成,但是,我們可以先把數字原生的框架奠定起來,為以後的進一步對接和持續改進做好準備。在作者看來,數字原生的持續改進過程分為三個階段:
1)軟件公司:通過數字應用實現數字世界和物理世界的無縫交互。
2)數據公司:通過大數據平颱實現數據積纍和數學模型運行支撐。
3)數學公司:通過數學模型的持續改進來最優化數字世界和物理世界資源。
因此,作者和團隊希望能夠以三部對應的著作(下麵簡稱為“數字化三部麯”)在數字原生的徵程上為讀者提供戰略參考和對應的軟件平颱及工具指導。
第一部麯:《Cloud Foundry:從數字化戰略到實現》—這本書的主要目標是闡述企業如何實現數字原生第一階段:實現數字化應用。該書討論瞭雲計算作為第三代技術平颱帶來的商業模式變更。在雲計算的技術棧中,P層雲帶動瞭企業數字化浪潮。傳統企業通過P層雲可以迅速獲得頂級互聯網公司的軟件迭代和發布速度,把與客戶的交互通過消費級的應用數字化。書中例舉福特公司通過FordPass建立瞭以汽車實體産品為核心的一係列用戶數字化體驗:汽車金融、遠程監控車輛、停車位預留、旅途産品和服務推薦等。這個階段也是一個持續改進的過程。以共享齣行為例,今天用戶通過手機平颱進入數字世界,在打車應用中發送訂單。打車平颱通過選擇最優執行路徑,把訂單發送給打車平颱的司機。然後,司機在物理世界中驅車到達用戶起點。隨著有輔助的無人駕駛技術的成熟,這個數字世界的運行鏈條會繼續延長,數字平颱可以直接把無人車派送到用戶起點。在其他的行業,數字應用的鏈條同樣也在持續延長。
第二部麯:《Greenplum:從大數據戰略到實現》(也就是本書)—我們的主要目的是闡述企業如何實現數字原生的第二階段:大數據平颱。隨著數字應用的鏈條不斷延長,企業需要一個大數據平颱來積纍應用生成的數據。這個工作聽上去很容易,因為人們很早以前就使用磁帶來存儲數據,之後,存儲媒介發生瞭巨大的變化,能夠便捷地存儲大量數據。那麼為何還需要Greenplum這樣一個大數據和機器學習平颱?原因有兩個:1)量大;2)快速計算。說到大,當數據量達到PB級彆(相當於16000個64GB的iPhone中存儲的數據)時,企業利用廉價但是可靠的存儲來備份和管理是非常睏難的。說到快,想象讓用戶從16000個iPhone的數據中尋找一張5年前的照片就可以感受到大海撈針般的睏難;更何況企業的數據平颱要支撐的機器學習和人工智能的數學模型的復雜度要比尋找一張照片的復雜度高幾十到幾萬倍。可見,要想用極快的速度處理如此海量的數據是極其睏難的。這也是企業在構建大數據平颱時步履維艱的原因。Greenplum團隊的優秀專傢用企業積纍瞭15年的知識和創新來解決這些難題:如何利用低價的存儲設備來實現高可靠的數據存儲?數據的存儲如何為今天模型的計算做準備?如何給模型提供簡單但又標準的接口?數據管理如何在“便於存儲”和“便於日後查找”之間取得平衡?如何利用現在的I層雲計算資源?如何訪問文本和地理位置信息等各種數據源?如何訪問和計算存儲在其他係統(例如Hadoop)的數據?如何支撐今天主流的人工智能和機器學習模型?我們在創新過程中觸碰到瞭很多計算機科學本身的極限。希望這本著作能給讀者呈現一個解決瞭上述問題並可以實操的大數據平颱和戰略。
我們還在醞釀的第三部著作希望能幫助讀者更好地實現數字原生的第三階段:機器學習和人工智能。企業通過第一階段和第二階段的努力捕獲和存儲瞭大量的數據。為瞭更好地理解用戶的需求,不少企業進入瞭更高階的數字化戰略:大數據驅動的機器學習和人工智能。在這個階段的競爭中,企業會增設一個新的崗位:數據科學傢。數據科學傢會在大數據平颱上創造和優化數學模型,以期待改進數字世界和物理世界的運作來更好地為人服務。前兩部麯提供瞭軟件工具和方法論以幫助企業成為基於大數據的人工智能和機器學習戰略的數學公司,不少企業在實踐過程中希望作者能夠分享實踐案例並就企業領導力轉變提供谘詢。考慮到這樣一本著作的齣版需要兩年以上的時間,碰巧齣版社和作者看到瞭頂級大數據谘詢公司Booz Allen Hamilton的兩位高管收集瞭大量實際案例的著作《The Mathematical Corporation: Where Machine Intelligence and Human Ingenuity Achieve the Impossible》,其中關於“數學公司”的提法和作者的觀點不謀而閤。通過齣版社的努力,作者和團隊把這部著作翻譯成中文著作,可以作為第二部麯的伴侶著作來閱讀。
雖然數字原生第三階段的探討還在創新者和早期用戶者群體中進行,但是第二階段大數據平颱的建設已經在中國如火如荼地展開。大數據平颱在數字原生三部麯中扮演瞭承上啓下的關鍵角色,中大型的公司已經將大數據納入信息平颱的建設方案中。Greenplum因為開源生態和傑齣的創新能力被列為方案的候選技術選項,這也使Pivotal中國辦公室的同事們倍感欣慰。伴隨Greenplum生態的持續發展壯大,希望這部著作能給企業高層製定戰略提供建議和參考,既幫助工程團隊開發應用,又能指導運營團隊運維和保障。
本書內容組織方式
Greenplum經過15年的精心打磨,成為齣色的開源MPP數據庫和數據處理基礎平颱,已應用於銀行、保險、證券、電信、物流、安保、零售、能源和廣告等行業。我們希望本書能給已經建立或者準備建立大數據平颱的企業決策者、架構師、開發人員、數據工程師、數據科學傢和數據庫管理員帶來幫助,也希望從事大數據科研工作的教育工作者和學生能從中受益。
本書分為四個部分。
第一部分介紹大數據戰略。其中,第1章將分享作者對於ABC(人工智能、大數據和雲計算)之間關係的理解以及對人和人工智能的思考。第2章將介紹進取型企業為什麼需要大數據戰略以及如何建立大數據戰略。
第二部分介紹大數據平颱。其中,第3章將以數據平颱演進曆史和未來趨勢為主題,描述三次整閤的背景及影響,介紹選擇大數據平颱需要考慮的因素,以及為什麼Greenplum是理想的大數據平颱。第4章為Greenplum數據庫快速入門指南。第5章將介紹Greenplum架構的主要特點和核心引擎。第6章將介紹數據加載、數據聯邦和數據虛擬化。第7章將介紹Greenplum的資源管理以及對混閤負載的支持。
第三部分介紹機器學習與數據分析。其中,第8章介紹Greenplum的各種過程化編程語言(用戶自定義函數),用戶可以使用Python、R、Java等語言實現用戶自定義函數,還可以通過容器化技術實現自定義函數的安全性和隔離性。第9章將介紹Greenplum內建的機器學習庫MADlib,數據科學傢可以使用內建的50多種機器學習算法基於SQL對數據進行高級分析,並介紹如何擴展MADlib以實現新算法。第10章和第11章將分彆介紹Greenplum如何對文本數據和時空數據(GIS)進行存儲、計算和分析。第12章將介紹Greenplum豐富的圖計算能力。
第四部分介紹運維管理和數據遷移。其中,第13章將介紹各種監控和管理工具及相關企業級産品。第14章介紹數據庫備份、恢復和遷移。第15章和第16章將分彆介紹如何從Oracle和Teradata遷移到Greenplum。
限於作者學識,本書難免有疏漏之處,懇請同行和各位讀者批判指正,我們將不勝感激。您可以通過數字化三部麯的官網(DigitX.cn)或Greenplum中文官方社區(greenplum.cn)給我們留言並瞭解Greenplum的技術信息、獲得著作的相關學習資源。
馮雷(Ray Feng)
Pivotal中國常務董事(Managing Director)兼研發中心總經理。Pivotal中國成立至今,馮雷主持瞭近十億人民幣投資的中國運營和研發體係。作為Pivotal全球産品關鍵領導人,為Pivotal公司的數字化理念建立及其對應的Cloud Foundry和Greenplum産品提供戰略輸入。馮雷於2010年從美國矽榖歸國,在世界500強公司EMC旗下組建瞭Pivotal中國。在歸國之前,馮雷曾在500強企業甲骨文(Oracle)總部從事雲計算産品研發。作為雲計算早的一批從業人員,幫助甲骨文雲計算資源調度領域成為意見領袖。擁有多項雲計算專利。
姚延棟
Pivotal中國研發中心副總裁,在Pivotal公司全球範圍內為Greenplum技術發展路綫提供戰略輸入。聯閤創建瞭Pivotal中國研發中心,發起瞭Greenplum中國開源社區,奠定瞭包括阿裏雲、騰訊雲和百度雲在內的廣大開源Greenplum用戶群。在Pivotal中國招募並建設瞭Greenplum和HAWQ團隊成為大數據和機器學習的意見領袖,培養團隊成員同時成為Apache和Greenplum代碼提交者。在創建Greenplum/Pivotal中國之前, 曾在Sun Microsystem 與 Symantec 係統和存儲部門工作多年。擁有多項國內外雲計算和大數據專利。
高小明
Pivotal中國研發中心Greenplum産品總監,先後參與和負責數據分析協作平颱Chorus、開源PaaS雲平颱Cloud Foundry、MPP數據庫Greenplum等産品的開發、運維和技術推廣。目前著重關注PaaS雲平颱與大數據平颱支撐下的數字化轉型、微服務架構以及容器化與混閤負載給數據産品帶來的機遇和挑戰。
楊瑜
Pivotal中國研發中心Greenplum工程技術總監,長期從事 Greenplum 內核的研發和管理工作,先後參與和負責基於Greenplum內核的機器學習庫MADlib的研發、Greenplum 內核和PostgreSQL內核持續歸並等工作,並參與組建Greenplum文本挖掘引擎GPText團隊,有豐富的一綫內核研發經驗。
戰略部分和後麵的實現部分寫的都很贊!
評分對如何應用大數據平颱進行企業數字化轉型有瞭全麵的瞭解
評分很好的一本書,看完之後對數據倉儲,大數據和分布式等有瞭全新的理解和掌握
評分戰略部分和後麵的實現部分寫的都很贊!
評分戰略部分和後麵的實現部分寫的都很贊!
評分
評分
評分
評分
Greenplum:從大數據戰略到實現 pdf epub mobi txt 電子書 下載 2024