google大數據design_Google是如何使用雲計算和大數據的

A. 為什麼說谷歌三件寶是大數據的技術起源

因為，Google是大數據鼻祖。很多人提起大數據，必然會想起Google 的「三駕馬車」（也稱谷歌三寶）：GFS、MapRece、BigTable。正所謂三篇論文定大數據之江山，它激發了大數據技術開源時代的到來，百花齊放，爭相鬥艷，成就了Hadoop的輝煌十載。尤其是近年來，大數據技術的發展，不論是襲鄭凳技術的迭代，還是生態圈的繁榮，都遠超人們的想像。從 Spark 超越 Hadoop 勇攀高峰，到 Flink 橫空出世挑戰 Spark 成為大數據處理領域一顆耀叢瞎眼的拍旅新星，再到如今 Google 又決心用 Apache Beam 一統天下。大數據開源技術的發展可謂是繼往開來，跌宕起伏，波瀾壯闊，儼然一副綿綿不斷的輝煌畫卷。

B. 淺談Flink的基石——Google Dataflow模型

最近正在褲山深入地研究與重度使用Flink，中途了解到它實際上就是Google Dataflow模型的一種implementation。我是個喜歡刨根問底的人，於是就閱讀了Dataflow的原始論文與其他相關資料，順便寫篇東西來總結下。看官如果對Flink有了解的話，就會發現Flink的設計與Dataflow模型高度貼合。

Dataflow模型在2015年由一群來自Google的大佬提出，目前Google Cloud上也有對應的服務提供，名字就叫Cloud Dataflow，通過Apache Beam主打「簡單的流式與批量大數據處理」（Simplified stream and batch data processing），官網在這里。

Dataflow模型的思想集中體現在論文《The Dataflow Model: A Practical Approach to Balancing Correctness, Latency, and Cost in Massive-Scale, Unbounded, Out-of-Order Data Processing》中。這個題目很長，但是值得推敲一番：

Google的大佬們認為，當我們提「流式」（stream）這個詞時，實際上表達的意思就是在源源不斷的連續數據上進行處理。反之，當我們提「批量」（batch）這個詞時，就意味著在有限的一塊或多塊數據上進行處理，亦即「有界」。論文中傾向於用無界/有界來代替流式/批量，因為後者聽起來像是在描述計算引擎的語義，而前者才是數據本身的特徵。

對無界數據的處理必然要及時輸出結果，否則就毫無意義。而輸出的結果天然是有界數據，因此在Dataflow模型中皮純尺，批量處理可以作為流式處理的一個子問題，目的是達到批流融合。這與傳統Lambda架構（官網在這里）相比無疑是先進的，因為後者需要維護兩套不同的組件分別用來做流式和批量處理，非常繁瑣。

我們都理解在數據的生成、採集、傳輸過程中，不可避免地會帶來各種各樣的延遲，這就意味著處理無界數據時，其順序很有可能與業務邏輯的原始順序不同。舉個淺燃高顯的例子：某用戶在7時55分瀏覽了某商品的詳情頁面，然後在7時56分加入購物車，57分下單購買，但日誌隊列中的順序可能會變成「下單→加入購物車→瀏覽」。

在Lambda架構下的批量處理中，亂序數據造成問題的可能性往往很小。但是在Dataflow的批流融合構想下，必須正確地處理亂序數據才能保證整個大數據服務的正確性，因此非常重要。下面就來深入地看看Dataflow如何解決論文題目中的這些要點。

我們首先要分辨清楚Dataflow中最重要的一對基礎概念，即事件時間（event time）和處理時間（processing time），說起來也很簡單：

下圖示出事件時間和處理時間的關系。在理想情況下，數據總能及時地被處理，兩者的關系應該是如虛線所示。但由於各種延遲的存在，實際情況更多地表現為紅色粗箭頭，兩者之間會有一些差距（skew）。

將事件時間和處理時間區別對待，並且採用事件時間作為時間特徵，是Dataflow的一大進步。

Dataflow將上述無界數據的處理問題分解為4個子問題來考慮：

這樣一來就清晰多了。為了解決上面的4個子問題，Dataflow提出了以下這些方案：

至於最基本的What問題，當然是用戶自己要考慮的了。下面分別討論這三個模型。

在大學計算機網路課程中，我們都學過窗口的概念，大家明白就好。

前面已經提到過，對無界數據的處理必然要及時輸出結果，否則就毫無意義。那麼要處理哪個時間范圍的數據呢？通過窗口就可以將無界數據時域地劃分為一個個的有限數據集，進而能在其上做分組、聚合、連接等比較高級的操作。下圖示出亂序事件時間的一種窗口。

也就是說，Dataflow通過窗口模型將傳統流處理中的(key, value)二元組改進為(key, value, event_time, window)四元組。

常見的開窗方式有三種，即固定（fixed/tumbling）窗口，滑動（sliding）窗口，會話（session）窗口，如下圖所示。

固定窗口顯然是最簡單的，比如一個5分鍾的固定窗口： [7:00, 7:05), [7:05, 7.10), [7:10, 7.15), ... 。滑動窗口對我們來說也是老熟人，例如一個窗口時長1小時，滑動時長10分鍾的滑動窗口就是以下的時間區間： [7:00, 8:00), [7:10, 8:10), [7:20, 8:20), ... 。

會話窗口則不那麼常見一些，它是Google在實踐中總結出來的，通俗地說就是在一個key連續出現時才形成窗口，如果該key持續不出現超過一定時長，之後再出現就被劃分到下一個窗口。這種方式比較靈活，並且容易想到它可以用於用戶行為檢測、異常檢測等方面。

如果我們不採用事件時間作為時間特徵，而用處理時間的話，就沒有必要考慮觸發模型，因為窗口的邊界與數據沒關系。但是一旦用事件時間，由於數據會遲到，窗口的邊界就會模糊，也就是無從知道窗口裡的數據是否已經齊活了，觸發結果的物化變成了一道難題。所以在這里又引入了一個重要的概念，就是水印（watermark）。

水印本質上是個時間戳，對一個無界數據源而言，水印T就表示已經接收到所有t <= T的數據，其他t > T的數據都將被視為遲到，接下來就可以進行輸出。在講解事件時間和處理時間時，圖中的紅色箭頭就是實際的水印時間。

顯然，如果沒有延遲的數據，或者我們能對輸入數據有完整的感知，那麼水印就是理想的（ideal）。但無界數據源本身決定了我們不可能完整感知到輸入數據的特徵，所以水印的設定大多是啟發式（heuristic）的，亦即根據歷史指標盡量保證窗口內數據的完整性，但不能確保100%可靠，太快和太慢都不行。當然，也可以根據業務情況，採用更加簡單暴力的方式（如周期性打水印、計數打水印）等，優勢是比較靈活，不過就更加不可靠了。

既然啟發式水印不能確保100%可靠，那麼就必須用遲到數據修正之前窗口的正確性，亦即增量更新，也叫做回填（backfill）。Dataflow原生定義了以下三種回填策略：

有以下輸入示例。

注意事件時間從12:00開始而處理時間從12:05開始。理想水印線如圖中細線所示，實際水印則是粗線，說明有遲到數據。

下圖是採用與Spark Streaming類似的微批次（micro-batch）手段進行處理的流程圖，可見是根據processing time進行處理，與event time並沒有關系。

下圖則是與Flink類似的固定窗口+流式處理機制。

由這張圖可以看出啟發式水印的問題：數據9在水印觸發時實際上還沒有到，也就是水印太快了。而數據7要到8觸發水印時才會輸出，也就是水印太慢了。

邊看球邊寫的，三心二意並且水平有限，嘛就這樣吧~

C. 從谷歌大數據中能發現什麼規律得出什麼結論

馬克吐溫說過：“世上有三種謊言，即謊言，拙劣的謊言和統計數據。”傳統的調研方法得出的結論只是調研者希望得到的結論，而不是真實結論。當你拿起筆，開始在調查表上劃對勾時，你已經走進調研設計者為你畫好的框架之中。跟著調查報告的既定思路走，勾畫有限的選項，本能地迴避對自己不利的選項。
無論是善意還是惡意，人們面對他人時，總要展露自己優秀的光明面，隱藏拙劣不堪的陰影面。但是，當人們面對屏幕時，往往會放下戒備，吐露心聲，甚至還會釋放誇張內心的惡魔。這就是為什麼會有那麼多的鍵盤俠。
谷歌數據分析家，賽思•斯蒂芬斯-達維多維茨，從屏幕背後的大數據中，得出許多出乎意料的結論。

1、先看一個例子，你猜猜，與失業率高度相關的網路數據是什麼？找工，寫簡歷，面試，再教育培訓？以上答案都不對。最高相關的數據不是找工，而是一個黃片網站，其次是“蜘蛛紙牌”。知道答案後的你有沒有會心一笑？數據說明了真相：有大把時間很無聊的失業人士，把他們的時間花在數據看得見的地方。

D. Google是如何使用雲計算和大數據的

隨著雲計算和大數據的普及，越來越多的IT公司選擇將自己的大數據解決方案部署在雲上面。
雲計算和大數據的結合帶來了什麼便利呢？一個典型的大數據雲又是如何設計和部署的呢？
下面我們以Google Cloud作為例子，講解在工業界里邊是如何實際應用雲。
Google Cloud
Google作為分布式系統和大數據的領導者，開發了眾多跨時代的產品。幾乎每一個Google的產品，寫出一篇paper就可以創造一個開源社區的。
比如MapRece發布之後，開源社區根據Google的一篇論文開發出的Hadoop，BigTable發布之後，開源社區又進一步開發出Hbase等等。可以說沒有Google的創新，就沒有現在開源社區的繁榮。
而Google又把自家的產品，都放在Google Cloud上面，形成了豐富多彩的產品線，吸引了非常多的大大小小的公司如Snapchat等來使用。
Google App Engine (GAE)
我們都知道Web項目都需要大量的Web Service以及為之服務的運維系統。Google在雲計算領域首次嘗試的就是Google App Engine (GAE)，相對比當時的Amazon EC2，GAE只需開發者上傳軟體代碼，其他部署將由Google完成。
用戶只需要熟悉後端語言開發即部署大規模的集群。Google今年更是推出了GAE Flex，可以幫助用戶實現auto-scaling，用戶不再需要自己部署負載均衡的服務了。大部分中小企業的網站幾乎都可以無縫銜接到GAE上。
BigTable
BigTable的底層是註明的Google File System (GFS)，他實現了數據中心級別的可靠的分布式存儲。
也是最早的NoSQL資料庫的一種。各種網站如果有需要永久存儲的數據，一般都可以存放在BigTable里邊，Google Cloud會自動幫你做replication，分布在不同的伺服器節點里邊，這樣實現了可靠的分布式存儲。
Dataflow
Dataflow的底層實現利用了大名鼎鼎的MapRece的升級版Flume。
Dataflow特別方便進行大量的批處理，舉個例子來說，比如要把所有的用戶數據里邊的格式都升級一遍，用GAE或者其他service是很難實現的。

E. 大數據和隱私問題讓谷歌公司面臨挑戰

大數據和隱私問題讓谷歌公司面臨挑戰
網路隱私已經成為過去一年人們最擔心的問題之一。美國信用機構Equifax公司遭到黑客攻擊，導致約有1.43億用戶數據泄露事件使人們對信息安全十分擔憂。
不幸的是，人們對其他大品牌公司的信任度並不高，這其中包括谷歌公司。根據美國電子信息中心的調查，消費者更關心的是谷歌公司和Facebook公司訪問他們的數據，而不是他們的互聯網服務提供商。這些擔心程度很可能在未來一年上升。

谷歌的隱私問題可能會在2018達到新高
谷歌公司是第一批從大數據中構建品牌形象的公司之一。谷歌公司共同創始人Larry Page和Sergey Brni開發了Page Rank演算法，該演算法依賴於通過互聯網抓取內容，並根據其許可權級別對內容進行排名。
谷歌公司對大數據的承諾並沒有結束。多年來，他們專注於收集更多的用戶數據，以改善他們的服務體驗，並為廣告客戶提供更多的價值。然而，他們收集客戶數據的承諾可能損害客戶的權益。
這些擔憂今年比以往任何時候都要高。最大的原因之一是美國國會最近開始廢除隱私保護法規。這打開了潘多拉盒子，許多互聯網服務提供商可能在有關的方面利用更寬松的規則。雖然新政策的實施並沒有以任何方式影響谷歌公司的商業模式，但一般客戶並不了解這些差異。此外，互聯網服務提供商可能會收集有關搜索引擎上客戶活動的更多數據。谷歌公司使用安全連接，因此互聯網服務提供商可能無法看到大多數數據客戶鍵入的內容。但是，他們可以通過各種方式對客戶搜索查詢進行推理，例如通過點擊付費廣告時跟蹤令牌的使用。
而一些網路安全專家表示，在隱私保護法規被撤銷後，人們更加擔心自己的隱私。
「新政策可能會傷害一些需要收集更多用戶數據的電子商務客戶。這將對整個行業產生負面影響，」一位網路安全專家指出。
消費者似乎更多地依靠VPN，並試圖在谷歌網站隱藏他們的個人信息，這為VPN服務創造了更強的需求。
然而，一些客戶一直在警惕使用VPN來逃避政府部門的跟蹤，因為他們認為政府部門將更有可能針對使用它們的用戶。一個法院甚至在設定先例之後引起了人們的注意，即法官可以在美國的任何地方為VPN用戶頒發許可證，而不管用戶所在的地區在哪裡。
谷歌的隱私策略在2018年將會讓更多客戶離開嗎？
一位屢獲殊榮的新聞工作者和技術專家Dan Arel表示，2017年已經成為一場完美的風暴。Arel指出，最近發生的安全漏洞事件和美國政府的控制已經開始引起人們的一些擔憂。他警告說，谷歌公司和美國政府部門可以會有一些侵犯人權的行為。
Arel說，「我發現自己已經厭倦了谷歌公司正在查看我們的郵件內容，檢查我的搜索內容，並向我推銷東西。我也知道當今美國政府正在追蹤任何犯罪活動。但我不相信他們會遵守那些不讓非法搜查的法律。所以我開始變得更加私密，這意味著放棄谷歌產品，使用加密的更安全的替代方案。」
許多對Arel的帖子發表評論，並對他的發言進行了回應。即使是谷歌公司的首席執行官Sudar Pichai也不得不解決其中的一些問題。Paiai表示，人們繼續使用Google的產品，因為他們可以信賴。然而，Reddit和其他社交媒體平台上使用Duck DuckGo等其他搜索引擎的人數卻有所增加，這表明Paiai或者是在否認問題，或者需要積極推動改變公眾形象。
谷歌產品的命運仍然不確定。有一件事卻是明確的，客戶對收集他們的數據的行業更加警惕，並可能開始尋找其他替代方案，而人們的擔憂在不久的將來將會與日俱增。

導航:首頁 > 網路數據 > google大數據design

google大數據design

與google大數據design相關的資料

友情鏈接