谷歌大數據產品分析_大數據時代

1. 谷歌分析大數據怎麼它就這么快

谷歌在大復數據處理是領先業界制幾年的，不少理論都是內部已經在用了，才公布出來的，然後其他公司按這個原理造另一個輪子

更多關於Google Analytics和Google Tag Manager的教程可以搜索「GA小站」

2. 大數據分析一般用什麼工具分析

在大數據處理分析過程中常用的六大工具：

1、

Hadoop 是一個能夠對大量數據進行分布式處理的軟體框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的，因為它假設計算元素和存儲會失敗，因此它維護多個工作數據副本，確保能夠針對失敗的節點重新分布處理。Hadoop 是高效的，因為它以並行的方式工作，通過並行處理加快處理速度。Hadoop 還是可伸縮的，能夠處理 PB 級數據。此外，Hadoop 依賴於社區伺服器，因此它的成本比較低，任何人都可以使用。

2、HPCC

HPCC，High Performance Computing and Communications(高性能計算與通信)的縮寫。1993年，由美國科學、工程、技術聯邦協調理事會向國會提交了「重大挑戰項目：高性能計算與通信」的報告，也就是被稱為HPCC計劃的報告，即美國總統科學戰略項目，其目的是通過加強研究與開發解決一批重要的科學與技術挑戰問題。HPCC是美國實施信息高速公路而上實施的計劃，該計劃的實施將耗資百億美元，其主要目標要達到：開發可擴展的計算系統及相關軟體，以支持太位級網路傳輸性能，開發千兆比特網路技術，擴展研究和教育機構及網路連接能力。

3、Storm

Storm是自由的開源軟體，一個分布式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的數據流，用於處理Hadoop的批量數據。Storm很簡單，支持許多種編程語言，使用起來非常有趣。

4、Apache Drill

為了幫助企業用戶尋找更為有效、加快Hadoop數據查詢的方法，Apache軟體基金會近日發起了一項名為「Drill」的開源項目。Apache Drill 實現了 Google's Dremel.

據Hadoop廠商MapR Technologies公司產品經理Tomer Shiran介紹，「Drill」已經作為Apache孵化器項目來運作，將面向全球軟體工程師持續推廣。

5、RapidMiner

RapidMiner是世界領先的數據挖掘解決方案，在一個非常大的程度上有著先進技術。它數據挖掘任務涉及范圍廣泛，包括各種數據藝術，能簡化數據挖掘過程的設計和評價。

6、Pentaho BI

Pentaho BI 平台不同於傳統的BI 產品，它是一個以流程為中心的，面向解決方案(Solution)的框架。其目的在於將一系列企業級BI產品、開源軟體、API等等組件集成起來，方便商務智能應用的開發。它的出現，使得一系列的面向商務智能的獨立產品如Jfree、Quartz等等，能夠集成在一起，構成一項項復雜的、完整的商務智能解決方案。

3. 從谷歌大數據中能發現什麼規律得出什麼結論

馬克吐溫說過：“世上有三種謊言，即謊言，拙劣的謊言和統計數據。”傳統的調研方法得出的結論只是調研者希望得到的結論，而不是真實結論。當你拿起筆，開始在調查表上劃對勾時，你已經走進調研設計者為你畫好的框架之中。跟著調查報告的既定思路走，勾畫有限的選項，本能地迴避對自己不利的選項。
無論是善意還是惡意，人們面對他人時，總要展露自己優秀的光明面，隱藏拙劣不堪的陰影面。但是，當人們面對屏幕時，往往會放下戒備，吐露心聲，甚至還會釋放誇張內心的惡魔。這就是為什麼會有那麼多的鍵盤俠。
谷歌數據分析家，賽思•斯蒂芬斯-達維多維茨，從屏幕背後的大數據中，得出許多出乎意料的結論。

1、先看一個例子，你猜猜，與失業率高度相關的網路數據是什麼？找工，寫簡歷，面試，再教育培訓？以上答案都不對。最高相關的數據不是找工，而是一個黃片網站，其次是“蜘蛛紙牌”。知道答案後的你有沒有會心一笑？數據說明了真相：有大把時間很無聊的失業人士，把他們的時間花在數據看得見的地方。

4. 大數據分析系統平台方案有哪些

目前常用的大數據解決方案包括以下幾類
一、Hadoop。Hadoop 是一個能夠對大量數據進行分布式處理的軟體框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。此外，Hadoop 依賴於社區伺服器，因此它的成本比較低，任何人都可以使用。
二、HPCC。HPCC，High Performance Computing and Communications(高性能計算與通信)的縮寫。HPCC主要目標要達到：開發可擴展的計算系統及相關軟體，以支持太位級網路傳輸性能，開發千兆比特網路技術，擴展研究和教育機構及網路連接能力。

三、Storm。Storm是自由的開源軟體，一個分布式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的數據流，用於處理Hadoop的批量數據。 Storm支持許多種編程語言，使用起來非常有趣。Storm由Twitter開源而來
四、Apache Drill。為了幫助企業用戶尋找更為有效、加快Hadoop數據查詢的方法，Apache軟體基金會近日發起了一項名為「Drill」的開源項目。該項目幫助谷歌實現海量數據集的分析處理，包括分析抓取Web文檔、跟蹤安裝在Android Market上的應用程序數據、分析垃圾郵件、分析谷歌分布式構建系統上的測試結果等等。

5. 谷歌趨勢怎麼查全球什麼產品最熱銷

谷歌趨勢應該是用大數據來查詢的。可以查到各類產品的全球熱銷程度。

6. 大數據是抗衡谷歌的唯一方式

大數據是抗衡谷歌的唯一方式_數據分析師考試

大數據將是其它公司抗衡谷歌的唯一方式，亞馬遜和Salesforce有望向該搜索巨頭發起挑戰。亞馬遜擁有無可比擬的購物數據，Salesforce則擁有將終端銷售和社交營銷關聯起來的數據。

以下為文章全文：

毫無疑問，谷歌牢牢掌控著網頁搜索領域。不過谷歌令人驚嘆的產品服務組合已經不再局限於搜索框。

除了豐富多樣的搜索工具，谷歌旗下的資產還包括強大的廣告服務（AdWords等等）、通訊和發行工具（Drive和Hangouts）、開發類資源（OpenSocial）、社交平台（Google+）、地圖相關的產品（谷歌地圖）、流媒體娛樂（Google Play）、數據工具（Analytics）、操作系統（Android和Chrome OS）、桌面和移動Web應用（Gmail），甚至還包括硬體（Galaxy Nexus）。

當然，雖然谷歌的搜索業務仍將繼續發展壯大，但在其無孔不入的商業模式所覆蓋的一些重要領域，它並非沒有潛在的競爭對手。顯而易見的競爭對手也許包括微軟和蘋果，不過還有其它公司未來也可能變成令人畏懼的競爭對手。

目前想到的包括亞馬遜和Salesforce。亞馬遜仍將會是電子商務巨頭，而它也有可能通過分流谷歌的電商流量，蠶食它的廣告收入。憑借銷售數據和社交洞察力的結合，Salesforce也有可能會將廣告主大量的營銷支出從搜索引擎引向更加社交化的網路平台。

也許這就是它們在各自的優勢領域使用數據的方式。這些公司的共同之處是，渴望得到更多的數據，因為利用海量數據將會是與谷歌抗衡的唯一方式。它們不管是聚焦控制某一個流量來源、收購還是開發創新技術，實質上都不是為了與谷歌競爭，而是為了爭奪數據，藉此刺激營收。

亞馬遜

亞馬遜在電商領域的統治力與日俱增，正逐漸削弱谷歌的收入流。如果說谷歌正成為搜索的代名詞，那亞馬遜就是正成為電商的代名詞。谷歌估計，其搜索廣告收入有30%至40%實質上來自電商，但隨著亞馬遜繼續發展成為互聯網的一站式購物平台，將有多少用戶繞過谷歌搜索主頁直接登錄亞馬遜網站呢？

鑒於在美國市場亞馬遜Prime用戶超過1000萬，月度購物者超過1.03億，傾向於直接上亞馬遜網站的人肯定會越來越多。筆者的妻子以前不管買什麼東西，第一站都是谷歌，但現在，要搜索產品，她經常都是直接去亞馬遜網站，原因是她有Prime賬戶可享受免費送貨服務。亞馬遜和其數量龐大的第三方賣家，現在都會在成千上萬款日常產品中提供精選品，也常常會提供全網最低價的商品。也難怪她不管買萬聖節服裝還是給孩子買衣服，都是直接去亞馬遜。

除了逐漸分流谷歌的電商流量，擊敗谷歌的真正關鍵在於大數據。亞馬遜在大數據方面的優勢毋庸置疑。該公司坐擁上千萬人的個人信息、購物習慣和偏好數據。谷歌有類似的信息嗎？也許吧，但亞馬遜目前所擁有的購物數據可能還無人能敵。

Salesforce

Salesforce長期以來在客戶關系管理（CRM）、B2B營銷和軟體即服務（SaaS）領域都占據著領先地位。不過，憑借近年來的一系列收購，它頗受歡迎的客戶關系管理系統已經擴展到銷售以外的領域，成為了全面的整合市場營銷平台。

兩年前，該公司收購了社交媒體測量領域的佼佼者Radian 6，去年也將社交媒體管理平台Buddy Media收入囊中。上個月末，Salesforce繼續展示其不斷壯大的實力，宣布了另一項重大收購——斥資25億美元買下雲端營銷軟體公司ExactTarget。其收購狂潮並未就此結束，Salesforce最近還收購了企業商業智能和分析初創公司EdgeSpring。

所有的這些收購意味著什麼呢？數據。

更具體地說，就是將終端銷售和社交營銷串聯起來的數據。Salesforce最大的價值在於，擁有可追蹤潛在顧客的強大銷售工具。如今，增加上述收購回來的社交項目和技術之後，Salesforce的整套服務不僅僅能夠確定潛在用戶何時帶來收入，也能夠將社交營銷努力直接與營收串聯在一起——這無疑將會吸引企業在社交媒體上投入更多的營銷資金。問題就在於，在那種情況下誰才是贏家呢？

如果Salesforce能夠提供顯示社交媒體活動如何刺激營收的數據，那對於任何想要在社交媒體投資的人來說，它都將會是一項必不可少的工具包。由於Salesforce可將社交媒體活動和投資回報率關聯起來，Facebook將會成為大贏家，獲得更多的廣告收入，不過Pinterest等其它有利於品牌營銷的社交平台同樣也會從中獲益。

此外，在全面數據的驅動下，Salesforce整合服務技術套件對比Google Analytics的競爭力正得到強化。按照現在的情況，Google Analytics在社交媒體測量方面還遠遠沒有Radian 6全面。隨著社交媒體成為越來越重要的營銷工具，很多公司將會搜尋社交媒體測量解決方案來評估營銷的效果。

雖然谷歌在通過出色的執行力取得成功上做得很不錯，但對於逐漸逼近的競爭對手，它絕對不能夠掉以輕心。不過不管競爭對手們收購了多少公司、產品或者技術，要是沒有大數據作支撐，那肯定無法對谷歌構成絲毫威脅。這場競爭未來的演變將會令人興奮不已。很多公司都有著成功的空間，谷歌也是令人敬畏的競爭者，特別是在數據方面。但正如谷歌能夠改變整個行業的命運，其它的公司也有可能對它造成同等的深刻影響，想到這個就覺得有趣。

以上是小編為大家分享的關於大數據是抗衡谷歌的唯一方式的相關內容，更多信息可以關注環球青藤分享更多干貨

7. 從谷歌流感趨勢談大數據分析的光榮與陷阱

從谷歌流感趨勢談大數據分析的光榮與陷阱

本文從谷歌流感趨勢2009年前後表現差異談起，討論了大數據分析容易面臨的大數據自大、演算法演化、看不見的動機導致數據生成機制變化等陷阱，以及對我國大數據產業發展的借鑒。本文認為，為健康發展大數據產業，我國需要防範大數據自大風險、推動大數據產業和小數據產業齊頭並進，並強化提高大數據透明度、審慎評估大數據質量等方面的努力。?

一、谷歌流感趨勢：未卜先知？

「谷歌流感趨勢」(Google Flu Trends，GFT)未卜先知的故事，常被看做大數據分析優勢的明證。2008年11月谷歌公司啟動的GFT項目，目標是預測美國疾控中心(CDC)報告的流感發病率。甫一登場，GFT就亮出十分驚艷的成績單。2009年，GFT團隊在《自然》發文報告，只需分析數十億搜索中45個與流感相關的關鍵詞，GFT就能比CDC提前兩周預報2007-2008季流感的發病率。

也就是說，人們不需要等CDC公布根據就診人數計算出的發病率，就可以提前兩周知道未來醫院因流感就診的人數了。有了這兩周，人們就可以有充足的時間提前預備，避免中招。多少人可以因為大數據避免不必要的痛苦、麻煩和經濟損失啊。

此一時，彼一時。2014年, Lazer等學者在《科學》發文報告了GFT近年的表現。2009年，GFT沒有能預測到非季節性流感A-H1N1；從2011年8月到2013年8月的108周里，GFT有100周高估了CDC報告的流感發病率。高估有多高呢？在2011-2012季，GFT預測的發病率是CDC報告值的1.5倍多；而到了2012-2013季，GFT流感發病率已經是CDC報告值的雙倍多了。這樣看來，GFT不就成了那個喊「狼來了」的熊孩子了么。那麼不用大數據會如何？作者報告，只用兩周前CDC的歷史數據來預測發病率，其表現也要比GFT好很多。

2013年，谷歌調整了GFT的演算法，並回應稱出現偏差的罪魁禍首是媒體對GFT的大幅報道導致人們的搜索行為發生了變化。Lazer等學者窮追不舍。他們的估算表明，GFT預測的2013-2014季的流感發病率，仍然高達CDC報告值的1.3倍。並且，前面發現的系統性誤差仍然存在，也就是過去犯的錯誤如今仍然在犯。因為遺漏了某些重要因素，GFT還是病得不輕。

為什麼傳說中充滿榮光的大數據分析會出現如此大的系統性誤差呢？從大數據的收集特徵和估計方法的核心，我們可以探究一二。

二、新瓶裝舊酒：過度擬合

大數據時代的來臨，為數據收集帶來了深刻變革。海量數據、實時數據、豐富多樣的非結構數據，以前所未有的廣度進入了人們的生活。但是不變的是，在統計分析方法上，數據挖掘(Data mining)仍然是統計分析的主要技術。而數據挖掘中最引人注目的過度擬合(overfitting)問題，由於下文提到的各類陷阱的存在，遠遠沒有解決。

我們先用一個故事來解釋何為過度擬合。假設有一所叫做象牙塔的警官學校致力於培養抓小偷的警察。該校宣稱，在他們學校可以見到所有類型的普通人、也能見到所有類型的小偷；到他們學校來學習就能成為世界上最厲害的警察。但是這所學校有個古怪，就是從不教授犯罪心理學。

象牙塔的教學方式是這樣的：將人群隨機分為十組，每組都是既有普通人又有小偷。學員可以觀察到前九組所有人，也知道誰是普通人誰是小偷。學員要做的是，根據自己從前九組中了解到的小偷特徵，從第十組中找出小偷。比如學員從前九組觀察到小偷更喜歡在給孩子買尿布的時候也買啤酒，那麼在第十組觀察到有人在買尿布時也買啤酒，就作為一個嫌疑條件。完成這個過程之後，學校再將人群打散重新分成十組，如此循環往復，之後學校進行測試。測試方式就是再次將人群隨機分為十組，看誰能最快最准根據前九組的信息找出第十組的小偷。冠軍即象牙塔最棒警察，可以派到社會上抓小偷了。

一段時間後，問題來了：象牙塔最棒警察在象牙塔校內總能迅速找到小偷，可一旦出了象牙塔，該警察就老犯錯抓、該抓不抓的錯誤。他抓小偷的表現，甚至比從來沒有來象牙塔學習的人還要差。

在這個故事裡，象牙塔最棒警察就相當於根據大數據的數據挖掘方法、機器學習之後挑選出來的最優模型。小偷相當於特定問題需要甄選出的對象，比如得流感的人、不幹預就會自殺的人、賴賬的人。前九組的人就相當於用於訓練模型的訓練數據；第十組人則相當於檢驗訓練結果的檢驗數據。不教授犯罪心理學就意味著抓小偷並不需要理解小偷為什麼會成為小偷，類似於在數據分析中只關心相關關系而不關注因果關系。訓練最佳警察的過程，就類似於運用機器學習技術，採用訓練數據來訓練模型，然後採用檢驗數據來選擇模型，並將預測最好的模型作為最佳模型，用於未來的各類應用中。

最後，警察在象牙塔內能快速抓小偷而校外不能，就是過度擬合問題。由於在學校通過多次重復練習，學員小偷的特徵已經爛熟於心，因此無論怎麼隨機分，都能快速找到小偷並且不出錯；這就相當於訓練模型時，由於已經知道要甄選人群的特徵，模型能夠對樣本內觀測值作出很好的擬合。由於象牙塔學校判斷小偷的標准主要看外部特徵而不去理解內在原因，比如小偷常戴鴨舌帽，那麼當社會人群里的小偷特徵與象牙塔人群有很大差別時，比如社會上的小偷更常戴禮帽，在象牙塔內一抓一個準的鴨舌帽標准，到社會就變成一抓一個錯了。也就是說，在樣本內預測很好的模型，到樣本外預測很差。這，就是過度擬合的問題。

從過度擬合角度，可以幫助我們理解為什麼GFT在2009年表現好而之後表現差。在2009年，GFT已經可以觀察到2007-2008年間的全部CDC數據，也就是說GFT可以清楚知道CDC報告的哪裡發病率高而哪裡發病率低。這樣，採用上述訓練數據和檢驗數據尋找最佳模型的方法時標准就很清晰，就是不惜代價高度擬合已經觀察到的發病率。 Lazer 等人發現，GFT在預測2007-2008年流感流行率時，存在丟掉一些看似古怪的搜索詞，而用另外的5000萬搜索詞去擬合1152個數據點的情況。

2009年之後，該模型面對的數據就真正是未知的，這時如果後來的數據特徵與2007-2008年的數據高度相似，那麼GFT也該可以高度擬合CDC估計值。但現實是無情的，系統性誤差的存在，表明GFT在一些環節出了較大偏差而不得不面對過度擬合問題。

從上面的故事可以看到，產生過度擬合有三個關鍵環節。第一，象牙塔學校認定本校知道所有普通人與所有小偷的特徵，也就等於知道了社會人群特徵。第二，象牙塔學校訓練警察，不關心小偷的形成原因，而關注細致掌握已知小偷的特徵。第三，象牙塔學校認為，不論時間如何變化，本校永遠能保證掌握的普通人和小偷的行為特徵不會發生大規模變動、特別是不會因為本校的訓練而發生改變。

在大數據這個新瓶里，如果不避開下面的三個陷阱，就仍然可能裝著數據挖掘帶來的過度擬合舊酒：大數據自大、演算法演化、看不見的動機導致的數據生成機制變化。

三、大數據分析的挑戰

（一）陷阱一：「大數據自大」

Lazer等學者提醒大家關注「大數據自大（big data hubris)」的傾向，即認為自己擁有的數據是總體，因此在分析定位上，大數據將代替科學抽樣基礎上形成的傳統數據(後文稱為「小數據」)、而不是作為小數據的補充。

如今，大數據確實使企業或者機構獲取每一個客戶的信息、構成客戶群的總體數據成為可能，那麼說企業有這樣的數據就不需要關心抽樣會有問題嗎？

這里的關鍵是，企業或者機構擁有的這個稱為總體的數據，和研究問題關心的總體是否相同。《數據之巔》一書記載了下面這個例子：上世紀三十年代，美國的《文學文摘》有約240萬讀者。如果《文學文摘》要了解這個讀者群的性別結構與年齡結構，那麼只要財力人力允許，不抽樣、直接分析所有這240萬左右的數據是可行的。但是，如果要預測何人當選1936年總統，那麼認定「自己的讀者群」這個總體和「美國選民」這個總體根本特徵完全相同，就會差之毫釐謬以千里了。事實上，《文學雜志》的訂戶數量雖多，卻集中在中上層，並不能代表全體選民。與此相應，蓋洛普根據選民的人口特點來確定各類人群在樣本中的份額，建立一個5000人的樣本。在預測下屆總統這個問題上，採用這個小數據比採用《文學文摘》的大數據，更准確地把握了民意。

在GFT案例中，「GFT採集的搜索信息」這個總體，和「某流感疫情涉及的人群」這個總體，恐怕不是一個總體。除非這兩個總體的生成機制相同，否則用此總體去估計彼總體難免出現偏差。

進一步說，由於某個大數據是否是總體跟研究問題密不可分，在實證分析中，往往需要人們對科學抽樣下能夠代表總體的小數據有充分認識，才能判斷認定單獨使用大數據進行研究會不會犯「大數據自大」的錯誤。

（二）陷阱二：演算法演化

相比於「大數據自大」問題，演算法演化問題(algorithm dynamics)就更為復雜、對大數據在實證運用中產生的影響也更為深遠。我們還是借一個假想的故事來理解這一點。假定一個研究團隊希望通過和尚在朋友圈發布的信息來判斷他們對風險的態度，其中和尚遇到老虎的次數是甄別他們是否喜歡冒險的重要指標。觀察一段時間後該團隊發現，小和尚智空原來遇到老虎的頻率大概是一個月一次，但是從半年前開始，智空在朋友圈提及自己遇到老虎的次數大幅增加、甚至每天都會遇到很多隻。由於大數據分析不關心因果，研究團隊也就不花心思去追究智空為什麼忽然遇到那麼多老虎，而根據歷史數據認定小智空比過去更願意冒險了。但是研究團隊不知道的情況是：過去智空與老和尚同住，半年前智空奉命下山化齋；臨行前老和尚交代智空，山下的女人是老虎、遇到了快躲開。在這個故事裡，由於老和尚的叮囑，智空眼裡老虎的標准變了。換句話說，同樣是老虎數據，半年前老虎觀測數量的生成機制，和半年後該數據的生成機制是不同的。要命的是，研究團隊對此並不知情。

現實中大數據的採集也會遇到類似問題，因為大數據往往是公司或者企業進行主要經營活動之後被動出現的產物。以谷歌公司為例，其商業模式的主要目標是更快速地為使用者提供准確信息。為了實現這一目標，數據科學家與工程師不斷更新谷歌搜索的演算法、讓使用者可以通過後續谷歌推薦的相關詞快捷地獲得有用信息。這一模式在商業上非常必要，但是在數據生成機制方面，卻會出現使用者搜索的關鍵詞並非出於使用者本意的現象。

這就產生了兩個問題：第一，由於演算法規則在不斷變化而研究人員對此不知情，今天的數據和明天的數據容易不具備可比性，就像上例中半年前的老虎數據和半年後的老虎數據不可比一樣。第二，數據收集過程的性質發生了變化。大數據不再只是被動記錄使用者的決策，而是通過演算法演化，積極參與到使用者的行為決策中。

在GFT案例中，2009年以後，演算法演化導致搜索數據前後不可比，特別是「搜索者鍵入的關鍵詞完全都是自發決定」這一假定在後期不再成立。這樣，用2009年建立的模型去預測未來，就無法避免因過度擬合問題而表現較差了。

(三)、陷阱三：看不見的動機

演算法演化問題中，數據生成者的行為變化是無意識的，他們只是被頁面引導，點出一個個鏈接。如果在數據分析中不關心因果關系，那麼也就無法處理人們有意識的行為變化影響數據根本特徵的問題。這一點，對於數據使用者和對數據收集機構，都一樣不可忽略。

除掉人們的行為自發產生系統不知道的變化之外，大數據的評估標准對人們行為的影響尤為值得關注。再以智空為例。假定上文中的小和尚智空發現自己的西瓜信用分遠遠低於自己好友智能的西瓜信用分。智空很不服氣，經過仔細觀察，他認為朋友圈言論可能是形成差異的主因。於是他細細研究了智能的朋友圈。他發現，智能從不在朋友圈提及遇到老虎的事，而是常常宣傳不殺生、保護環境、貼心靈雞湯，並定期分享自己化齋時遇到慷慨施主的事。雖然在現實中，他知道智能喜好酒肉穿腸過、也從未見老和尚稱贊智能的化齋成果。智空茅塞頓開，從此朋友圈言論風格大變，而不久後他也滿意地看到自己的西瓜信用分大幅提高了。

如今，大數據常常倚重的一個優勢，是社交媒體的數據大大豐富了各界對於個體的認知。這一看法常常建立在一個隱含假定之上，就是人們在社交媒體分享的信息都是真實的、自發的、不受評級機構和各類評估機構標准影響的。但是，在互聯網時代，人們通過互聯網學習的能力大大提高。如果人們通過學習評級機構的標准而相應改變社交媒體的信息，就意味著大數據分析的評估標准已經內生於人們生產的數據中，這時，不通過仔細為人們的行為建模，是難以准確抓住的數據生成機制這類的質變的。

從數據生成機構來看，他們對待數據的態度也可能發生微妙的變化。例如，過去社交媒體企業記錄保存客戶信息的動機僅僅是本公司發展業務需要，演算法演化也是單純為了更好地服務消費者。但隨著大數據時代的推進，「數據為王」的特徵越來越明顯，公司逐漸意識到，自己擁有的數據逐漸成為重要的資產。除了可以在一定程度上給使用者植入廣告增加收入之外，還可以在社會上產生更為重要的影響力。這時就不能排除數據生成機構存在為了自身的利益，在一定程度上操縱數據的生成與報告的可能性。比如，在Facebook等社交媒體上的民意調查，就有可能對一個國家的政治走向產生影響。而民意調查語言的表述、調查的方式可以影響調查結果，企業在一定程度上就可以根據自身利益來操縱民意了。

簡而言之，天真地認為數據使用者和數據生成機構都是無意識生產大數據、忽略了人們行為背後趨利避害的動機的大數據統計分析，可能對於數據特徵的快速變化迷惑不解，即便看到模型預測表現差，也難以找到行之有效的克服方法。

四、前車之鑒

目前，我國高度重視大數據發展。2015年8月31日，國務院印發《促進大數據發展行動綱要》，系統部署大數據發展工作。《綱要》認為，大數據成為推動經濟轉型發展的新動力(310328,基金吧)、重塑國家競爭優勢的新機遇，和提升政府治理能力的新途徑。《綱要》指出，2018年底前，要建成國家政府數據統一開放平台，率先在信用、交通、醫療等重要領域實現公共數據資源合理適度向社會開放。與此相應，近年來多地成立了大數據管理局、業界學界對於大數據的分析利用也予以熱烈回應。因此，了解大數據分析的優勢與陷阱，對我國的經濟發展和實證研究具有極其重要的意義；而GFT項目折射出的大數據使用中可能存在的機會與問題，都值得關注。

(一) 防範「大數據自大」帶來的風險

GFT案例表明，如果認為大數據可以代替小數據，那麼過度擬合問題可以帶來巨大的估計誤差。這一點在「大眾創業、萬眾創新」的今天尤其需要關注。這是因為大數據作為目前「創新」最閃亮的新元素被高度推崇的，而我國經濟處於轉型時期的特徵，使企業或者機構面對的微觀數據不斷發生動態變化。如果在數據挖掘中忽略這些變化，往往要面臨過度擬合帶來的損失。

例如，我國P2P網貸行業採用的數據體量雖然大多達不到大數據要求的海量數據，但是不少企業熱衷採用爬蟲等技術從社交媒體挖掘信息用於甄別客戶。這些平台健康狀況，就可能與過度擬合的嚴重程度密不可分。根據中國P2P網貸行業2014年度運營簡報和2015年上半年的運營簡報，在圖一我們可以推算2006年到2004年間和2015年1-5月間月均新增問題平台數，並與2015年6月新增問題平台數作比較。[1]

新增問題平台的大幅增加原因雖然有多方面，但是從數據分析的角度看，由於還沒有合法的數據共享機制，P2P平台在甄別客戶質量時，往往只依靠自身渠道和從社交媒體等挖掘的數據，並採用數據挖掘方法建立相應建立模型。在數據分析中，不少P2P平台往往疏於查考自身樣本的代表性、也忽略宏觀經濟數據和其他微觀數據所包含的信息。由於互聯網金融公司出現時間短、又主要成長於經濟繁榮期，如果單單依賴有限的數據渠道，數據挖掘與機器學習過程對新常態下個體行為沒有足夠的認識，在經濟下行時仍然根據歷史數據而低估逾期率，導致高估平台健康狀況，最終不得不面對問題平台不斷增加的局面。

(二) 大數據和小數據齊頭並進大勢所趨

大數據和小數據各有優劣。簡而言之，小數據通常不會假定該數據就是總體，因此收集數據前往往需要確定收集數據的目標、根據該目標設計的問卷或者收集方法、確定抽樣框。在數據採集後，不同學者往往可以通過將新收集數據與不同數據的交叉驗證，來評估數據的可信度。小數據在收集上有變數定義清晰、數據生成機制基本可控、檢驗評估成本相對較低等優點，但是缺點是數據收集成本高，時間間隔長、顆粒度較粗。

大數據的優勢就包括數據體量大、收集時間短、數據類型豐富，顆粒度很細。但是，由於大數據往往是一些企業和機構經營活動的附帶產品，因此並不是通過精心論證的測度工具生成。另外，由於大數據的體量很大，交叉驗證數據的可信度、不同學者採用相同數據獨立研究以檢驗數據的前後一致性等工作難度較大。這些特點意味著大數據本身未必有科學研究要求的那樣准確、可靠，在數據分析中就需要對大數據適合研究的問題有較清晰的認識。

在與小數據互為補充推動研究與認知方面，大數據大有可為。將大數據與小數據相結合，可以大大提高數據的顆粒度和預測精度。比如對CDC流感發病率的預測研究發現，將GFT採用的大數據和CDC的歷史數據相結合的模型，其預測能力比單獨運用大數據或者小數據要好很多。

大數據往往可以實時生成，對於觀察特定社區的動態具有小數據無可替代的優勢。比如，美國在「九一一」之後，出於快速准確估計在某個特定小社區活動的人口的需要而啟動了「工作單位和家庭住址縱向動態(LEHD)」項目,該項目將人口普查數據、全國公司數據、個人申請失業保險、補貼、納稅等記錄聯通，可以對社區在短時間內的「新陳代謝」作出較為全面的刻畫。

這類的數據結合研究，對於了解我國社會經濟狀況的動態變化會十分重要。一個可能的應用是，將城市人口、工作狀態、性別、年齡、收入等小數據採集的信息，和實時產生的交通狀況相結合，來預測人們的出行特徵，來解決城市交通擁堵、治理霧霾等問題。另一個可能的應用是，推動人民銀行徵信中心個人徵信系統數據和民間徵信系統大數據的結合，建立高質量的中國個人徵信體系。

另外，我國經濟處於轉型時期，有不少政策亟需快速評估政策果效。以小數據為基礎，利用大數據數據量豐富的優勢，可以通過互聯網做一些隨機實驗，來評估一些政策的效果，也是可能的發展方向。

在過去的十多年中，我國在通過非官方渠道採集小數據、特別是微觀實證數據方面取得了長足進展。在多方努力下，更多經過嚴格科學論證而產生的數據可被公眾免費獲得並用於研究。例如，北京大學的「中國健康與養老追蹤調查」、「中國家庭追蹤調查」，都由經濟、教育、健康、社會學等多領域的專家協同參與問卷的設計和數據採集的質控。在這些努力下，小數據的生成機制更為透明，交叉驗證調查數據的可信度等實證研究的必要步驟也更為可行。

但是，目前在小數據的收集和使用、政府和有關機構的小數據開放運用方面，我國還有很大推進空間。只有在對涉及我國基本國情的小數據進行充分學習研究之後，我國學界和業界才能對經濟政治社會文化等領域的基本狀況有較清晰的把握。而這類的把握，是評估大數據質量、大數據可研究問題的關鍵，對推進大數據產業健康發展有舉足輕重的作用。

因此在政策導向上，為要實現大數據、小數據相得益彰推動經濟發展的目標，在促進發展大數據的同時也要大力發展小數據相關產業，推動小數據相關研究與合作，使大數據與小數據齊頭並進、互為補充。

（三）提高大數據使用的透明度，加強對大數據質量的評估

大數據面臨的透明度問題遠比小數據嚴重。在GFT案例中，Lazer等人指出，谷歌公司從未明確用於搜索的45個關鍵詞是哪些；雖然谷歌工程師在2013年調整了數據演算法，但是谷歌並沒有公開相應數據、也沒有解釋這類數據是如何搜集的。我國大數據相關企業的數據，也鮮有學者可以獲得並用於做研究的例子。

與透明度相關的就是大數據分析結果的可復制性問題。由於谷歌以外的研究人員難以獲得GFT使用的數據，因此就難以復制、評估採用該數據分析結果的可靠性。因此利用大數據的研究難以形成合力，只能處於案例、個例的狀態。

另外還要注意到，如果數據生成機制不清晰，研究結論難以復制，而演算法演化也表明，最終數據往往成為使用者和設計者共同作用的結果。這種數據生成的「黑箱」特徵，容易成為企業或者機構操縱數據生成過程和研究報告結果的溫床。唯有通過推動大數據的透明化、公開化，我們才能在大數據產業發展之初，建立健康的數據文化。

因此，在大數據時代，為了更好利用大數據，需要採取相關措施，增加在大數據生成過程的透明度方面的努力。例如，採取措施推進數據生成企業在妥善處理隱私信息後，定期公布大數據隨機抽樣數據、要求數據生成企業及時公布數據演算法的變更，鼓勵採用大數據的研究實現可復制性、便於交叉驗證等。

五、結語

目前有些流行觀點認為，在大數據時代，技術容許人們擁有了總體因此抽樣不再重要、另外由於數據挖掘術的進展，只需關心相關關系而不必再關心因果關系。而GFT的實例表明，即便谷歌公司用於GFT計算的是數十億的觀測值，也不能認為谷歌公司擁有了流感人群的總體。誤認為數據體量大就擁有了總體，就無法謙卑結合其他渠道的小數據，得到更為穩健的分析結論。而GFT估計的偏誤原因，從來都離不開人們的主動的行為-- 無論是谷歌公司自己認為的GFT的流行導致更多人使用該搜索、還是Lazer等人認為的演算法變化、丟棄異常值。因此，不明白數據生成機理變化的原因而只看相關關系的後果，於谷歌是GFT的計算偏誤丟了臉，而對熱情地投身於採用大數據到創新、創業中的中國民眾和相關機構來說，則可能是不得不面對事先沒有預備的重大經濟損失。

以上是小編為大家分享的關於從谷歌流感趨勢談大數據分析的光榮與陷阱的相關內容，更多信息可以關注環球青藤分享更多干貨

8. 大數據分析一般用什麼工具分析

首先我們要了解java語言和Linux操作系統，這兩個是學習大數據的基礎，學習的順序不分前後。樓主是JAVA畢業的，這無疑是極好的開頭和奠基啊，可謂是贏在了起跑線上，接收和吸收大數據領域的知識會比一般人更加得心應手。
Java ：只要了解一些基礎即可，做大數據不需要很深的Java 技術，學java SE 就相當於有學習大數據。基礎
Linux：因為大數據相關軟體都是在Linux上運行的，所以Linux要學習的扎實一些，學好Linux對你快速掌握大數據相關技術會有很大的幫助，能讓你更好的理解hadoop、hive、hbase、spark等大數據軟體的運行環境和網路環境配置，能少踩很多坑，學會shell就能看懂腳本這樣能更容易理解和配置大數據集群。還能讓你對以後新出的大數據技術學習起來更快。
好說完基礎了，再說說還需要學習哪些大數據技術，可以按我寫的順序學下去。
Hadoop：這是現在流行的大數據處理平台幾乎已經成為大數據的代名詞，所以這個是必學的。Hadoop裡麵包括幾個組件HDFS、MapRece和YARN，HDFS是存儲數據的地方就像我們電腦的硬碟一樣文件都存儲在這個上面，MapRece是對數據進行處理計算的，它有個特點就是不管多大的數據只要給它時間它就能把數據跑完，但是時間可能不是很快所以它叫數據的批處理。
記住學到這里可以作為你學大數據的一個節點。
Zookeeper：這是個萬金油，安裝Hadoop的HA的時候就會用到它，以後的Hbase也會用到它。它一般用來存放一些相互協作的信息，這些信息比較小一般不會超過1M，都是使用它的軟體對它有依賴，對於我們個人來講只需要把它安裝正確，讓它正常的run起來就可以了。
Mysql：我們學習完大數據的處理了，接下來學習學習小數據的處理工具mysql資料庫，因為一會裝hive的時候要用到，mysql需要掌握到什麼層度那?你能在Linux上把它安裝好，運行起來，會配置簡單的許可權，修改root的密碼，創建資料庫。這里主要的是學習SQL的語法，因為hive的語法和這個非常相似。
Sqoop：這個是用於把Mysql里的數據導入到Hadoop里的。當然你也可以不用這個，直接把Mysql數據表導出成文件再放到HDFS上也是一樣的，當然生產環境中使用要注意Mysql的壓力。
Hive：這個東西對於會SQL語法的來說就是神器，它能讓你處理大數據變的很簡單，不會再費勁的編寫MapRece程序。有的人說Pig那?它和Pig差不多掌握一個就可以了。
Oozie：既然學會Hive了，我相信你一定需要這個東西，它可以幫你管理你的Hive或者MapRece、Spark腳本，還能檢查你的程序是否執行正確，出錯了給你發報警並能幫你重試程序，最重要的是還能幫你配置任務的依賴關系。我相信你一定會喜歡上它的，不然你看著那一大堆腳本，和密密麻麻的crond是不是有種想屎的感覺。
Hbase：這是Hadoop生態體系中的NOSQL資料庫，他的數據是按照key和value的形式存儲的並且key是唯一的，所以它能用來做數據的排重，它與MYSQL相比能存儲的數據量大很多。所以他常被用於大數據處理完成之後的存儲目的地。
Kafka：這是個比較好用的隊列工具，隊列是干嗎的?排隊買票你知道不?數據多了同樣也需要排隊處理，這樣與你協作的其它同學不會叫起來，你干嗎給我這么多的數據(比如好幾百G的文件)我怎麼處理得過來，你別怪他因為他不是搞大數據的，你可以跟他講我把數據放在隊列里你使用的時候一個個拿，這樣他就不在抱怨了馬上灰流流的去優化他的程序去了，因為處理不過來就是他的事情。而不是你給的問題。當然我們也可以利用這個工具來做線上實時數據的入庫或入HDFS，這時你可以與一個叫Flume的工具配合使用，它是專門用來提供對數據進行簡單處理，並寫到各種數據接受方(比如Kafka)的。
Spark：它是用來彌補基於MapRece處理數據速度上的缺點，它的特點是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬碟。特別適合做迭代運算，所以演算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它，因為它們都是用JVM的。

9. 大數據時代,大數據概念,大數據分析是什麼意思

大數據概念就是指大數據，指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

大數據時代是IT行業術語。最早提出「大數據」時代到來的是全球知名咨詢公司麥肯錫，麥肯錫稱：「數據，已經滲透到當今每一個行業和業務職能領域，成為重要的生產因素。人們對於海量數據的挖掘和運用，預示著新一波生產率增長和消費者盈餘浪潮的到來。」

大數據分析是指對規模巨大的數據進行分析。大數據可以概括為4個V，數據量大(Volume)、速度快(Velocity)、類型多(Variety)、價值（Value）。

(9)谷歌大數據產品分析擴展閱讀：

大數據分析的實例應用：

數據分析成為巴西世界盃賽事外的精彩看點。伴隨賽場上球員的奮力角逐，大數據也在全力演繹世界盃背後的分析故事。

一向以嚴謹著稱的德國隊引入專門處理大數據的足球解決方案，進行比賽數據分析，優化球隊配置，並通過分析對手數據找到比賽的「制敵」方式；谷歌、微軟、Opta等通過大數據分析預測賽果...... 大數據，不僅成為賽場上的「第12人」，也在某種程度上充當了世界盃的"預言帝"。

大數據分析邂逅世界盃，是大數據時代的必然發生，而大數據分析也將在未來改變我們生活的方方面面。

導航:首頁 > 網路數據 > 谷歌大數據產品分析

谷歌大數據產品分析

與谷歌大數據產品分析相關的資料

友情鏈接