⑴ 大數據在今天這個時間點上爆發的原因有哪些
為如今互聯網發展特徵的大數據,在以雲計算為代表的技術創新大幕的襯托下,讓那些原本很內難收集和使用的容數據開始容易被利用起來了,通過各行各業的不斷創新,大數據會逐步為人類創造更多的價值,因此興起了「大數據」熱。
關於大數據的學習,線下學習費用高昂、地域限制,建議選擇線上平台。如今線上學習無論是就業還是教學均已完善。大數據開發技術讓大數據成為了2017年移動互聯網追逐的熱點。也引得很多領域外的人才紛紛轉投於大數據開發領域,扣丁學堂具有完整系統的大數據開發培訓視頻教程,頂級行內大牛為學員們設定了可視化的學習線路直通車,讓沒有學習方向的學子一目瞭然,最快的進入大數據領域大門。
⑵ 大數據發展的根基是什麼
大數據發展的根基是什麼
大數據活在「雲端」!唯有雲計算能讓大數據找到自己的軌跡和存在的真正價值;但大數據不是無根的浮雲,它有自己的根,源源不斷輸送數據的根。
那麼,大數據的「根」在哪裡?日前國務院出台的《促進大數據發展行動綱要》(以下簡稱《行動綱要》)或許可以讓我們找到答案。
《行動綱要》明確提出了促進大數據發展的三大重點任務和十項工程。三大重點任務之首即加快政府數據開放共享,推動資源整合;十項工程前四大工程涉及政府信息,即:政府數據資源共享開放工程、國家大數據資源統籌發展工程、政府治理大數據工程、公共服務大數據工程。不難發現,三大重點任務、十項工程的關鍵詞就是共享,而政府數據的開放共享是核心。
共享是大數據的「根」
大數據與雲計算,或許就像一枚神奇的金幣之正反面,讓許多人感覺「雲里霧里」、亦真亦幻,卻又能真切地感受到金幣的光芒。
什麼是大數據?按照維基網路的定義,大數據是指無法在可承受時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合。大數據的基本特點可以概括為「4V」:大量化(Volume)多樣化(Variety)、快速化(Velocity)、價值化(Value),即海量的數據規模、快速的數據流動和動態的數據體系、多樣的數據類型、巨大的數據價值。
而《大數據時代》的作者維克托·邁爾·舍恩伯格給出的解釋或許更易於理解,他認為,「大數據」並不是很大或者很多數據,並不是一部分數據樣本,而是關於某個現象的所有數據。比如說關於一家企業的數據信息,除了企業名稱、法定代表人、注冊資本、經營范圍等基本信息外,還包括財務信息、經營信息、外部關聯關系、誠信狀況等信息。大量、多維、立體、交織信息的匯集,就可以為不同主體、基於不同需求分析企業提供數據基礎。
如果將單個或局部領域的數據及其挖掘處理視為小數據,那麼關於某一主體的大數據就是由成千上萬、相互關聯、相互交織的小數據匯聚而成的。小數據的充分融合,就是大數據形成的根基。譬如一滴水,唯有與別的水滴融合在一起,才能形成水流,才能匯成江河、海洋,才能發揮水的價值。這種融合就是共享。沒有小數據的共享,就沒有大數據生長的「根」。
要從海量的數據中快速地分析、挖掘出有用的信息,單台計算機已難以勝任,必須採用分布式架構,依託雲計算的分布式處理、分布式數據和雲存儲、虛擬化技術,即透過網路將龐大的計算處理程序自動分拆成無數個較小的子程序,再交由多部伺服器所組成的龐大系統經搜尋、計算、分析之後將處理結果回傳給用戶。這就是與大數據相依相存的雲計算。顯然,如果沒有數據的共享,雲計算也是「無米之炊」。
當然,數據能否共享,涉及到數據的開放性、法律邊界、數據價值實現等問題,還面臨諸多現實障礙。
誰阻礙了數據共享?
當我們沉醉於大數據的奇妙與魔法無邊的時候,現實世界卻給了我們一記響亮的耳光!我們會沮喪地發現,許多政府公共信息仍處於零散、分割、封閉狀態!
各級政府部門在履職過程中掌握了大量的數據信息,其中涉及企業(個人)的數據最為豐富。目前普遍認為比較有用的企業信息大致包括四個方面。
一是反映企業基本情況的信息。包括:工商部門提供的企業注冊登記信息,注冊資本、股東及高管變更情況等;環保部門提供的企業環境違法處罰信息、環評審批、排污許可證和排污權抵押登記情況等;質監、安監、食品葯監、衛生等部門提供的各項資質信息。
二是反映企業真實經營狀況的信息。包括:稅務部門提供的企業應稅銷售額,納稅、退稅情況等;人力社保部門提供的企業社保繳納、勞動爭議情況、勞動保障書面審查信息等;海關部門提供的進出口信息、企業報關情況等;水、電、氣部門提供的繳費及欠費情況等。
三是反映企業及企業主資信狀況及守法情況的信息。包括:公安、法院等部門提供的企業或企業主的司法訴訟、執行、查封信息等;工商、環保、人社、稅務、質監、安監、食品葯監、衛生、海關等部門提供的處罰信息。
四是反映企業融資、財產抵質押、對外擔保等情況的信息。包括:人民銀行[微博]徵信系統提供的貸款、質押信息,工商部門提供的股權轉讓、抵押、查封信息等;房產部門提供的房地產權屬、抵押、查封、租賃信息等。
這些涉及企業的各種信息資源散落在不同的政府管理部門,總體處於彼此分割、孤立、封閉狀態,沒有實現數據之間的共享、連接和融合,更談不上大數據價值的體現。
盡管近年來,各級政府都在積極搭建公共信用信息平台,推動社會徵信體系建設,特別是《國務院關於印發社會信用體系建設規劃綱要(2014—2020年)的通知》出台後,步伐進一步加快,各部門也大多建立了自身的信息管理系統,但部門之間信息不共享或共享不充分仍是常態。即使有一些全國性、地區性的統一信息平台,如「全國企業信用信息公示系統」「信用浙江」等,所含企業信息也非常有限,且不完整、不及時。
這種信息割裂的狀態,不僅不利於大數據的發展,從眼前看,則對具體運用大數據的相關主體的發展形成阻礙。比如,銀行業在服務實體經濟特別是小微企業過程中,面臨的突出瓶頸之一,就是信息瓶頸。銀行業開展小微企業信貸業務面臨的最大困惑是信息不對稱。信息的不對稱使銀行在發放小微企業貸款時難免「如履薄冰」,顧忌甚多。因此,能否切實掌握和了解反映企業真實經營狀況、企業及企業主資信狀況等相關信息,在很大程度上決定了銀行對小微企業放貸的意願以及介入小微企業信貸領域的深度。
目前客觀存在的企業信息難共享之格局,根源在於部門利益。相關政府部門在參與公共信用信息平台建設時,出於種種原因,往往叫得響、做得少。一些部門出於自身商業利益,將自身所擁有的大量公共信息視為「私有財產」,以有償作為提供信息的條件;或以維護商業秘密、涉及部門機密為由,不願將擁有的、本屬於公共資源的企業信息與其他部門共享,或者象徵性地扔幾根「骨頭」,人為造成了企業信息的分割、殘缺,也造就了許多「僵屍」信息平台;有些信息的共享按說不應存在障礙,只因為一些數據擁有的部門感覺「吃力不討好」,缺乏主動提供數據的動力。
當然,也不排除個別地方政府從局部利益出發,對可能影響當地企業發展的行政處罰類負面、失信信息的公開加以阻擾,影響信息數據的共享。深層的原因,則是社會信用體系建設法制化步伐緩慢,公共信息徵集機制不健全,對相關部門提供、公開相關政務信息缺乏有效的約束,以及信用信息使用在公開與保密之間的法律邊界不清晰。
怎樣走向數據共享?
《行動綱要》把加快政府數據開放共享、推動資源整合列為首要任務,把推動政府數據資源共享開放工程、國家大數據資源統籌發展工程、政府治理大數據工程、公共服務大數據工程等工程建設作為促進大數據發展的基礎設施工程。說明政府高層對信息共享問題的高度關注。
顯然,推動數據共享的起點是政府部門間的信息共享,而這恰恰是難點所在。這是一個系統性艱巨工程,也是一個漸進的過程,既需要加快社會徵信體系的法制化進程,更需要政府及相關部門創新思維。
搭建統一、公開、透明的社會信用信息共享平台,有效整合政府各部門信息。對於擁有各種管理資源的政府而言,搭建一個比較完備的信息平台框架似乎並不難,難就難在能否實現信息的充分共享。如何讓信息平台所涉及的政府部門主動、及時、充分地將自身所擁有、可公開的數據信息共享到統一的信息平台,關鍵是要強化信息徵集的行政約束力,建立公共信息共享平台的保障機制。
在現行體制下,筆者以為政績考核「指揮棒」或是推動信息共享之「神器」。應以推動《社會信用體系建設規劃綱要(2014—2020年)》實施、落實政務公開制度為抓手,將公共信用信息共享系統數據信息的報送納入政府對相關部門的考核,前提是要充分研究和界定各類信息公開的法律邊界,特別是在對各類違法違規信息、不誠信行為信息的公開方面,應明確可以採取的共享方式和程度,以打消信息發布各方的顧慮。在此基礎上,制定清晰的公共信息共享清單,明確相應的責任與義務。
小數據不能共享,大數據必是空談。所以,看大勢、顧大局、破本位,推進小數據共享,是政府部門在大數據時代應有的思維。
以上是小編為大家分享的關於大數據發展的根基是什麼的相關內容,更多信息可以關注環球青藤分享更多干貨
⑶ 對大數據的全方位解讀
對大數據的全方位解讀
大數據是當下非常火爆的一個詞,人人都在談論大數據。但大數據的定義是什麼?它到底是如何出現的?它有什麼特別之處?它最大的應用領域在哪裡?它的發展方向是什麼?對於以上問題,其實大多數人是弄不清楚的。
1)大數據時代出現的必然性
大數據和雲計算這兩個詞經常被同時提到,很多人誤以為大數據和雲計算是同時誕生的、具有強綁定關系。其實這兩者之間既有關聯性,也有區別。雲計算指的是一種以互聯網方式來提供服務的計算模式,而大數據指的是基於多源異構、跨域關聯的海量數據分析所產生的決策流程、商業模式、科學範式、生活方式和關聯形態上的顛覆性變化的總和。大數據處理會利用到雲計算領域的很多技術,但大數據並非完全依賴於雲計算;反過來,雲計算之上也並非只有大數據這一種應用。
雲計算的起源可以追溯到 2003 年末 Amazon 公司工程師 Chris Pinkham 提交給 CEO Jeff Bezos 的一篇論文中的一個設想:將 Amazon 內部使用的計算基礎設施開放給全世界的開發者。次年 11 月,Amazon 發布了第一版雲計算服務:Simple Queue Service。Simple Queue Service 再往後發展至 2006 年,演變成立今天著名的 AWS(Amazon Web Sercice)。同在 2006 年,Google 公司 CEO Eric Schmidt 首次公開提出了「雲計算」(Cloud Computing)的這一概念,雲計算也在這一年開始變得廣為人知。
大數據這個詞的流行卻晚了好幾年——直到 2009 年,大數據這個說法才逐漸開始在互聯網圈內傳播。但僅僅在互聯網領域流行,仍然不足以引起普遍關注,因為純互聯網經濟畢竟只佔全球經濟總量的很小一部分。而大數據概念真正變得火爆,卻是因為美國奧巴馬政府在 2012 年高調宣布了其「大數據研究和開發計劃」——美國政府希望利用大數據解決一些政府部門面臨的非常重要的問題,該計劃由橫跨 6 個政府部門的 84 個子課題組成。這標志著大數據真正開始進入主流的傳統線下經濟。
大數據出現的時間點自有它深刻的原因。2009 年至 2012 年這段時間正是電子商務在包括中國在內的全球全面開花的幾年。眾所周知,互聯網領域有 3 大類商業模式:廣告、游戲和電子商務。而電子商務又是第 1個真正將純互聯網經濟與傳統經濟嫁接在一起誕生的混合模式。准確地說,正是互聯網與傳統經濟的碰撞,才真正催生出了今天幾乎全民關注的「大數據」。大數據橫跨了互聯網產業與傳統產業,而且大數據真正廣闊的應用領域其實也正是比純互聯網經濟大得多的傳統產業。
從數據量的角度來看,在電子商務模式出現以前,傳統企業的數量增長緩慢。傳統企業的數據倉庫中的數據大多數來自於交易型數據,而交易這種行為處於用戶消費決策漏斗的最底部,這就決定了交易前的各種瀏覽、搜索、比較等用戶行為數據的都量遠遠超過交易數據。電子商務模式使得企業可以採集到用戶的瀏覽、搜索、比較等行為,這就導致企業的數據規至少提升了一個數量級。現在日益流行的移動互聯網以及將來會流行的物聯網又必將使數據量提高兩三個數量級。從這個角度來講,大數據時代是必然會出現的。
從IT產業的發展來看,第一代IT巨頭大多是 2B 的,比如 IBM、Microsoft、Oracle、SAP 這類傳統IT企業;第二代IT巨頭大多是 2C 的,比如 Yahoo、Google、Amazon、Facebook 這類互聯網企業。一個有意思的現象是:大數據時代前,這兩類公司彼此之間基本是井水不犯河水,我們很少看見這兩類公司的老闆們在一起坐而論道;但在當前這個大數據時代,這兩類公司已經開始直接競爭。比如 Amazon 已經開始提供雲模式的數據倉庫服務,直接搶占 IBM、Oracle 的市場。這個現象出現的本質原因是:在互聯網巨頭的帶動下,傳統IT巨頭的客戶普遍開始從事電子商務業務,正是由於客戶進入了互聯網,所以傳統IT巨頭們不情願地被拖入了互聯網領域。如果他們不進入互聯網,他們業務必將萎縮。所以第三代IT巨頭可能會是 2B 與 2C 融合的IT公司。
2)大數據的核心內涵
大數據概念雖然非常火爆,但少有人真正理解大數據的核心內容。一個普遍而且嚴重的誤解就是:大數據= 數據大,即大數據就是量大的數據。事實上,除了數據量大這個字面意義,大數據還有兩個更重要的特徵:
1) 跨領域數據的交叉融合。相同領域數據量的增加是加法效應,不同領域數據的融合是乘法效應
2) 數據的流動。數據必須流動,流動產生價值
對於第 1) 點,百分點推薦系統研究中心實驗結果顯示:百分點公司有 3 家客戶,分別是從事服裝、化妝品和箱包銷售的電商,百分點向這 3 家客戶提供個性化商品推薦服務,即:百分點挖掘用戶的偏好,不同的用戶上同一家電商網站時,向他們展現不同的服裝、化妝品或箱包,從而提高電商的轉化率和客單價。我們做過兩種測試:
a) 將每家網站的數據隔離。當每家網站自身的數據量增加到以前的 4 倍時,推薦效果大約能提高 5%;
b) 將三家網站的數據在去除敏感信息之後進行某種融合。融合後的數據大致是與單家網站的數據的 3 倍,比第一種情況數據量還少。但利用融合後的數據進行數據挖掘時,推薦效果能提升 30%,而且推薦商品並未發生變化,仍然是:用戶上服飾類網站時只看見服裝、上化妝品網站時只看見化妝品、上箱包網站時只看見箱包。
解釋得詳細一點,上述實驗說明:對同一個消費者,如果我們要向其推薦服裝。第一種方法是我們根據他過去的 4 次購買服裝的行為來預測其下一次可能會購買的服飾;第二種方法是我們根據他過去分別購買服裝、化妝品和箱包的各 1 次行為來預測其下一次可能會購買的服飾。兩種方法的基於的用戶行數分別是 4 次和 3 次,但第二種方法的效果明顯更好。
對於第 2) 點,其實 10 多年前傳統企業開始做數據倉庫時,數據倉庫從業者經常強調一個觀點:企業級數據倉庫的目標是讓不同部門的數據流動起來,各個部門數據割裂,數據的價值就得不到發揮。到了今天的互聯網時代,我們發現即使企業已經打通了內部各個部門之間的數據,但與整個互聯網比起來,數據量仍然微乎其微,數據應該以互聯網為媒介在企業之間某種形式的流動。參照「企業級數據倉庫」的概念,現在已經開始出現了「互聯網數據倉庫」的概念:就是企業通過互聯網渠道將與自己相關的外部數據與內部數據進行整合,從而形成「互聯網數據倉庫」。百分點已經在零售與媒體領域比較成功地打造了「開放數據聯盟」,該聯盟的成員可以在公允、安全的情況下基於該聯盟建立起自己的「互聯網數據倉庫」,從而享用海量數據的價值。
3)大數據的應用領域
大數據的起源要歸功於互聯網與電子商務,但大數據最大的應用前景卻在傳統產業。一是因為幾乎所有傳統產業都在互聯網化,二是因為傳統產業仍然占據了國家 GDP 的絕大部分份額。
哪些傳統企業最需要大數據服務呢?至少有 3 類企業:
1) 對大量消費者提供產品或服務的企業
2) 做小而美模式的中長尾企業
3) 面臨互聯網壓力之下必須轉型的傳統企業
第 1) 類企業都需要利用大數據精準分析不同消費者的偏好,提高營銷和服務的質量;第 1) 類企業都需要利用大數據分析精準定位自己的客戶群;第 3) 類企業主要指哪些正在遭受來自互聯網的新玩家沖擊的傳統企業,此類企業自然都需要利用互聯網和大數據作為自我進化的工具。當然,第 3) 類企業與前 2 類企業有重疊。
具體來講,中國最需要大數據服務的行業就是受互聯網沖擊最大的產業,首先是線下零售業,其次是金融業。
受電商的沖擊,國內很多零售巨頭都增長嚴重放緩,甚至遭遇負增長,線下零售已經到了不得不變革的危機關頭。我們也看到了銀泰百貨、王府井百貨、萬達集團這些具有創新意識的傳統巨頭開始利用互聯網和大數據來改造線下商業。其中銀泰百貨以手機為載體、利用 O2O 方式進行雙線數據挖掘的創新非常值得借鑒。
而金融行業就更加特殊:金融業並不銷售任何實體商品,它自誕生起就是基於數據的產業。由於國家管制,金融業在前幾年享受了非常好的政策紅利,內部變革動力不足。而目前金融業已經逐漸開始放鬆管制,新興的金融機構必將利用互聯網以及大數據工具向傳統金融巨頭發起猛烈攻擊。而傳統金融機構在互聯網方面的技術積累和數據積累都不足,要快速應對新進入者的挑戰,必然需要大數據服務。我們也看到了中信銀行信用卡中心、招商銀行信用卡中心已經在開始利用互聯網大數據進行創新。
那麼傳統產業需要什麼樣的大數據服務呢?這主要包括 3 層:
1) 基於大數據的行業垂直應用。每個行業都有自己的特點,所以自然會存在行業應用的需求;
2) 顧客標簽與商品標簽的整理。不管什麼行業,都需要精細化整理自己顧客的屬性標簽以及商品屬性標簽,而且這些標簽必須能夠細化到單個顧客和單個商品。標簽是行業應用的基礎;
3) 企業內部和外部數據的整合與管理。要給顧客和商品打標簽,首先必須整合企業內部和外部數據,尤其是日益重要和龐大的外部數據。
圖:傳統企業需要的大數據服務
第 3 層和第 2 層的方法相對比較通用,行業特殊性相對較少。百分點已經在第 3 層和第 2 層做出了比較成熟的產品,並且也開始在第 1 層做出了一些具體的行業應用產品,比如針對服飾行業的時尚服飾搭配系統。
4)大數據的發展方向
大數據產業未來會向什麼方向發展?隨著數據逐漸成為企業的一種資產,數據產業會向傳統企業的供應鏈模式發展,最終形成「數據供應鏈」。拿鋼鐵產業來講,鐵礦石公司從礦場中挖出礦石,經過粗加工,賣給鋼鐵企業;鋼鐵企業再進行精細一點的加工,將板材、鋼條賣給下游製造業公司;這些製造業公司做出汽車、飛機、門窗、電腦等產品賣給下游公司。這個產業鏈中存在找礦、運輸、加工等諸多環節,每個環節都有對應的企業。
圖:傳統企業的供應鏈
在「數據供應鏈」中,存在數據、數據整合與挖掘工具以及數據應用這 3 大環節。數據就好比礦場的礦石;數據整合與挖掘工具就好比鋼廠的冶煉爐;而精準營銷、服飾搭配等數據應用就好比汽車、電腦等可以出售給消費者的產品。企業在數據供應、數據整合與挖掘、數據應用等所有環節都需要專業的服務。這里尤其有兩個明顯的現象:
1) 外部數據的重要性日益超過內部數據。在互聯互通的互聯網時代,單一企業的內部數據與整個互聯網數據比較起來只是滄海一粟;
2) 能提供包括數據供應、數據整合與加工、數據應用等多環節服務的公司會有明顯的綜合競爭優勢。
5) 什麼樣的大數據企業會勝出
常有大數據從業者以及投資人和我們探討一個問題:大數據產業中,什麼樣的企業會最終勝出?這是一個很難回答的問題,而且即使回答了,三五年內可能都無法判斷其正確性。但從「數據供應鏈」中的各個環節來分析,還是可以得出一些具有參考價值的結論。
1) 數據供應。在互聯網沒有流行的時代,企業做數據倉庫、商業智能、數據挖掘等系統時採用的數據基本都來自於企業內部,企業幾乎無法獲取外部數據,所以很少有專業的數據供應商。互聯網改變了這一局面,將來會有專業的數據供應商。但既然是因為互聯網的出現導致了數據供應商的出現,那麼反過來數據供應商就必須具有很強的互聯網基因;
2) 數據整合與挖掘。數據挖掘工具供應商在非互聯網時代就早已存在。但互聯網時代使得企業的數據量激增、數據類型發生極大變化(不同於傳統的來自於單一領域的結構化數據,互聯網數據以跨域的非結構化數據為主),傳統的數據挖掘工具供應商的技術和方法已經很難適應。要跟上時代的變化,數據挖掘技術與工具應用商必須具備互聯網公司的海量數據處理和挖掘的能力;
3) 數據應用。具體的行業應用與傳統行業的業務關系密切,要做好行業應用,最好需要有服務傳統行業的經驗,了解傳統行業的內部運作模式。這時候僅僅具有 2C 經驗的互聯網基因的公司又稍顯不足。
綜合起來看,如果一家大數據從業公司同時兼備互聯網數據獲取能力、互聯網技術、互聯網執行力,又有做 2B 服務的經驗,那麼這家公司將比較容易取得領先優勢。這個結論其實一點也不奇怪:如本文開篇所述,大數據本來就是互聯網與傳統產業碰撞時的產物。
用「方興未艾」這個詞來形容大數據產業的發展階段都還為時過早,目前的大數據產業只能說是小荷才露尖尖角。國內企業在第 1 代IT產業(硬體和軟體產業)中是明顯落後國外企業的;在第 2 代IT產業(互聯網產業)中,國內企業已經與國外企業差距不大甚至在很多方面超過了國外企業;希望在第 3 代IT產業(雲計算和大數據)浪潮中,國內企業能夠完全趕上並且超過國外企業,我們也認為這是很有可能的。
⑷ 大數據時代已經到來,什麼是大數據
大數據時代已經到來,什麼是大數據
大數據時代已經到來,你了解嗎?什麼是大數據?一、大數據出現的背景進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。它已經上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的證券公司等寫進了投資推薦報告。數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然現在企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識 到數據對企業的重要性。大數據時代對人類的數據駕馭能力提出了新的挑戰,也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。最早提出大數據時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的 挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」「大數據」在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日, 卻因為近年來互聯網和信息行業的發展而引起人們關注。大數據在互聯網行業指的是這樣一種現象:互聯網公司在日常運營中生成、累積的用戶網路行為數據。這些數據的規模是如此龐大,以至於不能用G或T來衡量,大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。二、什麼是大數據?信息技術領域原先已經有「海量數據」、「大規模數據」等概念,但這些概念只著眼於數據規模本身,未能充分反映數據爆發背景下的數據處理與應用需求,而「大數據」這一新概念不僅指規模龐大的數據對象,也包含對這些數據對象的處理和應用活動,是數據對象、技術與應用三者的統一。1、大數據(bigdata),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。大數據對象既可能是實際的、有限的數據集合,如某個政府部門或企業掌握的資料庫,也可能是虛擬的、無限的數據集合,如微博、微信、社交網路上的全部信息。大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,「大數據」指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶採用非傳統處理方法的數據集。亞馬遜網路服務(AWS)、 大數據科學家JohnRauser提到一個簡單的定義:大數據就是任何超過了一台計算機處理能力的龐大數據量。研發小組對大數據的定義:「大數據是最大的 宣傳技術、是最時髦的技術,當這種現象出現時,定義就變得很混亂。」Kelly說:「大數據是可能不包含所有的 信息,但我覺得大部分是正確的。對大數據的一部分認知在於,它是如此之大,分析它需要多個工作負載,這是AWS的定義。2、大數據技術,是指從各種各樣類型的大數據中,快速獲得有價值信息的技術的能力,包括數據採集、存儲、管理、分析挖掘、可視化等技術及其集成。適用於大數據的技術,包括大規模並行處理(MPP)資料庫,數據挖掘電網,分布式文件系統,分布式資料庫,雲計算平台,互聯網,和可擴展的存儲系統。3、大數據應用,是 指對特定的大數據集合,集成應用大數據技術,獲得有價值信息的行為。對於不同領域、不同企業的不同業務,甚至同一領域不同企業的相同業務來說,由於其業務 需求、數據集合和分析挖掘目標存在差異,所運用的大數據技術和大數據信息系統也可能有著相當大的不同。惟有堅持「對象、技術、應用」三位一體同步發展,才 能充分實現大數據的價值。當你的技術達到極限時,也就是數據的極限」。大數據不是關於如何定義,最重要的是如何使用。最大的挑戰在於哪些技術能更好的使用數據以及大數據的應用情況如何。這與傳統的資料庫相比,開源的大數據分析工具的如Hadoop的崛起,這些非結構化的數據服務的價值在哪裡。三、大數據的類型和價值挖掘方法1、大數據的類型大致可分為三類:1)傳統企業數據(Traditionalenterprisedata):包括 CRM systems的消費者數據,傳統的ERP數據,庫存數據以及賬目數據等。2)機器和感測器數據(Machine-generated/sensor data):包括呼叫記錄(CallDetail Records),智能儀表,工業設備感測器,設備日誌(通常是Digital exhaust),交易數據等。3)社交數據(Socialdata):包括用戶行為記錄,反饋數據等。如Twitter,Facebook這樣的社交媒體平台。2、大數據挖掘商業價值的方法主要分為四種:1)客戶群體細分,然後為每個群體量定製特別的服務。2)模擬現實環境,發掘新的需求同時提高投資的回報率。3)加強部門聯系,提高整條管理鏈條和產業鏈條的效率。4)降低服務成本,發現隱藏線索進行產品和服務的創新。四、大數據的特點業界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數據的特徵。具體來說,大數據具有4個基本特徵:1、是數據體量巨大數據體量(volumes)大,指代大型數據集,一般在10TB規模左右,但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量; 網路資料表明,其新首頁導航每天需要提供的數據超過1.5PB(1PB=1024TB),這些數據如果列印出來將超過5千億張A4紙。有資料證實,到目前 為止,人類生產的所有印刷材料的數據量僅為200PB。2、是數據類別大和類型多樣數據類別(variety)大,數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化 數據范疇,囊括了半結構化和非結構化數據。現在的數據類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數據,個性化數據占絕對多數。3、是處理速度快在數據量非常龐大的情況下,也能夠做到數據的實時處理。數據處理遵循「1秒定律」,可從各種類型的數據中快速獲得高價值的信息。4、是價值真實性高和密度低數據真實性(Veracity)高,隨著社交數據、企業內容、交易與應用數據等新數據源的興趣,傳統數據源的局限被打破,企業愈發需要有效的信息之力以確保其真實性及安全性。以視頻為例,一小時的視頻,在不間斷的監控過程中,可能有用的數據僅僅只有一兩秒。五、大數據的作用1、對大數據的處理分析正成為新一代信息技術融合應用的結點移動互聯網、物聯網、社交網路、數字家庭、電子商務等是新一代信息技術的應用形態,這些應用不斷產生大數據。雲計算為這些海量、多樣化的大數據提供存儲和運算平台。通過對不同來源數據的管理、處理、分析與優化,將結果反饋到上述應用中,將創造出巨大的經濟和社會價值。大數據具有催生社會變革的能量。但釋放這種能量,需要嚴謹的數據治理、富有洞見的數據分析和激發管理創新的環境(Ramayya Krishnan,卡內基·梅隆大學海因茲學院院長)。2、大數據是信息產業持續高速增長的新引擎面向大數據市場的新技術、新產品、新服務、新業態會不斷涌現。在硬體與集成設備領域,大數據將對晶元、存儲產業產生重要影響,還將催生一體化數據存儲處理伺服器、內存計算等市場。在軟體與服務領域,大數據將引發數據快速處理分析、數據挖掘技術和軟體產品的發展。3、大數據利用將成為提高核心競爭力的關鍵因素各 行各業的決策正在從「業務驅動」 轉變「數據驅動」。對大數據的分析可以使零售商實時掌握市場動態並迅速做出應對;可以為商家制定更加精準有效的營銷策略提供決策支持;可以幫助企業為消費 者提供更加及時和個性化的服務;在醫療領域,可提高診斷准確性和葯物有效性;在公共事業領域,大數據也開始發揮促進經濟發展、維護社會穩定等方面的重要作 用。4、大數據時代科學研究的方法手段將發生重大改變例如,抽樣調查是社會科學的基本研究方法。在大數據時代,可通過實時監測、跟蹤研究對象在互聯網上產生的海量行為數據,進行挖掘分析,揭示出規律性的東西,提出研究結論和對策。六、大數據的商業價值1、對顧客群體細分「大數據」可以對顧客群體細分,然後對每個群體量體裁衣般的採取獨特的行動。瞄準特定的顧客群體來進行營銷和服務是商家一直以來的追求。雲存儲的海量數據和「大數據」的分析技術使得對消費者的實時和極端的細分有了成本效率極高的可能。2、模擬實境運用「大數據」模擬實境,發掘新的需求和提高投入的回報率。現在越來越多的產品中都裝有感測器,汽車和智能手機的普及使得可收集數據呈現爆炸性增長。Blog、Twitter、Facebook和微博等社交網路也在產生著海量的數據。雲計算和「大數據」分析技術使得商家可以在成本效率較高的情況下,實時地把這些數據連同交易行為的數據進行儲存和分析。交易過程、產品使用和人類行為都可以 數據化。「大數據」技術可以把這些數據整合起來進行數據挖掘,從而在某些情況下通過模型模擬來判斷不同變數(比如不同地區不同促銷方案)的情況下何種方案 投入回報最高。3、提高投入回報率提高「大數據」成果在各相關部門的分享程度,提高整個管理鏈條和產業鏈條的投入回報率。「大數據」能力強的部門可以通過雲計算、互聯網和內部搜索引擎把」大數據」成果和「大數據」能力比較薄弱的部門分享,幫助他們利用「大數據」創造商業價值。4、數據存儲空間出租企業和個人有著海量信息存儲的需求,只有將數據妥善存儲,才有可能進一步挖掘其潛在價值。具體而言,這塊業務模式又可以細分為針對個人文件存儲和針對企業用 戶兩大類。主要是通過易於使用的API,用戶可以方便地將各種數據對象放在雲端,然後再像使用水、電一樣按用量收費。目前已有多個公司推出相應服務,如亞 馬遜、網易、諾基亞等。運營商也推出了相應的服務,如中國移動的彩雲業務。5、管理客戶關系客戶管理應用的目的是根據客戶的屬性(包括自然屬性和行為屬性),從不同角度深層次分析客戶、了解客戶,以此增加新的客戶、提高客戶的忠誠度、降低客戶流失 率、提高客戶消費等。對中小客戶來說,專門的CRM顯然大而貴。不少中小商家將飛信作為初級CRM來使用。比如把老客戶加到飛信群里,在群朋友圈裡發布新 產品預告、特價銷售通知,完成售前售後服務等。6、個性化精準推薦在運營商內部,根據用戶喜好推薦各類業務或應用是常見的,比如應用商店軟體推薦、IPTV視頻節目推薦等,而通過關聯演算法、文本摘要抽取、情感分析等智能分 析演算法後,可以將之延伸到商用化服務,利用數據挖掘技術幫助客戶進行精準營銷,今後盈利可以來自於客戶增值部分的分成。以日常的「垃圾簡訊」為例,信息並不都是「垃圾」,因為收到的人並不需要而被視為垃圾。通過用戶行為數據進行分析後,可以給需要的人發送需要的信息,這樣「垃圾簡訊」就成了有價值的信息。在日本的麥當勞,用戶在手機上下載優惠券,再去餐廳用運營商DoCoMo的手機錢包優惠支付。運營商和麥當勞搜集相關消費信息,例如經常買什麼漢堡,去哪個店消費,消費頻次多少,然後精準推送優惠券給用戶。7、數據搜索數據搜索是一個並不新鮮的應用,隨著「大數據」時代的到來,實時性、全范圍搜索的需求也就變得越來越強烈。我們需要能搜索各種社交網路、用戶行為等數據。其商業應用價值是將實時的數據處理與分析和廣告聯系起來,即實時廣告業務和應用內移動廣告的社交服務。運營商掌握的用戶網上行為信息,使得所獲取的數據「具備更全面維度」,更具商業價值。典型應用如中國移動的「盤古搜索」。七、大數據對經濟社會的重要影響1、能夠推動實現巨大經濟效益比如對中國零售業凈利潤增長的貢獻,降低製造業產品開發、組裝成本等。預計2013年全球大數據直接和間接拉動信息技術支出將達1200億美元。2、能夠推動增強社會管理水平大數據在公共服務領域的應用,可有效推動相關工作開展,提高相關部門的決策水平、服務效率和社會管理水平,產生巨大社會價值。歐洲多個城市通過分析實時採集的交通流量數據,指導駕車出行者選擇最佳路徑,從而改善城市交通狀況。3、如果沒有高性能的分析工具,大數據的價值就得不到釋放對大數據應用必須保持清醒認識,既不能迷信其分析結果,也不能因為其不完全准確而否定其重要作用。1) 由於各種原因,所分析處理的數據對象中不可避免地會包括各種錯誤數據、無用數據,加之作為大數據技術核心的數據分析、人工智慧等技術尚未完全成熟,所以對 計算機完成的大數據分析處理的結果,無法要求其完全准確。例如,谷歌通過分析億萬用戶搜索內容能夠比專業機構更快地預測流感暴發,但由於微博上無用信息的 干擾,這種預測也曾多次出現不準確的情況。2)必須清楚定位的是,大數據作用與價值的重點在於能夠引導和啟發大數據應用者的創新思維,輔助決策。簡單而言,若是處理一個問題,通常人能夠想到一種方法,而大數據能夠提供十種參考方法,哪怕其中只有三種可行,也將解決問題的思路拓展了三倍。所以,客觀認識和發揮大數據的作用,不誇大、不縮小,是准確認知和應用大數據的前提。八、總結不管大數據的核心價值是不是預測,但是基於大數據形成決策的模式已經為不少的企業帶來了盈利和聲譽。1、從大數據的價值鏈條來分析,存在三種模式:1)手握大數據,但是沒有利用好;比較典型的是金融機構,電信行業,政府機構等。2)沒有數據,但是知道如何幫助有數據的人利用它;比較典型的是IT咨詢和服務企業,比如,埃森哲,IBM,Oracle等。3)既有數據,又有大數據思維;比較典型的是Google,Amazon,Mastercard等。2、未來在大數據領域最具有價值的是兩種事物:1)擁有大數據思維的人,這種人可以將大數據的潛在價值轉化為實際利益;2)還未有被大數據觸及過的業務領域。這些是還未被挖掘的油井,金礦,是所謂的藍海。大 數據是信息技術與專業技術、信息技術產業與各行業領域緊密融合的典型領域,有著旺盛的應用需求、廣闊的應用前景。為把握這一新興領域帶來的新機遇,需要不 斷跟蹤研究大數據,不斷提升對大數據的認知和理解,堅持技術創新與應用創新的協同共進,加快經濟社會各領域的大數據開發與利用,推動國家、行業、企業對於 數據的應用需求和應用水平進入新的階段。
⑸ 人類社會的數據產生方式大致經歷了哪三個階段
數據產生方式歷經的階段
人類社會的數據產生方式大致經歷了以下3個階段:
1.運營式系統階段
資料庫的出現使得數據管理的復雜度大大降低,實際中資料庫大都為運營系統所採用,作為運營系統的數據管理子系統,如超市的銷售記錄系統、銀行的交易記錄系統、醫院病人的醫療記錄等,人類社會數據量第一次大的飛躍正是建立在運營式系統廣泛使用資料庫開始,這個階段最主要的特點是數據往往伴隨著一定的運營活動而產生並記錄在資料庫中,比如超市每銷售出一件產品就會在資料庫中產生相應的一條銷售記錄。這種數據的產生方式是被動的。
2.用戶原創內容階段
互聯網的誕生促使人類社會數據量出現第二次大的飛躍。但是真正的數據爆發產生於Web2.0時代,而Web 2.0 的重要標志就是用戶原創內容(User Generated Content,UGC)。這類數據近幾年一直呈現爆炸性增長,主要有兩個方面的原因。首先,以博客、微博為代表的新型社交網路的出現和快速發展,使得用戶產生數據的意願更加強烈;其次,以智能手機、平板電腦為代表的新型移動設備的出現,這些易攜帶、全天候接入網路的移動設備使得人們在網上發表自己意見的途徑更為便捷。這個階段數據的產生方式是主動的。
3.感知式系統階段
人類社會數據量第三次大的飛躍最終導致了大數據的產生,今天我們正處於這個階段。這次飛躍的根本原因在於感知式系統的廣泛使用。隨著技術的發展,人們已經有能力製造極其微小的帶有處理功能的感測器,並開始將這些設備廣泛布置於社會的運轉進行監控。這些設備會源源不斷的產生新數據,這種數據的產生方式是自動的。簡單來說,數據產生經歷了被動、主動和自動三個階段。這些被動、主動和自動的數據共同構成了大數據的數據來源,但其中自動式的數據才是大數據產生的根本原因。
⑹ 澶ф暟鎹鐜拌薄鏄鎬庢牱褰㈡垚鐨
澶ф暟鎹鐜拌薄鐨勫艦鎴愬師鍥犲備笅錛
1銆佸ぇ鏁版嵁鐜拌薄鐨勫艦鎴愭槸鐢變簬淇℃伅鎶鏈鐨勫揩閫熷彂灞曞拰騫挎硾搴旂敤錛屼互鍙婃暟鎹鐢熸垚銆佸瓨鍌ㄥ拰澶勭悊鑳藉姏鐨勬樉钁楁彁鍗囥
2銆佹暟瀛楀寲嫻娼錛氳繘鍏ヤ俊鎮鏃朵唬鍚庯紝浜轟滑鐨勭敓浜с佺敓媧誨拰紺句氦絳夊悇涓鏂歸潰閮芥棩鐩婃暟瀛楀寲銆傚ぇ閲忕殑鏁版嵁鍦ㄥ悇縐嶆椿鍔ㄤ腑浜х敓錛屽寘鎷浜掕仈緗戜笂鐨勬悳緔銆佺ぞ浜ゅ獟浣撶殑浣跨敤銆佺數瀛愬晢鍔$殑浜ゆ槗璁板綍銆佷紶鎰熷櫒鐨勬暟鎹絳夈傝繖浜涙暟鎹涓嶆柇縐緔錛屽艦鎴愪簡澶ф暟鎹鐨勫熀紜銆
3銆佹妧鏈榪涙ワ細闅忕潃璁$畻鏈烘妧鏈銆佸瓨鍌ㄦ妧鏈鍜岀綉緇滄妧鏈鐨勪笉鏂鍙戝睍錛屾暟鎹鐨勬敹闆嗐佸瓨鍌ㄥ拰浼犺緭鑳藉姏寰楀埌浜嗘瀬澶х殑鎻愬崌銆傝$畻鏈哄勭悊閫熷害鐨勫炲姞銆佸瓨鍌ㄨ懼囧歸噺鐨勬墿澶т互鍙婂藉甫緗戠粶鐨勬櫘鍙婏紝浣垮緱澶勭悊鍜屽垎鏋愬ぇ瑙勬ā鏁版嵁鎴愪負鍙鑳姐
7銆佺墿鑱旂綉鐨勫彂灞曪細鐗╄仈緗戞妧鏈浣垮緱鍚勭嶈懼囧拰浼犳劅鍣ㄨ兘澶熶簰鑱斾簰閫氾紝騫朵駭鐢熷ぇ閲忔暟鎹銆傞氳繃鐗╄仈緗戜腑鐨勪紶鎰熷櫒鍜岃懼囩敓鎴愮殑鏁版嵁錛屽彲浠ョ敤浜庡疄鏃剁洃嫻嬪拰鎺у埗銆佹櫤鑳藉喅絳栫瓑鏂歸潰銆傜墿鑱旂綉鐨勫ぇ瑙勬ā搴旂敤鎺ㄥ姩浜嗗ぇ鏁版嵁鐨勮繘涓姝ュ艦鎴愬拰搴旂敤銆
8銆佹斂搴滃拰浼佷笟鏁版嵁寮鏀撅細鏀垮簻鍜屼紒涓氬湪閫愭笎鎰忚瘑鍒版暟鎹鐨勯噸瑕佹э紝騫跺紑濮嬩富鍔ㄥ紑鏀句竴閮ㄥ垎鏁版嵁銆傝繖浜涘紑鏀劇殑鏁版嵁涓板瘜浜嗗ぇ鏁版嵁鐨勬潵婧愶紝浣垮緱鐮旂┒浜哄憳鍜屽紑鍙戣呰兘澶熸洿澶氬湴鍒╃敤鏁版嵁榪涜屽壋鏂板拰媧炲療銆