大數據障礙_如何進行大數據分析及處理

A. 什麼將阻礙大數據時代的數據治理

這件事情政府方面肯定還沒有辦法表態，我國目前還缺少數據資產歸屬權、使用權的立法。沒有界定網路上公開的商品價格數據，是屬於淘寶的呢，還是其他「看到」的公司都有權利分享。從大數據的本質來看，大數據時代應該秉承開放、分享的精神，才能充分發展大數據的巨大價值。這些價值不僅僅限於商業，而是涉及社會和經濟運行的方方面面。我認為三個問題阻礙了數據的治理：數據割據、數據孤島和數據質量（在我尚未出版的新書《大數據時代的歷史機遇》中有更詳盡的描述）。因為制度、地方主義、部門主義等人為因素造成數據分散的現象，就稱之為「數據割據」。因為技術差距、歷史遺留問題等形成的數據分散的現象，稱之為「數據孤島」。數據質量的好壞，直接影響數據資產的價值。數據質量主要包括數據的真實性、完整性、一致性。數據質量的解決非一日之功，需要技術、制度、文化等等方方面面的努力。數據割據現象更多存在於國家各部門、各地方之間；大型企業也會造成數據割據現象。數據割據明顯違背大數據時代精神。淘寶這個行為無疑加劇了數據割據現象，無助於聚合更大規模的數據，產生更具社會、經濟意義的應用。中國的互聯網經濟剛剛開始，在搜索、電子商務、娛樂、通信等領域展現勃勃生機。像網路、淘寶、騰訊等公司在日積月累的經營中，積累了大量的數據，無疑是他們的寶貴資產。他們利用這些數據，開發新的商業模式和服務類型，是社會之福。但是如果他們濫用先發優勢，加劇的數據割據現象，並危害到創新型企業的成長，這將是產業之悲，經濟之殤。大數據時代才剛剛拉開序幕，發生淘寶和八度之爭，個人認為是好事。

B. 大數據到底改變了什麼又阻礙了什麼呢

大數據到底改變了什麼?又阻礙了什麼呢
大數據時代，我們每個人的生活甚至任何的機構團體、商業組織都會或多或少的受到大數據的影響，那麼大數據到底改變了什麼？又阻礙了什麼呢？
當你生活的喜怒哀樂與微博結下不解之緣時，當Facebook的市值是它公司資產的數十倍時，當你在線購物習慣於看產品的評價時，驀然回首，大數據時代已經悄然而至，在未來，不管你願不願意與大數據發生任何關系，它都在那裡。
不但小孩子，似乎每個人都喜歡探索隱藏於事情表面之後的根本原因，像是一種征服後的滿足。我們習慣了知道了為什麼，才這樣做，同樣我們認知某個問題時，總是先做出假設然後努力實驗來驗證我們的假想。比如，我們在商店上貨時，如果我們不確切的知道男人回家的時候在賣啤酒的同時不忘老婆的囑咐給孩子買尿布，我們就不會不可思議的把尿布擺在啤酒旁邊。但是，在大數據時代，數據主宰著事實的真像，在我們對賬單進行數據關聯分析時，如果很大部分顧客的賬單上同時出現了啤酒和尿布，我們就會這樣做，而不是挖空心思去了解為什麼？所以，在大數據時代，我們不在必要弄清楚為什麼？我們所需要做的是通過分析關聯的數據，弄清楚事物間的聯系，用數據指引著我們作出決策，而不必去花費大量的時間去探尋事物背後繁蕪復雜的因果關系。
在大數據的時代，所有的數據將都是樣本，隨著科技的發展，我們有足夠存儲資源來存儲所有的數據，我們有逐漸成熟的技術來分析這些數據間的關系。這樣所作出的分析不但准確而且更全面，更有信服力。還記得IBM的「深藍」戰勝了國際象棋世界冠軍嗎？這就是大數據的不可戰勝，試想當棋盤上有一定量的棋子時，計算機就能枚舉出所有的情形，直到你輸為止，因為計算機以數據的形式存儲了所有在棋盤上每走一步後的所有可能結果。這便是大數據帶來的改變，如果說在大數據出現以前，演算法是唯一可以與人類媲美的藝術，那麼大數據出現之後，演算法在其面前只能望其項背。同樣，以往專家的字眼會讓我們覺得多少有點崇拜的光環，但是大數據時代，專家的概念將會得到弱化。IBM正在訓練其醫療機器人，這些機器人的學習能力猶如孫悟空可以將書本吞下一樣強。通過現代醫療檢測機器的檢查，人體的各項生理數據傳入機器人分析系統，當然他們的能力媲美相當一部分的醫生，更重要的是他們不會失誤，而是幫助專家在診斷失誤時給出提醒。
大數據改變了很多，但它總有它不利的一面。如果對於普通的人來說大數據是促進，那麼對喬布斯一樣的人來說，我想就是阻礙了。喬布斯堅定的認為普通的消費者根本不知道他們所渴望的產品的樣子，所以他才能做出iPhone那樣超出人們想像那樣的產品。然而，大數據所能做的可能就是事先洞察消費者的期望。所以當人們對大數據足夠依賴時，人們會沉醉於發現存在的未知和期待已知的現在，阻礙突破式的創新發展。

C. 如何看待大數據基因的問題

21世紀初，人類基因組計劃(HGP)發布了第一張人類基因草圖，人的基因組約有30億個鹼基對，意味著每一個人的基因組有3Gb以上的數據。該計劃曾與上世紀的曼哈頓計劃(原子彈製造)、阿波羅登月計劃並稱為三大科學計劃，為本世紀的一個里程碑式的科學工程。
15年過去了，基因組測序技術發展之快已經超乎人們的想像。十年前，這項技術還只是實驗室中一個「迷人」但又昂貴的研究工具。現在，它卻已經漸漸步入醫療界，成為一種略顯「尖端」的診斷技術。該技術也引領生物醫學領域進入大數據時代。
早前，曾有人預言，當個人基因組測序費用下降到1000美元時，就標志著我們的醫學將進入個體化醫療(Personalized Medicine)的時代。現在，這個目標已基本達到，隨著這項技術的迅猛發展和成本的扁平化，它已經開始給我們帶來了龐大的數據，包括基因組、蛋白組等各類組學(omics)的出現，也帶來了不少數據。
1. 海量數據的產生
剛過去的七八年間，我們儲存的個人基因組數據量已達到106規模，這個數量如此驚人，且這只是剛剛開始。每年Illumina公司的HiSeq X 10測序儀已經可以完成超過18000人的基因組測序工作，該測序系統已分布在全球頂尖測序中心，每天產生大量的數據。英國2014年也啟動了「十萬人基因組計劃」，美國和中國則宣布要完成多達一百萬人的基因組數據收集工作。
基因測序數據正在以更快的速度翻倍。2015年以後，以歷史累積的測序數據來看，每7個月就能翻一番， Illumina儀器測序所得的數據，每12個月就能翻一番；如果僅以摩爾定律來看，每18個月數據量就能翻一番。這種情況將帶來一個巨大的「數據黑洞」。圖片來自nature.com
以上所提及的，只是大數據時代下的一個縮影，現在面臨的還有其他數據。比如，伴隨基因組計劃的發展，人類蛋白組計劃和基因測序結果在醫療界的應用等也被逐步提出，它們也正在給大數據「添磚加瓦」。所謂人類蛋白組計劃，主要目的在於研究所有人類基因編碼產生的蛋白質。關於這個，我們來看一個研究者的故事。
美國斯坦福大學邁克爾?斯奈德(Michael Snyder)。
邁克爾·斯奈德(Michael Snyder)是美國斯坦福大學的一名分子遺傳學家。當他抱著好奇的心態測了自己的基因組後，得到了一些「驚喜」。他發現，自己是一名II型糖尿病易感基因的攜帶者，盡管在這之前，他並沒在自己身上發現任何此類疾病的風險因素，包括肥胖、家族病史等等。在接下來的14個月，斯奈德持續監控了自己體內相應RNA的活性和蛋白表達情況。在一次感染呼吸道病毒後，他發現自己體內的蛋白表達發生了變化，並且有相應的生物學通路被激活。接著，他被診斷出了糖尿病。看起來，這場病就是由這次病毒感染所觸發的。此後，他還在患上萊姆關節炎時，也監控了自己體內的蛋白表達變化。這時，他的研究已經產生了多達50Gb的數據，這還僅僅只是關於他個人的研究數據。當他將這項研究擴展至100個人時，並將研究目標擴展至13類「組學」(包括蛋白組、腸道菌群的轉錄組等等)，而實際上，按照他的計劃，要想真正做到預測疾病，還需要將研究對象增加至上百萬個病人。如此這樣，它將會帶來多大的數據量？
各種電子設備的普及以及健康數據記錄App的出現，給這個時代帶來了海量的數據，也給醫學界帶來了可觀的研究對象。過去的幾十年間，醫生如果要觀察病人的心血管健康情況，往往會給他們做這么一個小測試：讓他們在一段平緩、穩固的路上行走6分鍾，並記錄他們的行走距離。這個測試不僅可用於預測肺移植者的存活率，還可用於檢測肌肉萎縮的病程發展，甚至可以評估心血管患者的健康狀況。這種小測試已被運用於多項醫療研究中，但在過去，最大規模的醫療研究項目中，這種參與者也很少能達到一千人。
智能手機中健康類App的出現，從而能讓研究者獲取大量人群的數據。圖片來自nature.com
不過，這個情況近年來發生了很大的變化。在2015年3月進行的一項心血管研究中，研究者尤安·阿什利(Euan Ashley)在兩周時間內就拿到了6000個人的測試結果，這就得益於現在有數百萬計的人擁有智能手機和健身追蹤器。到了6月份，參與到這項研究中的人數達到了40000人，這僅僅依靠的是一款叫做「我的心臟計數」(My Health Counts，見上圖)的蘋果應用。有了這個應用軟體，阿什利甚至可以招募來自全球的參與者，獲取他們的測試結果。那樣的話，他得到的數據又將是多少？面對這個現狀，不少研究者表示，這些海量數據可能會淹沒現有的分析渠道，並對數據存儲提出前所未有的「高」要求。
2. 「大數據」時代下的挑戰
在群體基因組研究的浪潮下，雖然更多的人關注的僅僅只是整個基因組中的外顯子部分，即基因組中可編碼產生蛋白的部分，它佔到了整個基因組的1-5%，這能夠將需要分析的數據量減少到原來的1%。但即使在這種情況下，每年產出的數據量仍可達4000萬Gb。這就帶來了第一個難題，如何存儲這么大的數據量？
盡管這還只是這個領域最基本的問題，仍需要巨大的資源來解決。這就是近年來網路上最常出現的一個詞——雲(Cloud)出現的契機所在。這么大的數據量，必然無法僅僅保存在固定的設備上，需要藉助互聯網來實現，也即是所謂的「雲存儲」。此外，這些數據帶來的處理危機也是巨大的，電腦處理能力也將局限著它們的應用。這個問題的初步解決依然要依靠「雲」，也就是現在所謂的「雲計算」。
即使處理好了海量數據的存儲問題，我們還將迎來另一個更讓人頭痛的問題——這些數據說明了什麼？現在關於基因組學的臨床研究，往往聚焦於識別個人基因組中可擾亂基因功能的「小錯誤」，即所謂單核苷酸突變(single-nucleotide variants, SNPs)，即使這些突變往往存在於僅占基因組1%的外顯子區域，平均下來，依然有近13000個之多，而其中的2%已被預知可影響相應蛋白的變化，但要從中找出某類疾病的具體致病基因，仍是一個巨大的挑戰。
自奧巴馬提出了「精準醫學」的概念，這個方向就一路紅火。即使現在已經有了測序技術和分析工具這些手段，有了電子健康記錄這位「好幫手」，這種醫療方法的理想和現實之間仍然有著巨大的鴻溝。在這個領域，仍然存在多種障礙。比如，即使在電子健康記錄普及和新療法研發成功的前提下，想要依靠臨床醫生來實現這些療法，往往還需要對他們進行不間斷的培訓，以幫助他們在做醫學決定前了解足夠多的細節信息。
此外，電子健康記錄的不可共享性(即涉及到病人隱私的問題)，為精準醫療的實現設置了不小的障礙。很多時候，治療患者個體病例的特異性信息往往被患者個人和治療機構所把持，到不了研究者手裡，那麼就無法據此信息來改進一些治療方法，因此也就沒辦法實現對個人的「個體化醫療」。這些問題往往反映生物醫學領域需要信息處理專家的介入和幫助。遺憾的是，生物信息學家在學術領域也僅僅只佔很少的席位，更別提在醫學領域，還需要給他們提供更多的職位和機會。
3. 「大數據」帶來的機遇
有挑戰也必然會帶來機遇，這個機遇可以體現在生物醫學領域的多個方面，比如醫療界的診斷方法更新、疾病分型更新、醫葯界葯物開發新方向、醫學界疾病治療新方法，甚至生物學科基礎研究領域的新工具等等。
2013年，安吉麗娜·朱莉的故事轟動全球，為減少患上乳腺癌的風險，她進行了預防性的雙乳腺切除術，而這個決定是在她檢測到自身攜帶一種風險基因——BRCA基因後才做出的。這類基因能帶來顯著的致病風險，約有55-65%的乳腺癌患者攜帶有害的BRCA1基因突變，45%的攜帶BRCA2突變。對朱莉來說，雖然她攜帶的僅僅是前一個基因，已足以讓她做出預防性手術的決定。這個故事給出了一個鮮活的例子，就是如何把個體測序得到的數據與臨床診斷聯系在一起，這就好像人類正在從自己的基因組中找到這些失落的寶藏，從而幫助自己預防一些惡性疾病，但這只是這個時代所帶來的一個福利而已，並且只佔到很少的一部分。
以糖尿病為例，不精確的疾病分型，對於前期的預防和後期的治療都十分不利。之前，醫學界已經知道，有多達百餘種途徑可能導致糖尿病的發生，涉及到胰腺、肝臟、肌肉、大腦甚至脂肪的不同變化。現代通過基因的研究發現，對不同類型糖尿病而言，其致病基因十分多樣。這時，如果將這些不同亞型的糖尿病混為一談，就會讓人很難弄明白，為什麼攜帶同樣的基因突變，病人在面對同一治療方案時，會出現完全不同的治療效果。
正如生物化學家阿蘭·阿蒂(Alan Attie)所說的那樣，「從致病基因到體重、血糖水平等表型的出現這一過程，往往有許多步，其中每一步都可能發生基因突變，這最終會削弱基因和表型之間的聯系」。因此，只看錶型(即臨床症狀)和只看突變基因，得到的都只會是片面的結果。只有將兩者有機結合起來，才能更加深我們對疾病的了解，做到更精確地進行疾病分型，以便更容易「對症下葯」。
美國國立衛生研究院(NIH)曾發起一項大型項目，構建了癌症基因組資料庫(the Cancer Genome Altas，簡稱TCGA)，將所有癌症相關基因突變分類保存，共保存有250萬Gb的數據，這大大改進了研究者對各種類型癌症的認識。但僅僅這樣，對於提供了組織樣本的患者來說，並沒給他們的臨床經歷帶來太多改變。
與癌症治療相關的另一方面，是個人電子健康記錄及其病例的特異性信息。對很多研究者來說，如果能從醫院或個人手中得到這部分信息，就能夠卓有成效地進行癌症治療方案的改進。總體而言，只有在拿到測序大數據的基礎上，同時掌握病人的干預記錄(來自個人的電子健康記錄)和臨床特徵(來自醫療機構的臨床病理記錄)，才能最終做到「升級」腫瘤的臨床治療方案。
醫葯研發也能從大數據獲益良多，這無可厚非。在醫葯研發的世界裡，基因技術公司更傾向於進行長期的生物學研究，並將其聯繫到臨床數據上，以使得葯物能夠「對症下葯」到每個人身上，甚至會幫助制葯公司做出更「大膽」的研發決定，進行個性化定製免疫療法的研究。
以微生物菌群研究為例。現在就有人提出這樣的想法：什麼時候我們會想要研發出能改變體內微生物菌群的葯物呢？這些存在於我們腸道、皮膚表面和環境中的數以十億計的微生物，不僅影響我們是否患病，還會影響到葯物對疾病所產生的葯效。現在大部分對於微生物菌群研究得到的數據還只是針對小部分人群，但這是否也意味著一個不錯的研究方向？畢竟我們現在還缺乏一些穩定的測試手段，能讓我們以一種持續性的方法來改變微生物菌群，並對疾病發展產生有意義的影響。
對免疫學研究來說，大數據會帶來什麼？首先，有以下「組學」都可以對免疫學研究產生有利影響，包括：基因組、微生物組、表觀基因組、轉錄組、代謝組、通路組、細胞組和蛋白組。具體來說，比如對特定B細胞或T細胞所有抗體抗原分子的分析，這些分析結果(尤其是與能識別對應抗體的抗原決定簇的技術相結合)，可將臨床診斷、抗體葯物研發、疫苗研發上升到一個新高度，並能為自身抗原肽結合抗體提供新見解。
伴隨著荊棘的引路，往往也會引來好歌喉的夜鶯。大數據給我們帶來挑戰的同時，也帶來了機遇，尤其是對於一些惡性疾病(比如癌症)的治療。一種單一類型的腫瘤，往往就會伴隨著多樣化的基因突變，但隨著投入更多的時間和金錢，會得到更多的治療靶點。當大數據分析的精度越來越高時，對於整個疾病發生過程的了解也會越來越深入，有了「大數據分析」這項利器，更多的精準治療方案將會產生，幫助人們做出更好的選擇。

D. 大數據分析是什麼優缺點是什麼大數據的優缺點

數據分析是指抄用適當的襲統計分析方法對收集來的大量數據進行分析，將它們加以匯總和理解並消化，以求最大化地開發數據的功能，發揮數據的作用。數據分析是為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。
大數據分析的優點：能夠准備得出可靠信息，有助於企業發展，已經找到自己的方向；
缺點：信息透明化，大數據比你更了解你自己。
大數據優點：
(1)及時解析故障、問題和缺陷的根源，每年可能為企業節省數十億美元。
(2)為成千上萬的快遞車輛規劃實時交通路線，躲避擁堵。

(3)分析所有SKU，以利潤最大化為目標來定價和清理庫存。

(4)根據客戶的購買習慣，為其推送他可能感興趣的優惠信息。
(5)從大量客戶中快速識別出金牌客戶。
(6)使用點擊流分析和數據挖掘來規避欺詐行為。
大數據的缺陷：
當前，大部分中國企業在數據基礎系統架構和數據分析方面都面臨著諸多挑戰。根據產業信息網調查，目前國內大部分企業的系統架構在應對大量數據時均有擴展性差、資源利用率低、應用部署復雜、運營成本高和高能耗等缺陷。

E. 如何進行大數據分析及處理

探碼科技大數據分析及處理過程

聚雲化雨的處理方式

聚雲：探碼科技全面覆蓋各類數據的處理應用。以數據為原料，通過網路數據採集、生產設備數據採集的方式將各種原始數據凝結成雲，為客戶打造強大的數據存儲庫；
化雨：利用模型演算法和人工智慧等技術對存儲的數據進行計算整合讓數據與演算法產生質變反應化雲為雨，讓真正有價值的數據流動起來；
開渠引流，潤物無聲：將落下「雨水」匯合成數據湖泊，對數據進行標注與處理根據行業需求開渠引流，將一條一條的數據支流匯合集成數據應用中，為行業用戶帶來價值，做到春風化雨，潤物無聲。

F. 企業在大數據領域面臨的障礙要怎麼克服

樂思軟體整理：雖然大數據在很長一段時間備受企業青睞，但事實上，根據Square Root的數據顯示，只有40%的公司在真正意義上使用它。多年來，企業在大數據領域都面臨一些障礙，以下是四個主要障礙：

改變微弱且滯後

企業利用大數據來提高生產力並不是一蹴而就的，相反，我們可以把它視為企業基礎設施的根本架構，這就意味著在很短的時間內，大數據是不容易被替代的。盡管新興企業能夠很好地接受這一事實，但很多業界耕耘數年的傳統企業卻不得不開始重塑自己的大數據兼容性。

這是一個相對艱難的過程，一些成熟的企業正在試圖採取一些措施來適應不斷發展變化的外部環境。在實踐中，評估哪些業務可以從大數據中受益，哪些可以讓受眾和生產力互動發生變化等。

專家供不應求

大數據的新實踐在不斷證實，工具已經與技能的發展沒有太大的關系，並呼籲新一批數據專家來部署一些新的策略。然而，剛畢業的大學生由於大學基礎知識無法與實踐相融合，致使想要充分利用大數據的企業不得不接受行業內專家較高的成本需求，同時，競爭也是相對激烈的，但是很有必要。

企業不確定是否需要大數據的支持

不幸的是，很多企業正在以一種渴求的心態來利用大數據，但是如果你在不知道想要解決什麼問題的情況下獲取大數據，這將會是無用的。

然而，企業想要盡快獲取最有價值的大數據，必須要合理分配時間，仔細研究實際需要完成的任務，一般涉及從開發融合系統到數據實踐操作等。如果信息存在差距，大數據就會起到很重要的引導作用，你能在這個時候抓住關鍵，就能讓大數據為自己服務。

追求速率，造成數據冗餘

如果把大數據想像成一堆乾草，那麼，企業獲益的數據就是其中一種特定的乾草，正確使用大數據就是從一堆乾草中尋求正確的乾草類型，並進行提取。但是，很多企業沒有意識到這一點，總是認為所有的乾草都是有價值的、正確的，因此，企業常常使用太多的數據源、數據收集方法，並且投入太多的數據請求，這樣就會造成數據冗餘，沒有一個是精確的或是可操作的，混亂和錯誤也會進一步阻礙有益數據的發展。

為此，企業需要改進其使用大數據的方式，不宜太過追求數量，而忽視正確數據的價值。

G. 大數據在醫療行業的應用面臨的挑戰有哪些方面

1、數據質量
目前醫療數據的來源主要為醫療機構(例如、醫學葯學實驗室、醫療版康復中心等)和互聯網。權採集的數據范圍廣、維度高、類型種類繁多且不針對特定的問題。
2、不確定性的度量問題
目前比較成熟且進入實用階段的大數據模型多數都是面向葯廠和保險公司的。美國的醫療大數據應用中，面向醫生和患者業務通常較難，很難找到合適的切入點。面向企業的業務相對容易，尤其是針對保險公司和葯廠，而則相對難一些。由於大數據模型精度有限，在安全性要求極高的和醫生中其實用價值非常有限，例如，一個95%准確度的模型對醫生來說可能仍然不夠精確，因為醫生在決策時是針對患者個體的，而不是基於統計意義的。
另外，統計學習模型的可解釋性也較差，往往只有統計學家和計算機科學家才能精確完整地解釋模型，而對於模型真正的使用者如醫生和政府官員等存在巨大的障礙。

H. 請分析大數據在醫療行業的應用中面臨的挑戰有哪些方面

1、數據質量
目前醫療數據的來源主要為醫療機構(例如醫院、醫學葯學內實驗室、醫療康容復中心等)和互聯網。採集的數據范圍廣、維度高、類型種類繁多且不針對特定的問題。
2、不確定性的度量問題
目前比較成熟且進入實用階段的大數據模型多數都是面向葯廠和保險公司的。美國的醫療大數據應用中，面向醫生和患者業務通常較難，很難找到合適的切入點。面向企業的業務相對容易，尤其是針對保險公司和葯廠，而醫院則相對難一些。由於大數據模型精度有限，在安全性要求極高的醫院和醫生中其實用價值非常有限，例如，一個95%准確度的模型對醫生來說可能仍然不夠精確，因為醫生在決策時是針對患者個體的，而不是基於統計意義的。
另外，統計學習模型的可解釋性也較差，往往只有統計學家和計算機科學家才能精確完整地解釋模型，而對於模型真正的使用者如醫生和政府官員等存在巨大的障礙。

I. 大數據可否支持智慧城市健康發展面臨阻礙

智慧城市就是運用信息和通信技術手段感測、分析、整合城市運行核心系統的各項關鍵信息，從而對包括民生、環保、公共安全、城市服務、工商業活動在內的各種需求做出智能響應。其實質是利用先進的信息技術，實現城市智慧式管理和運行，進而為城市中的人創造更美好的生活，促進城市的和諧、可持續成長。隨著人類社會的不斷發展，未來城市將承載越來越多的人口。目前，我國正處於城鎮化加速發展的時期，部分地區「城市病」問題日益嚴峻。為解決城市發展難題，實現城市可持續發展，建設智慧城市已成為當今世界城市發展不可逆轉的歷史潮流。

「一號一窗一網」背後也是政府各部門打通信息，建立統一數據共享交換平台和政務服務信息系統，並實現集中與整合帶來的服務。

數據打通共享，確實是推動智慧城市落地的一個實實在在的舉措。雖然現在各種辦事信息都電子化了，但老百姓並不覺得省事。我們統計過，鄭州600個審批事項，需要提交的材料有5000多種，其中多次重復使用的證照，個人的有10多種，法人的也10多種。如果把這些證照的數據共享起來，減少老百姓重復遞交、重復錄入，那老百姓就感到落地了。

不過，從全國范圍看，在建設了城市的雲平台後，如何把數據從各部門拿上來打通共享，是智慧城市建設中一件相當困難的事。為什麼數據打通如此之難呢?這有歷史原因。多年來，政府已經以部門為主導，像「十二金」工程，構建了從上到下的垂直系統。如何打破「部門牆」，實現這些垂直系統的對接，將是一項長期工作。

智慧城市經常與數字城市、感知城市、無線城市、智能城市、生態城市、低碳城市等區域發展概念相交叉，甚至與電子政務、智能交通、智能電網等行業信息化概念發生混雜。對智慧城市概念的解讀也經常各有側重，有的觀點認為關鍵在於技術應用，有的觀點認為關鍵在於網路建設，有的觀點認為關鍵在人的參與，有的觀點認為關鍵在於智慧效果，一些城市信息化建設的先行城市則強調以人為本和可持續創新。總之，智慧不僅僅是智能。智慧城市絕不僅僅是智能城市的另外一個說法，或者說是信息技術的智能化應用，還包括人的智慧參與、以人為本、可持續發展等內涵。
金鵬信息智慧城市解決方案

J. 大數據應用模式及安全風險分析有哪些

當前各個領域數據生成速度逐漸加快，需要處理的數據量急劇膨脹。這些巨大的數據資源蘊藏著潛在的價值，需要對其進行有效的分析和利用。當前數據的特點除了數量龐大之外，數據類型也變得多樣化，其中包括了結構化數據、半結構化數據以及非結構化數據。這些數量龐大、種類繁多的海量數據，給傳統分析工具帶來了巨大的挑戰。當前對數據的分析不再是簡單的生成統計報表，而是利用復雜的分析模型進行深人的分析，傳統分析技術例如關系資料庫技術已經不能滿足其要求。在擴展性上，通過增加或更換內存、CPU、硬碟等設備原件以打一展單個節點的能力的縱向打一展(scale up)系統遇到了瓶頸;只有通過增加計算節點，連接成大規模集群，進行分布式並行計算和管理的橫向打一展(scale out )系統才能滿足大數據的分析需求[u。因此傳統工具在擴展性上遇到了障礙，必須尋求可靠的數據存儲和分析技術來分析和利用這些龐大的資源。利用雲計算平台搭建Hadoop計算框架成為當前處理大數據的主要手段。然而由於雲計算和Hadoop應用的特點和自身安全機制薄弱，不可避免地帶來了安全風險。
1、大數據應用模式
雲計算(Cloud Computing)是一種基於Internet的計算，是以並行計算(Parallel Computing )、分布式計算(Distributed Computing)和網格計算(Grid Compu-tin助為基礎，融合了網路存儲、虛擬化、負載均衡等技術的新興產物。它將原本需要由個人計算機和私有數據中心執行的任務轉移給具備專業存儲和計算技術的大型計算中心來完成，實現了計算機軟體、硬體等計算資源的充分共享[z}。企業或個人不再需要花費大量的費用在基礎設施的購買上，更不需要花費精力對軟硬體進行安裝、配置和維護，這些都將由雲計算服務商CSP( Cloud Service Provider)提供相應的服務。企業或個人只需按照計時或計量的方式支付租賃的計算資源。雲計算服務商擁有大數據存儲能力和計算資源，被視為外包信息服務的最佳選擇[31因此大數據的應用往往與雲計算相結合。
Hadoop是當前最廣為人知的大數據技術實施方案，它是Google雲計算中的Map/Rece}4}和GFS( Google File System)的開源實現。Hadoop提供了一種計算框架，其最為核心的技術是HDFS ( HadoopDistributed File System)以及MapReee } HDFS提供了高吞吐量的分布式文件系統，而MapReee是大型數據的分布式處理模型。Hadoop為大數據提供了一個可靠的共享存儲和分析系統[5-6 }v
盡管有一些組織自建集群來運行Hadoop，但是仍有許多組織選擇在租賃硬體所搭建的雲端運行Hadoop或提供Hadoop服務。例如提供在公有或私有雲端運行Hadoop的Cloudera，還有由Amazon提供的稱為Elastic MapReee的雲服務等f}l。因此將雲計算與Hadoop結合處理大數據已成為一種趨勢。
2、大數據安全風險分析
隨著大數據應用范圍越來越廣，對數據安全的需求也越來越迫切。
由於雲計算的特點是將數據外包給雲服務商提供服務，這種服務模式將數據的所有權轉移給了CSP，用戶失去了對物理資源的直接控制[A1。而雲中存儲的大數據通常是以明文的方式存在的，CSP對數據具有底層控制權，惡意的CSP有可能在用戶不知情的情況下竊取用戶數據，而雲計算平台亦可能受到攻擊致使安全機制失效或被非法控制從而導致非授權人讀取數據，給大數據安全帶來了威脅。
Hadoop在設計之初並未考慮過安全問題，在Ha-doop 1. 0. 0和Cloudera CDH3版本之後，Hadoop加人了Kerberos的身份認證機制和基於ACL的訪問控制機制[91。即使在安全方面增加了身份認證和訪問控制策略，Hadoop的安全機制仍然非常薄弱，因為Ker-beros的認證機制只應用於客戶機(Clients )、密鑰分發中心(I}ey Distribution Center, I}DC )、伺服器(Serv-er)之間，只是針對機器級別的安全認證，並未對Ha-doop應用平台本身進行認證[}o}。而基於ACL的訪問控制策略需要通過在啟用ACL之後，對hadoop-policy. xml中的屬性進行配置，其中包括9條屬性，它們限制了用戶與組成員對Hadoop中資源的訪問以及Datanode和Namenode或Jobtracke:和Tasktrackers等節點間的通信，但該機制依賴於管理員對其的配置[川，這種基於傳統的訪問控制列表容易在伺服器端被篡改而不易察覺。而且基於ACL的訪問控制策略粒度過粗，不能在MapRece過程中以細粒度的方式保護用戶隱私欄位。況且針對不同的用戶和不同應用，訪問控制列表需要經常作對應的更改，這樣的操作過於繁瑣且不易維護。因此Hadoop自身的安全機制是不完善的。
2.1 不同應用模式下CSP及Uers帶來的安全風險
雲計算中Hadoop有多種應用模式。在私有雲中搭建Hadoop，即企業自己應用Hadoop，使用該平台的是企業內部各個部門的員工，外部人員無法訪問和使用這些資源。這時的CSP指的是Hadoop的創建和管理者，IaaS級和PaaS級CSP為相同的實體;在公有雲平台應用Hadoop , C SP有2級，IaaS級CSP，提供基礎設施;PaaS級C SP，負責Hadoop的搭建和管理。這時兩級CSP往往是不同的實體。

導航:首頁 > 網路數據 > 大數據障礙

大數據障礙

探碼科技大數據分析及處理過程

與大數據障礙相關的資料

友情鏈接