導航:首頁 > 網路數據 > 大數據的陷阱

大數據的陷阱

發布時間:2022-11-15 19:36:51

㈠ 為什麼說大數據淪為侵害消費者的幫凶

有網友爆料,作為某網站的「熟客」,卻受到「價格歧視」,比普通用戶承擔了更高的費用。該事件引發了社會廣泛關注,很多網友通過對比才發現,自己也深陷「殺熟」陷阱之中。

其次,利用信息流侵害消費者知情權和公平交易的權利。包括信息流廣告在內的網路營銷,基礎都在於用戶畫像和偏好。傳統商家的廣告市場競爭激烈,很難瞞得過消費者。大數據時代,平台通過預判用戶愛好,以信息推薦等方式推送哪些用戶喜歡,或者應該喜歡的信息,商業因素就夾雜在這些信息之中。消費者在不知不覺中被置於「信息孤島」局面,表面看是用戶自己選擇想瀏覽的信息,實則是平台以演算法推薦等方式決定用戶能夠看到的信息。一旦消費者被數據「孤立」,勢必會落入商家與平台「勾結」的局面。缺乏全面知情權的消費者,最終也會喪失公平交易的權利。

最後,平台經濟正面臨市場壟斷的侵蝕。網路經濟的重要特徵是去中心化,不過,市場發展卻是相反,越來越多垂直市場出現了寡頭。在新經濟形態下,網路壟斷地位是大勢所趨,法律並非對此有禁止性規定。但法律所嚴禁的是濫用壟斷地位侵害消費者權益,大平台與壟斷價值之間就是一牆之隔。一旦形成市場垂直或橫向聯合的壟斷,除了針對消費者量身定製的「價格歧視」以外,對中小商家也會形成「服務歧視」。在這種情形下,市場經濟就會變成平台經濟,最終可能演化成大平台的壟斷利益。

網路技術本身就是雙刃劍,如何趨利避害才是新經濟時代的重要課題。這次事件曝光出來的「價格歧視」,只是我們正在經歷的網路經濟弊端的冰山一角。這也意味著,法律和監管要與時俱進,不能再繼續缺位。

㈡ 正確運用避免陷入大數據的「陷阱」

正確運用避免陷入大數據的「陷阱」
通常,對於新的IT關鍵詞必定會出現「反對派」。最近,「大數據」就成為被攻擊的對象,諸如「大數據失敗論」等論調也明顯增加。
業界對大數據抱著極大的期待,這一點從大量的大數據研討會和展示會風潮就足以證明。這些年來,除了雲計算浪潮,缺乏熱烈話題的IT業界而言,大數據是期待已久的大型關鍵詞,也許大數據會成為恢復業界活力的強心劑。

與此同時,日本政府提出新的IT戰略--「將行政數據向民間開發,以便不斷創造新商務」。也就是說,如何有效利用數據,推動商業成功,業已成為國家戰略的一環。
雖然筆者既不是強烈的贊成派也不是反對派,但通過以往的采訪經驗,對處理數據的難度有著清醒的認識。更何況涉及到大數據,其難度顯而易見。
筆者周邊很多人對大數據也有著各種不同的看法,提出各種問題。當然這些對於IT業界的讀者而言,都是理所當然的事情,筆者說這些也許是班門弄斧了。但是,正是這些眾所周知的道理通常也是非常重要不可忽視的。因此,下面筆者將重新提出大數據的「陷阱」,探討如何才能避免運用大數據的失敗。
是否真正需要大量的數據
首先,必須明確的一點是,是否真正需要大量的數據。
在一次活動中,一位統計分析的專家在談到大數據時說:「本來統計分析學是如何通過少量的取樣,去了解事務整體的學問。例如,電視的收視率調查就是一個典型的事例,這類調查就是通過極少的樣本,來掌握日本全國的收視狀況。如果目的明確,並不需要大量的數據。」
由於上述言論出自目前作為「數據科學家」備受矚目的統計分析方面的專家之口,讓筆者不禁大吃一驚。這就是說,只要有一定量的數據,無關數據數量,分析的結果並不會有很大的差別。如果果真如此,不禁讓人產生懷疑,即到底大數據是為何而存在。
聽到上述觀點,使人感到大數據所面臨的矛盾的應當不僅僅是筆者一人。本以為通過大數據分析,滿懷期待能夠發現以往沒有認識到的新的東西,但有時其結果不過是已有所知的事實而已。如果企業為系統開發投入數十億日元,得出的不過是證明資深職員「經驗」的結論,這也未免讓人難以接受。
正因為如此,就有必要重新考慮為何需要大數據這一問題。例如,企業需要明確通過將有交易往來的公司和社交媒體等本企業外的大量數據進行組合,是為達到何種目的等,即有必要事先制定大數據的目標。
數據的「質量」有無問題
第二點是由誰來維護大量的數據,即數據的「質量」如何能夠得到保障。
筆者曾聽說這樣一件事。某企業的總經理每個月都會收到有交易往來的IT供應商的宣傳(PR)雜志,但收件人的頭銜不是「總經理」,而是他曾經兼任公司CIO時的頭銜「常務董事」。雖然將頭銜搞錯,但還是都能收到,因此並沒有太在意。但當這家IT供應商的總經理到公司進行禮節性拜訪時,就提出了希望改一下頭銜的想法。
而這家IT供應商的新的賣點是大數據,公司的總經理當場表示回去馬上會進行修改。起初以為這點事情對於運營大數據業務的IT供應商而言不過是舉手之勞,一定會進行糾正。但是,等到下一個月他收到的的PR雜志時,發現收件人的頭銜仍然是「常務董事」。這位總經理通過兩本PR雜志感到彷彿看到了大數據的現狀,因此他非常失望地說:「歸根到底IT供應商並沒有維護顧客資料庫」。
上述例子雖然是顧客數據,而不僅僅是顧客數據,說到大數據必然還需要處理很多各種各樣的企業外部的數據。但是,這些數據是否是最新數據,其數據的精確度又如何等數據的「質量」就會非常重要。分析出處不明的數據將毫無意義。如果顧客數據不能隨時進行維護,也就不會產生任何價值。不應當將當初以為是寶山的大數據,變成一座堆滿垃圾的山。
是否忽視了現場職工的工作干勁
第三點就是企業不僅應當努力培養數據科學家,同時也需要提升現場職員的分析數據的能力。如果在店頭等現場直接接觸顧客的員工變得「擅長數字」,他們也能夠常常通過數據考慮事情並進行判斷,這樣的企業必定會強大起來。
例如,有一家超市的店頭銷售員就從與顧客的對話中得到啟發,通過購進新的商品或是改變商品陳列的方法,提升了銷售額。又比如,在特快列車上負責銷售的員工,發現似乎「可吸煙座位的咖啡暢銷」,當他整理出不同列車的銷售業績,結果發現確實是如此。於是決定在吸煙車廂集中推銷咖啡,結果咖啡的銷售量明顯增加。
當然,通過現場增加的銷售額,也許和利用大數據獲得的銷售數字相比很小,而且其分析能力也遠遠不及數據科學家。但是即便如此,如果通過將這種方式橫向拓展到其他現場,積累的數字也會非常可觀。同時,最為重要的是,這種方式能夠提升現場員工的工作動力。
實際上,某零售企業自從將其銷售分析統一由總公司實施後,店頭員工就失去干勁,甚至出現退職的員工。這說明只依靠上級的指令,則會降低現場的職業道德。因此,這家公司決定給予現場員工自由分析判斷的職能,由此店頭又重新恢復了活力。雖然大數據非常重要,但是如果將許可權集中在某些部門,則會導致現場喪失工作干勁。
以上三點實際上不僅僅對大數據而言非常重要,而且同時適用於整個信息系統。大數據是IT業界期待已久的關鍵詞,為使其成長壯大,就需要腳踏實地的努力,而不應被其華麗的部分所束縛擺弄。正因為如此,筆者認為提出的上述三點需要重新銘記心中。

㈢ 大數據安全問題 這六點你知道了嗎

【導讀】當涉及到大數據和分析時,列出企業應該遠離的陷阱清單也同樣重要,大多數組織為其成功實施項目工作,都已經制定了一套大數據的最佳做法。那麼大數據安全問題有哪些?我們在進行大數據分析的時候需要注意什麼呢?下面我們就來具體了解一下。

1、需要某些安全審核

在每個系統開發中,幾乎都是需要安全審核的地方,特別是在大數據不安全的地方。但是,考慮到使用大數據已經帶來了廣泛的挑戰,這些安全審核通常被忽略,這些審核只是添加到列表中的另一件事。這種態度與以下事實結合在一起:許多公司仍需要能夠設計和實施此類安全審核的合格人員。

2、使訪問變得困難

使大數據生態系統有效的另一個重要因素是粒度訪問控制。根據等級、許可權可以授予不同人員不同級別的主數據訪問許可權。名義上,訪問控制使大數據更加安全。但是,隨著組織使用大量數據,增加復雜的控制面板可能變得更加微妙,並可能為更多潛在漏洞打開門戶。

3、分散的框架

使用大數據的公司可能需要在不同系統之間分布數據分析。例如,Hadoop是一種開放源代碼軟體,旨在在大數據生態系統中進行靈活和分散的計算。但是,該軟體初根本沒有安全性,因此在分散的框架中有效的安全性仍然是要實現的挑戰。

4、實時合規

實時大數據分析在公司的競爭中越來越受歡迎。但是,實時實施這種工具更加復雜,並且還會產生大量的數據。

此類工具的開發方式應使它們在現實中不存在威脅時能夠規避對違規行為的錯誤警告。因此,發現此類錯誤警告可能很耗時。他們分散了白帽黑客的注意力,使其免受真正的故障和攻擊並浪費資源。

5、數據來源

找到我們的數據來源確實有助於確定違規的來源。你可以使用元數據來跟蹤數據流。無論如何,即使對於大型公司,元數據管理也是一個自我戰略問題。如果沒有正確的框架,實時跟蹤此類非結構化數據將是一個挑戰。盡管這是一個持續存在的問題,但它並不是大數據問題。

6、使數據易受攻擊

如今,所有數據都是數字化的,並且數量巨大,黑客始終可以在惡意內部人員的幫助下找到進入入侵的方式。如果他們以某種方式可以訪問你的關鍵數據,他們可以根據自己的目的進行修改,甚至刪除其中的一些數據。這就是為什麼完全依賴物聯網、大數據和實時數據分析的公司限制訪問並採取某些步驟來檢測假數據形成的原因。這是其數據保護協議的關鍵部分。

關於大數據安全問題,就介紹到這里了,如果您還想了解更多關於大數據工程師的技巧及素材等內容,可以通過其他文章進行學習,或者找專業的老師進行咨詢了解,掌握自己的學習方向。

㈣ 防止墜入「大數據陷阱」,除了技術還需要什麼

面對互聯網金融大潮,在興奮激動之餘,我們還需要一種相對冷靜平和的心態。如果我們真的要搞金融大數據開發,真的要靠有關數據來辦互聯網金融,那確實就要認真思考一下自己所謂擁有的「大數據」真的足夠大了嗎?足夠長了嗎?

當今,互聯網化正帶動著許多行業、產業的組織變革和商業變革。在這一歷史性的進程中,互聯網技術的迅速發展也給金融領域的創新帶來了巨大活力,顯著提升了金融服務的水平。首先,我在大數據巴士中看到有統計從銀行來說,現在銀行已普遍通過互聯網渠道開辦各類業務,銀行服務的成本有了下降(電子銀行每筆交易成本大約只有銀行櫃台每筆交易成本的五分之一到六分之一);銀行傳統信貸的模式有了改變(例如工商銀行(601398,股吧)無人工參與的全流程在線的網路貸款已超過其網路融資的20%);銀行業務處理能力尤其是支付結算的能力和效率都有了提高(例如工商銀行現在每秒鍾業務交易量峰值已超過8700筆,在去年一年的電子銀行交易已佔全部交易的88%,電子銀行交易金額達到了456萬億元,所有的異地支付早已實現實時完成。);各家銀行的服務模式都已越來越多地、越來越自然地融入商業場景之中,一個覆蓋和貫通金融服務、電子商務、社交生活的互聯網銀行架構正在不斷形成和完善。其次,這些年來,各類互聯網企業從事金融業務的也越來越多,互聯網金融已從最初的電子商務、第三方支付等更多進入了資金募集、理財和借貸領域。如果說Paypal、ApplePay和支付寶等,是讓小額支付更便捷,那麼P2P、眾籌包括余額寶等則是對金融資源配置方式的一種有意義的探索,它給不少人提供了一種新的投資渠道,也滿足了一些人籌集資金的需求。近來,一些人又已經開始把更多注意力放到了區塊鏈技術,不少人正在爭先恐後地進行基於區塊鏈的支付和記錄技術等方面的研究和開發。

這一切的結果在大數據巴士中的統計都是顯得那麼的令人振奮,令人欣喜。但我認為在看到互聯網金融快速發展所帶來的種種積極變化的時候,在繼續推進金融創新的過程中,似乎也應該注意兩個問題,一、金融創新的全部內容是不是金融的互聯網化;二、是否應該避免陷入技術至上、唯數據論的誤區。第一點比較容易理解,答案也應該是明確的。關於第二點想必看法不會完全一致。我想就此談談一己淺見。這可以從北京大學國家發展研究院沈艷教授最近的一篇文章說起。

沈艷教授的文章題目是《大數據分析的光榮與陷阱——從谷歌流感趨勢談起》。她在文章中講了一個故事,那就是谷歌公司在2008年11月啟動了一個「谷歌流感趨勢」(GoogleFluTrends,GFT)項目,這個項目曾被許多人認為是大數據分析優勢的一個證明。這個項目的團隊曾宣布他們通過數十億搜索中45個可能涉及流感關鍵詞的分析,就能夠比美國疾控中心提前預報流感的發病率,從而使人們可以有充足的時間提前採取預防措施以避免患上流感。倘若真能如此,這個成果無疑具有重要的社會意義和經濟價值。可惜的是2014年,美國《科學》雜志的有關文獻報道了GFT在2009年沒有能預測到有關流感的爆發,在2011年8月到2013年8月間的108周里,有100周預告不準(預測率是實際報告值的1.5倍多)。沈艷詰問道,為什麼傳說中充滿榮光的大數據分析會出現如此大的系統性誤差呢?她認為如果在數據分析中只關心相關關系而不注意因果關系是不行的,必須避免模型對數據值作出「過度擬合」,她還指出尤需注意不能以為大數據可以完全替代小數據,她呼籲要防止墜入「大數據陷阱」,力戒「大數據自大」。我十分贊同沈艷的觀點。沈教授所指出的問題正是若干年來我們在推進互聯網金融發展中所一直十分注意和努力想解決的問題。

撇開銀行在產品研發、客戶營銷、員工及機構管理等方面的數據應用問題暫且不談,就說銀行最常見也最重視的風險管理,多年來許多銀行尤其是一些大中型銀行都在如何利用數據技術提升風險管控能力方面進行了很多的探索,做出了不懈的努力。例如,工商銀行在估算客戶的違約概率(PD)、違約損失率(LGD)的時候,十分注意把數據長度作為風險參數量化過程中的一個重要因素,堅持要求數據觀察期起碼必須涵蓋一個完整的經濟周期,以努力避免簡單地以昨天的數據來說明今天和預測明天。現在工商銀行非零售業務和零售業務的客戶違約率、損失率數據積累長度均已超過12年。同時包括工商銀行在內的不少銀行還建立起了全行數據質量的管理標准和平台,不斷進行內部評級的復核驗證,以盡可能減少失真數據的干擾和影響。為了能夠對各種風險進行量化,在信用風險管理方面僅工行就開發了34個法人客戶評級模型,實現了對所有法人客戶違約概率(PD)的計量,開發了175個信貸產品的3類債項評級模型,實現了對違約損失率(LGD)的計量。對零售業務,工行還開發了75個信用評分模型,覆蓋了個人客戶准入、賬戶信貸審批和業務管理的完整業務生命周期。在面對市場風險(因市場價格例如利率、匯率、債券股票價格、商品價格的不利變動,而使商業銀行表內和表外業務發生損失的風險)的防控方面,我們制定了16個辦法,開發了17個定價估值模型來進行風險價值(VaR)和壓力風險價值(SVaR)的計量,並且在實踐過程中每日實施返回檢驗,把模型計算所得的風險價值與發生的真實損益進行比較,以檢驗模型、方法的准確性和可靠性。在防控操作風險(主要是指由不完善或有問題的內部程序、員工行為和信息科技系統,以及外部事件所造成的風險)方面,工行開發了操作風險損失事件管理系統,分別用於對操作風險高頻低損和低頻高損部分的計量。

為了達到上述的這種數據採集、挖掘和應用水平,僅為積累有關數據、開發這些風險管控模型,工商銀行就先後花了將近15年時間,投入了巨大的人力和財力。盡管目前這一套風險識別和計量的方法、模型已經按照國際金融穩定理事會的有關標准,經過監管部門組織的多輪評估獲得通過,認定為合格,但坦率地說,我們從來也沒有認為這一切已經是完美無缺的了。面對不斷變化的社會經濟環境,隨著銀行業務日新月異的發展,在數據的管理利用方面確實還有許多問題需要解決,前面的路還很長。這也正是工商銀行近年來又推出了eICBC新發展戰略的一個重要原因。

我之所以不惜篇幅地介紹這些情況,主要想說的就是許多事確實不像想像的那麼簡單。面對互聯網金融大潮,在興奮激動之餘,我們還需要一種相對冷靜平和的心態。如果我們真的要搞金融大數據開發,真的要靠有關數據來辦互聯網金融,那確實就要認真思考一下自己所謂擁有的「大數據」真的足夠大了嗎?足夠長了嗎?

自己擁有的數據中的信噪比問題有效解決了嗎?自己擁有的數據分析模型如果對樣本內的數據分析還算準確的話,那它對樣本外的預測結果也能一樣有效嗎?自己所擁有的數據處理模型是否完全建立在一種假定之上了,那就是以為人們的社交行為數據、那些非結構化數據都是真實的?坦率地說,我始終認為只要一些數據生成者知曉自己的行為數據可以影響自己的利益(例如可以獲得信譽、信用積分,可以獲得授信融資等),那對這部分數據的可靠性就有質疑的理由。這也許就是人文科學領域的「測不準原理」。現在各種花樣百出的水軍現象已經一再提示我們,真是「不能天真地認為數據使用者和數據生成機構都是無意識生產大數據的」(沈艷,2015)。

上述這些還沒有涉及諸如homes系統、高頻交易等技術在這一輪股市風波中的作用究竟應該如何認定的問題。盡管對此還可能有這樣那樣的看法,但可以確定的是,在某些條件下,所謂的技術中性在面對市場時是完全可能發生變異的。

總之,我認為金融的創新、互聯網金融的發展,除了技術,還需要一系列的條件支撐,包括營造一種良好的文化氛圍。在眼花繚亂之中,要力戒浮躁,腳踏實地。互聯網技術是時代進步的標志,是現代文明的產物,它與那些江湖氣其實是不搭的。諸如「流量為王,就是要靠燒錢來吸引客戶」,「互聯網就是財富重分的過程,就是贏者通吃的游戲」,「羊毛出在豬身上,猴數錢,牛買單」等說法,如果僅是開開玩笑,說說段子,那也未嘗不可,但作為一個要對投資者負責、對債權人負責、對債務人負責、對市場穩定負責的金融從業者來說,如果把這真的當成了自己的經營理念,那是萬萬不可的。

㈤ 大數據分析的四類陷阱

大數據分析的四類陷阱

科技領域的人們正摩拳擦掌以迎接大數據(Big Data)時代的到來。大數據技術的本質是能夠對數十億的信息進行分析,從中獲得有價值的洞見。例如惠普的研究人員就能根據Twitter來預測好萊塢的票房。由此看來,其它行業只要具備合適的工具,就能對社會網路進行數據分析。但是事情並非如此簡單。首先,分析大數據集並不是什麼新鮮事。有些公司已經做了幾十年的數據分析。當前技術的不同之處在於,它提升了分析的速度,擴展了數據規模,使小型企業也能使用這種技術。而另一方面,大數據也會造成更嚴重的錯誤。針對上例,普林斯頓大學就得出了不同的研究結論:Twitter並不能真的預測票房成績。對同一個問題,研究者怎麼會得出相反的結論呢?我們來看一下數據分析中最常見的四類陷阱。1、樣本缺乏代表性大數據的背景仍是統計分析和推斷。而統計系學生應該學到的一件事就是:統計結論依賴於樣本的代表性。Twitter用戶可能受到更高教育且收入更高,其年齡也會偏大一些。如果用這種有偏的樣本來預測目標觀眾是年輕人的電影票房,其統計結論可能就不會合理了。提示:確保你得到的樣本數據代表了研究總體。否則,你的分析結論就缺乏堅實的基礎。2、事物是變化的對研究對象的科學理解需要耐心。可能你的實驗獲得了預期的效果,但這還不夠。你應該進行後續實驗看能否得到相同的結果,還要看其他研究人員能否重現你的實驗結果。特別是在處理人類個體或團隊行為的時候,這一點尤其重要。這是因為事物在是不斷變化的。惠普和普林斯頓大學的研究項目有兩年的時間間隔,在這段時間中Twitter用戶有可能發生了改變。同樣的道理,如果觀察到公司的增長速度發生變化,這有可能是客戶群的情緒變化,也可能是使用了錯誤的數據收集或分析方法。提示:不要只進行一次分析。要定期驗證你之前的結論。3、理解數據方式不同惠普和普林斯頓的兩組研究人員所看到的數據不僅僅是推文。惠普的研究人員建立了一個模型,來研究電影首映時的發推率和上映影院數量。但上映影院的數量與票房成功之間有很強相關性。而普林斯頓的研究人員使用機器學習技術,來研究在三個不同時間段(影片上映之前、期間或觀影後)用戶的推文情緒特徵(正面或負面)。也就是說,這兩個研究團隊都表示,他們在研究Twitter的預測能力。但實際上,他們除了使用twitter數據之外還利用了其它數據資源,例如上映影院數量和IMDB評分等等。這樣Twitter的預測效果與其它因素混合在一起,它或許是預測票房成功的一種影響因素,這要取決於研究人員如何理解和使用它。提示:一組數據可以提供多種類型的信息。你需要找到不同的解釋方式,並加以分析4、錯誤和偏差人會犯各種錯誤。有可能是某個研究小組出現了某個錯誤。例如試圖將所有的推文都歸為正面或負面的情緒,這種方法也許有些粗糙。又或許研究人員不自覺地選擇數據,以支持他們的論點。例如普林斯頓大學研究人員假設,是推文本身而非推文的數量,蘊含著消費者的情緒表達。提示:不要只使用一種方法。用事實來檢驗你的假設是否奏效。大數據技術能很好的改善企業產品和服務,並更好地滿足市場。但是,信息需要人來解釋,而人的錯誤有時是致命的。所以大數據是一柄雙刃劍,成功與否還得看持劍人的功力。

以上是小編為大家分享的關於大數據分析的四類陷阱的相關內容,更多信息可以關注環球青藤分享更多干貨

㈥ 從谷歌流感趨勢談大數據分析的光榮與陷阱

從谷歌流感趨勢談大數據分析的光榮與陷阱

本文從谷歌流感趨勢2009年前後表現差異談起,討論了大數據分析容易面臨的大數據自大、演算法演化、看不見的動機導致數據生成機制變化等陷阱,以及對我國大數據產業發展的借鑒。本文認為,為健康發展大數據產業,我國需要防範大數據自大風險、推動大數據產業和小數據產業齊頭並進,並強化提高大數據透明度、審慎評估大數據質量等方面的努力。?

一、谷歌流感趨勢:未卜先知?

「谷歌流感趨勢」(Google Flu Trends,GFT)未卜先知的故事,常被看做大數據分析優勢的明證。2008年11月谷歌公司啟動的GFT項目,目標是預測美國疾控中心(CDC)報告的流感發病率。甫一登場,GFT就亮出十分驚艷的成績單。2009年,GFT團隊在《自然》發文報告,只需分析數十億搜索中45個與流感相關的關鍵詞,GFT就能比CDC提前兩周預報2007-2008季流感的發病率。

也就是說,人們不需要等CDC公布根據就診人數計算出的發病率,就可以提前兩周知道未來醫院因流感就診的人數了。有了這兩周,人們就可以有充足的時間提前預備,避免中招。多少人可以因為大數據避免不必要的痛苦、麻煩和經濟損失啊。

此一時,彼一時。2014年, Lazer等學者在《科學》發文報告了GFT近年的表現。2009年,GFT沒有能預測到非季節性流感A-H1N1;從2011年8月到2013年8月的108周里,GFT有100周高估了CDC報告的流感發病率。高估有多高呢?在2011-2012季,GFT預測的發病率是CDC報告值的1.5倍多;而到了2012-2013季,GFT流感發病率已經是CDC報告值的雙倍多了。這樣看來,GFT不就成了那個喊「狼來了」的熊孩子了么。那麼不用大數據會如何?作者報告,只用兩周前CDC的歷史數據來預測發病率,其表現也要比GFT好很多。

2013年,谷歌調整了GFT的演算法,並回應稱出現偏差的罪魁禍首是媒體對GFT的大幅報道導致人們的搜索行為發生了變化。Lazer等學者窮追不舍。他們的估算表明,GFT預測的2013-2014季的流感發病率,仍然高達CDC報告值的1.3倍。並且,前面發現的系統性誤差仍然存在,也就是過去犯的錯誤如今仍然在犯。因為遺漏了某些重要因素,GFT還是病得不輕。

為什麼傳說中充滿榮光的大數據分析會出現如此大的系統性誤差呢?從大數據的收集特徵和估計方法的核心,我們可以探究一二。

二、新瓶裝舊酒:過度擬合

大數據時代的來臨,為數據收集帶來了深刻變革。海量數據、實時數據、豐富多樣的非結構數據,以前所未有的廣度進入了人們的生活。但是不變的是,在統計分析方法上,數據挖掘(Data mining)仍然是統計分析的主要技術。而數據挖掘中最引人注目的過度擬合(overfitting)問題,由於下文提到的各類陷阱的存在,遠遠沒有解決。

我們先用一個故事來解釋何為過度擬合。假設有一所叫做象牙塔的警官學校致力於培養抓小偷的警察。該校宣稱,在他們學校可以見到所有類型的普通人、也能見到所有類型的小偷;到他們學校來學習就能成為世界上最厲害的警察。但是這所學校有個古怪,就是從不教授犯罪心理學。

象牙塔的教學方式是這樣的:將人群隨機分為十組,每組都是既有普通人又有小偷。學員可以觀察到前九組所有人,也知道誰是普通人誰是小偷。學員要做的是,根據自己從前九組中了解到的小偷特徵,從第十組中找出小偷。比如學員從前九組觀察到小偷更喜歡在給孩子買尿布的時候也買啤酒,那麼在第十組觀察到有人在買尿布時也買啤酒,就作為一個嫌疑條件。完成這個過程之後,學校再將人群打散重新分成十組,如此循環往復,之後學校進行測試。測試方式就是再次將人群隨機分為十組,看誰能最快最准根據前九組的信息找出第十組的小偷。冠軍即象牙塔最棒警察,可以派到社會上抓小偷了。

一段時間後,問題來了:象牙塔最棒警察在象牙塔校內總能迅速找到小偷,可一旦出了象牙塔, 該警察就老犯錯抓、該抓不抓的錯誤。他抓小偷的表現,甚至比從來沒有來象牙塔學習的人還要差。

在這個故事裡,象牙塔最棒警察就相當於根據大數據的數據挖掘方法、機器學習之後挑選出來的最優模型。小偷相當於特定問題需要甄選出的對象,比如得流感的人、不幹預就會自殺的人、賴賬的人。前九組的人就相當於用於訓練模型的訓練數據;第十組人則相當於檢驗訓練結果的檢驗數據。不教授犯罪心理學就意味著抓小偷並不需要理解小偷為什麼會成為小偷,類似於在數據分析中只關心相關關系而不關注因果關系。訓練最佳警察的過程,就類似於運用機器學習技術, 採用訓練數據來訓練模型,然後採用檢驗數據來選擇模型,並將預測最好的模型作為最佳模型,用於未來的各類應用中 。

最後,警察在象牙塔內能快速抓小偷而校外不能,就是過度擬合問題。由於在學校通過多次重復練習,學員小偷的特徵已經爛熟於心,因此無論怎麼隨機分,都能快速找到小偷並且不出錯;這就相當於訓練模型時,由於已經知道要甄選人群的特徵,模型能夠對樣本內觀測值作出很好的擬合。由於象牙塔學校判斷小偷的標准主要看外部特徵而不去理解內在原因,比如小偷常戴鴨舌帽,那麼當社會人群里的小偷特徵與象牙塔人群有很大差別時,比如社會上的小偷更常戴禮帽,在象牙塔內一抓一個準的鴨舌帽標准,到社會就變成一抓一個錯了。也就是說,在樣本內預測很好的模型,到樣本外預測很差。 這,就是過度擬合的問題。

從過度擬合角度,可以幫助我們理解為什麼GFT在2009年表現好而之後表現差。在2009年,GFT已經可以觀察到2007-2008年間的全部CDC數據,也就是說GFT可以清楚知道CDC報告的哪裡發病率高而哪裡發病率低。這樣,採用上述訓練數據和檢驗數據尋找最佳模型的方法時標准就很清晰,就是不惜代價高度擬合已經觀察到的發病率。 Lazer 等人發現,GFT在預測2007-2008年流感流行率時,存在丟掉一些看似古怪的搜索詞,而用另外的5000萬搜索詞去擬合1152個數據點的情況。

2009年之後,該模型面對的數據就真正是未知的,這時如果後來的數據特徵與2007-2008年的數據高度相似,那麼GFT也該可以高度擬合CDC估計值。但現實是無情的,系統性誤差的存在,表明GFT在一些環節出了較大偏差而不得不面對過度擬合問題。

從上面的故事可以看到,產生過度擬合有三個關鍵環節。第一,象牙塔學校認定本校知道所有普通人與所有小偷的特徵,也就等於知道了社會人群特徵。第二,象牙塔學校訓練警察,不關心小偷的形成原因,而關注細致掌握已知小偷的特徵。第三,象牙塔學校認為,不論時間如何變化,本校永遠能保證掌握的普通人和小偷的行為特徵不會發生大規模變動、特別是不會因為本校的訓練而發生改變。

在大數據這個新瓶里,如果不避開下面的三個陷阱,就仍然可能裝著數據挖掘帶來的過度擬合舊酒:大數據自大、演算法演化、看不見的動機導致的數據生成機制變化。

三、大數據分析的挑戰

(一)陷阱一:「大數據自大」

Lazer等學者提醒大家關注 「大數據自大(big data hubris)」的傾向,即認為自己擁有的數據是總體,因此在分析定位上,大數據將代替科學抽樣基礎上形成的傳統數據(後文稱為「小數據」)、而不是作為小數據的補充。

如今,大數據確實使企業或者機構獲取每一個客戶的信息、構成客戶群的總體數據成為可能,那麼說企業有這樣的數據就不需要關心抽樣會有問題嗎?

這里的關鍵是,企業或者機構擁有的這個稱為總體的數據,和研究問題關心的總體是否相同。《數據之巔》一書記載了下面這個例子:上世紀三十年代,美國的《文學文摘》有約240萬讀者。如果《文學文摘》要了解這個讀者群的性別結構與年齡結構,那麼只要財力人力允許,不抽樣、直接分析所有這240萬左右的數據是可行的。但是,如果要預測何人當選1936年總統,那麼認定「自己的讀者群」這個總體和「美國選民」這個總體根本特徵完全相同,就會差之毫釐謬以千里了。事實上,《文學雜志》的訂戶數量雖多,卻集中在中上層,並不能代表全體選民。與此相應,蓋洛普根據選民的人口特點來確定各類人群在樣本中的份額,建立一個5000人的樣本。在預測下屆總統這個問題上,採用這個小數據比採用《文學文摘》的大數據,更准確地把握了民意。

在GFT案例中,「GFT採集的搜索信息」這個總體,和「某流感疫情涉及的人群」這個總體,恐怕不是一個總體。除非這兩個總體的生成機制相同,否則用此總體去估計彼總體難免出現偏差。

進一步說,由於某個大數據是否是總體跟研究問題密不可分,在實證分析中,往往需要人們對科學抽樣下能夠代表總體的小數據有充分認識,才能判斷認定單獨使用大數據進行研究會不會犯「大數據自大」的錯誤。

(二)陷阱二:演算法演化

相比於「大數據自大」問題,演算法演化問題(algorithm dynamics)就更為復雜、對大數據在實證運用中產生的影響也更為深遠。我們還是借一個假想的故事來理解這一點。假定一個研究團隊希望通過和尚在朋友圈發布的信息來判斷他們對風險的態度,其中和尚遇到老虎的次數是甄別他們是否喜歡冒險的重要指標。觀察一段時間後該團隊發現,小和尚智空原來遇到老虎的頻率大概是一個月一次,但是從半年前開始,智空在朋友圈提及自己遇到老虎的次數大幅增加、甚至每天都會遇到很多隻。由於大數據分析不關心因果,研究團隊也就不花心思去追究智空為什麼忽然遇到那麼多老虎,而根據歷史數據認定小智空比過去更願意冒險了。但是研究團隊不知道的情況是:過去智空與老和尚同住,半年前智空奉命下山化齋;臨行前老和尚交代智空,山下的女人是老虎、遇到了快躲開。在這個故事裡,由於老和尚的叮囑,智空眼裡老虎的標准變了。換句話說,同樣是老虎數據,半年前老虎觀測數量的生成機制,和半年後該數據的生成機制是不同的。要命的是,研究團隊對此並不知情。

現實中大數據的採集也會遇到類似問題,因為大數據往往是公司或者企業進行主要經營活動之後被動出現的產物。以谷歌公司為例,其商業模式的主要目標是更快速地為使用者提供准確信息。為了實現這一目標,數據科學家與工程師不斷更新谷歌搜索的演算法、讓使用者可以通過後續谷歌推薦的相關詞快捷地獲得有用信息。這一模式在商業上非常必要,但是在數據生成機制方面,卻會出現使用者搜索的關鍵詞並非出於使用者本意的現象。

這就產生了兩個問題:第一,由於演算法規則在不斷變化而研究人員對此不知情,今天的數據和明天的數據容易不具備可比性,就像上例中半年前的老虎數據和半年後的老虎數據不可比一樣。第二,數據收集過程的性質發生了變化。大數據不再只是被動記錄使用者的決策,而是通過演算法演化,積極參與到使用者的行為決策中。

在GFT案例中,2009年以後,演算法演化導致搜索數據前後不可比,特別是「搜索者鍵入的關鍵詞完全都是自發決定」這一假定在後期不再成立。這樣,用2009年建立的模型去預測未來,就無法避免因過度擬合問題而表現較差了。

(三)、陷阱三:看不見的動機

演算法演化問題中,數據生成者的行為變化是無意識的,他們只是被頁面引導,點出一個個鏈接。如果在數據分析中不關心因果關系,那麼也就無法處理人們有意識的行為變化影響數據根本特徵的問題。這一點,對於數據使用者和對數據收集機構,都一樣不可忽略。

除掉人們的行為自發產生系統不知道的變化之外,大數據的評估標准對人們行為的影響尤為值得關注。再以智空為例。假定上文中的小和尚智空發現自己的西瓜信用分遠遠低於自己好友智能的西瓜信用分。智空很不服氣,經過仔細觀察,他認為朋友圈言論可能是形成差異的主因。於是他細細研究了智能的朋友圈。他發現,智能從不在朋友圈提及遇到老虎的事,而是常常宣傳不殺生、保護環境、貼心靈雞湯,並定期分享自己化齋時遇到慷慨施主的事。雖然在現實中,他知道智能喜好酒肉穿腸過、也從未見老和尚稱贊智能的化齋成果。智空茅塞頓開,從此朋友圈言論風格大變,而不久後他也滿意地看到自己的西瓜信用分大幅提高了。

如今,大數據常常倚重的一個優勢,是社交媒體的數據大大豐富了各界對於個體的認知。這一看法常常建立在一個隱含假定之上,就是人們在社交媒體分享的信息都是真實的、自發的、不受評級機構和各類評估機構標准影響的。但是,在互聯網時代,人們通過互聯網學習的能力大大提高。如果人們通過學習評級機構的標准而相應改變社交媒體的信息,就意味著大數據分析的評估標准已經內生於人們生產的數據中,這時,不通過仔細為人們的行為建模,是難以准確抓住的數據生成機制這類的質變的。

從數據生成機構來看,他們對待數據的態度也可能發生微妙的變化。例如,過去社交媒體企業記錄保存客戶信息的動機僅僅是本公司發展業務需要,演算法演化也是單純為了更好地服務消費者。但隨著大數據時代的推進,「數據為王」的特徵越來越明顯,公司逐漸意識到,自己擁有的數據逐漸成為重要的資產。除了可以在一定程度上給使用者植入廣告增加收入之外,還可以在社會上產生更為重要的影響力。這時就不能排除數據生成機構存在為了自身的利益,在一定程度上操縱數據的生成與報告的可能性。比如,在Facebook等社交媒體上的民意調查,就有可能對一個國家的政治走向產生影響。而民意調查語言的表述、調查的方式可以影響調查結果,企業在一定程度上就可以根據自身利益來操縱民意了。

簡而言之,天真地認為數據使用者和數據生成機構都是無意識生產大數據、忽略了人們行為背後趨利避害的動機的大數據統計分析,可能對於數據特徵的快速變化迷惑不解,即便看到模型預測表現差,也難以找到行之有效的克服方法。

四、前車之鑒

目前,我國高度重視大數據發展。2015年8月31日,國務院印發《促進大數據發展行動綱要》,系統部署大數據發展工作。《綱要》認為,大數據成為推動經濟轉型發展的新動力(310328,基金吧)、重塑國家競爭優勢的新機遇,和提升政府治理能力的新途徑。《綱要》指出,2018年底前,要建成國家政府數據統一開放平台,率先在信用、交通、醫療等重要領域實現公共數據資源合理適度向社會開放。與此相應,近年來多地成立了大數據管理局、業界學界對於大數據的分析利用也予以熱烈回應。因此,了解大數據分析的優勢與陷阱,對我國的經濟發展和實證研究具有極其重要的意義;而GFT項目折射出的大數據使用中可能存在的機會與問題,都值得關注。

(一) 防範「大數據自大」帶來的風險

GFT案例表明,如果認為大數據可以代替小數據,那麼過度擬合問題可以帶來巨大的估計誤差。這一點在「大眾創業、萬眾創新」的今天尤其需要關注。這是因為大數據作為目前「創新」最閃亮的新元素被高度推崇的,而我國經濟處於轉型時期的特徵,使企業或者機構面對的微觀數據不斷發生動態變化。如果在數據挖掘中忽略這些變化,往往要面臨過度擬合帶來的損失。

例如,我國P2P網貸行業採用的數據體量雖然大多達不到大數據要求的海量數據,但是不少企業熱衷採用爬蟲等技術從社交媒體挖掘信息用於甄別客戶。這些平台健康狀況,就可能與過度擬合的嚴重程度密不可分。 根據中國P2P網貸行業2014年度運營簡報和2015年上半年的運營簡報,在圖一我們可以推算2006年到2004年間和2015年1-5月間月均新增問題平台數,並與2015年6月新增問題平台數作比較。[1]

新增問題平台的大幅增加原因雖然有多方面,但是從數據分析的角度看,由於還沒有合法的數據共享機制,P2P平台在甄別客戶質量時,往往只依靠自身渠道和從社交媒體等挖掘的數據,並採用數據挖掘方法建立相應建立模型。在數據分析中,不少P2P平台往往疏於查考自身樣本的代表性、也忽略宏觀經濟數據和其他微觀數據所包含的信息。由於互聯網金融公司出現時間短、又主要成長於經濟繁榮期,如果單單依賴有限的數據渠道,數據挖掘與機器學習過程對新常態下個體行為沒有足夠的認識,在經濟下行時仍然根據歷史數據而低估逾期率,導致高估平台健康狀況,最終不得不面對問題平台不斷增加的局面。

(二) 大數據和小數據齊頭並進大勢所趨

大數據和小數據各有優劣。簡而言之,小數據通常不會假定該數據就是總體,因此收集數據前往往需要確定收集數據的目標、根據該目標設計的問卷或者收集方法、確定抽樣框。在數據採集後,不同學者往往可以通過將新收集數據與不同數據的交叉驗證,來評估數據的可信度。小數據在收集上有變數定義清晰、數據生成機制基本可控、檢驗評估成本相對較低等優點,但是缺點是數據收集成本高,時間間隔長、顆粒度較粗。

大數據的優勢就包括數據體量大、收集時間短、數據類型豐富,顆粒度很細。但是,由於大數據往往是一些企業和機構經營活動的附帶產品,因此並不是通過精心論證的測度工具生成。另外,由於大數據的體量很大,交叉驗證數據的可信度、不同學者採用相同數據獨立研究以檢驗數據的前後一致性等工作難度較大。這些特點意味著大數據本身未必有科學研究要求的那樣准確、可靠,在數據分析中就需要對大數據適合研究的問題有較清晰的認識。

在與小數據互為補充推動研究與認知方面,大數據大有可為。將大數據與小數據相結合,可以大大提高數據的顆粒度和預測精度。比如對CDC流感發病率的預測研究發現,將GFT採用的大數據和CDC的歷史數據相結合的模型,其預測能力比單獨運用大數據或者小數據要好很多。

大數據往往可以實時生成,對於觀察特定社區的動態具有小數據無可替代的優勢。比如,美國在「九一一」之後,出於快速准確估計在某個特定小社區活動的人口的需要而啟動了「工作單位和家庭住址縱向動態(LEHD)」項目,該項目將人口普查數據、全國公司數據、個人申請失業保險、補貼、納稅等記錄聯通,可以對社區在短時間內的「新陳代謝」作出較為全面的刻畫。

這類的數據結合研究,對於了解我國社會經濟狀況的動態變化會十分重要。一個可能的應用是,將城市人口、工作狀態、性別、年齡、收入等小數據採集的信息,和實時產生的交通狀況相結合,來預測人們的出行特徵,來解決城市交通擁堵、治理霧霾等問題。另一個可能的應用是,推動人民銀行徵信中心個人徵信系統數據和民間徵信系統大數據的結合,建立高質量的中國個人徵信體系。

另外,我國經濟處於轉型時期,有不少政策亟需快速評估政策果效。以小數據為基礎,利用大數據數據量豐富的優勢,可以通過互聯網做一些隨機實驗,來評估一些政策的效果,也是可能的發展方向。

在過去的十多年中,我國在通過非官方渠道採集小數據、特別是微觀實證數據方面取得了長足進展。在多方努力下,更多經過嚴格科學論證而產生的數據可被公眾免費獲得並用於研究。例如,北京大學的「中國健康與養老追蹤調查」、「中國家庭追蹤調查」,都由經濟、教育、健康、社會學等多領域的專家協同參與問卷的設計和數據採集的質控。在這些努力下,小數據的生成機制更為透明,交叉驗證調查數據的可信度等實證研究的必要步驟也更為可行。

但是,目前在小數據的收集和使用、政府和有關機構的小數據開放運用方面,我國還有很大推進空間。只有在對涉及我國基本國情的小數據進行充分學習研究之後,我國學界和業界才能對經濟政治社會文化等領域的基本狀況有較清晰的把握。而這類的把握,是評估大數據質量、大數據可研究問題的關鍵,對推進大數據產業健康發展有舉足輕重的作用。

因此在政策導向上,為要實現大數據、小數據相得益彰推動經濟發展的目標,在促進發展大數據的同時也要大力發展小數據相關產業,推動小數據相關研究與合作,使大數據與小數據齊頭並進、互為補充。

(三)提高大數據使用的透明度,加強對大數據質量的評估

大數據面臨的透明度問題遠比小數據嚴重。在GFT案例中,Lazer等人指出,谷歌公司從未明確用於搜索的45個關鍵詞是哪些;雖然谷歌工程師在2013年調整了數據演算法,但是谷歌並沒有公開相應數據、也沒有解釋這類數據是如何搜集的。我國大數據相關企業的數據,也鮮有學者可以獲得並用於做研究的例子。

與透明度相關的就是大數據分析結果的可復制性問題。由於谷歌以外的研究人員難以獲得GFT使用的數據,因此就難以復制、評估採用該數據分析結果的可靠性。因此利用大數據的研究難以形成合力,只能處於案例、個例的狀態。

另外還要注意到,如果數據生成機制不清晰,研究結論難以復制,而演算法演化也表明,最終數據往往成為使用者和設計者共同作用的結果。這種數據生成的「黑箱」特徵,容易成為企業或者機構操縱數據生成過程和研究報告結果的溫床。唯有通過推動大數據的透明化、公開化,我們才能在大數據產業發展之初,建立健康的數據文化。

因此,在大數據時代,為了更好利用大數據,需要採取相關措施,增加在大數據生成過程的透明度方面的努力。例如,採取措施推進數據生成企業在妥善處理隱私信息後,定期公布大數據隨機抽樣數據、要求數據生成企業及時公布數據演算法的變更,鼓勵採用大數據的研究實現可復制性、便於交叉驗證等。

五、結語

目前有些流行觀點認為,在大數據時代,技術容許人們擁有了總體因此抽樣不再重要、另外由於數據挖掘術的進展,只需關心相關關系而不必再關心因果關系。而GFT的實例表明,即便谷歌公司用於GFT計算的是數十億的觀測值,也不能認為谷歌公司擁有了流感人群的總體。誤認為數據體量大就擁有了總體,就無法謙卑結合其他渠道的小數據,得到更為穩健的分析結論。而GFT估計的偏誤原因,從來都離不開人們的主動的行為-- 無論是谷歌公司自己認為的GFT的流行導致更多人使用該搜索、還是Lazer等人認為的演算法變化、丟棄異常值。因此,不明白數據生成機理變化的原因而只看相關關系的後果,於谷歌是GFT的計算偏誤丟了臉,而對熱情地投身於採用大數據到創新、創業中的中國民眾和相關機構來說,則可能是不得不面對事先沒有預備的重大經濟損失。

以上是小編為大家分享的關於從谷歌流感趨勢談大數據分析的光榮與陷阱的相關內容,更多信息可以關注環球青藤分享更多干貨

㈦ 大數據的弊端是什麼

大數據的弊端是可能造成數據泡沫風險。大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。

麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統資料庫軟體工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特徵。

結構

大數據包括結構化、半結構化和非結構化數據,非結構化數據越來越成為數據的主要部分。據IDC的調查報告顯示:企業中80%的數據都是非結構化數據,這些數據每年都按指數增長60%。

大數據就是互聯網發展到現今階段的一種表象或特徵而已,沒有必要神話它或對它保持敬畏之心,在以雲計算為代表的技術創新大幕的襯托下,這些原本看起來很難收集和使用的數據開始容易被利用起來了,通過各行各業的不斷創新,大數據會逐步為人類創造更多的價值。

㈧ 大數據需留意的六個安全問題

1、使數據易受攻擊


如今,所有數據都是數字化的,並且數量巨大,黑客始終可以在惡意內部人員的幫助下找到進入入侵的方式。如果他們以某種方式可以訪問你的關鍵數據,他們可以根據自己的目的進行修改,甚至刪除其中的一些數據。這就是為什麼完全依賴物聯網、大數據和實時數據分析的公司限制訪問並採取某些步驟來檢測假數據形成的原因。這是其數據保護協議的關鍵部分。


2、使訪問變得困難


使大數據生態系統有效的另一個重要因素是粒度訪問控制。根據等級、許可權可以授予不同人員不同級別的主數據訪問許可權。名義上,訪問控制使大數據更加安全。但是,隨著組織使用大量數據,增加復雜的控制面板可能變得更加微妙,並可能為更多潛在漏洞打開門戶。


3、需要某些安全審核


在每個系統開發中,幾乎都是需要安全審核的地方,特別是在大數據不安全的地方。但是,考慮到使用大數據已經帶來了廣泛的挑戰,這些安全審核通常被忽略,這些審核只是添加到列表中的另一件事。這種態度與以下事實結合在一起:許多公司仍需要能夠設計和實施此類安全審核的合格人員。


4、分散的框架


使用大數據的公司可能需要在不同系統之間分布數據分析。例如,Hadoop是一種開放源代碼軟體,旨在在大數據生態系統中進行靈活和分散的計算。但是,該軟體初根本沒有安全性,因此在分散的框架中有效的安全性仍然是要實現的挑戰。


5、數據來源


找到我們的數據來源確實有助於確定違規的來源。你可以使用元數據來跟蹤數據流。無論如何,即使對於大型公司,元數據管理也是一個自我戰略問題。如果沒有正確的框架,實時跟蹤此類非結構化數據將是一個挑戰。盡管這是一個持續存在的問題,但它並不是大數據問題。


6、實時合規


實時大數據分析在公司的競爭中越來越受歡迎。但是,實時實施這種工具更加復雜,並且還會產生大量的數據。


此類工具的開發方式應使它們在現實中不存在威脅時能夠規避對違規行為的錯誤警告。因此,發現此類錯誤警告可能很耗時。他們分散了白帽黑客的注意力,使其免受真正的故障和攻擊並浪費資源。


關於大數據需留意的六個安全問題,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。

㈨ 騙子利用大數據進行電信詐騙的「九大套路」

騙子利用大數據進行電信詐騙的「九大套路」
如今的電信詐騙,已經不只是發個簡訊通知中獎,或者「領導」打電話讓你去辦公室那麼簡單的伎倆了。通過大數據分析盤點電信詐騙的「九大套路」,幫助消費者擦亮雙眼,看穿騙局。最重要的是,在個人信息泄露泛濫的今天,心中一定要有根弦——沒有免費的午餐。

套路一
「你的賬戶有資金異常變動
騙子首先竊取了受害者網銀登陸賬號和密碼,通過購買貴金屬、活期轉定期等操作製造銀行卡上有資金流出的假象。然後假冒客服打電話確認交易是否為本人操作,並同意給用戶退款騙取用戶信任。騙子會再次通過賬戶內部的資金交易,製造用戶賬戶有資金退回的假象,但由於存在交易手續費的問題,所以退款額一般比之前的賬戶內部交易金額要小。接下來,騙子會使用受害者網銀進行轉賬操作,或開通快捷支付操作,並選擇簡訊驗證碼的方式進行驗證,這樣一來,受害者的手機上就會收到一條驗證碼簡訊。最後,騙子再以限時退款為由,要求受害者立即提供自己手機收到的驗證碼,受害者一旦把簡訊驗證碼提供給了對方,對方就得手了。
怎麼破:幾乎天衣無縫。最簡單有效的辦法是,立即直接撥打銀行的官方客服電話進行核實,別相信任何主動呼入的、自稱是客服的電話。
電信詐騙九大套路
套路二
「你涉嫌違法了」
「你涉嫌洗錢」、「你涉嫌非法集資」、「你信用透支需負刑事責任」,這些都是冒充公檢法實施詐騙的由頭。這種手法並不新鮮,但由於其極具恐嚇性,不了解此類詐騙的人還是很容易上當。現在很多騙子通過改號軟體偽裝成官方客服電話,但如果受害者真的反撥回去,一般就能識破騙局。甚至還出現了「升級版」:騙子以贈送免費物品為由,引導用戶通過電話下單,以貨到付款的形式郵寄,若用戶拒絕簽收快遞或者退貨,詐騙者便以公檢法的口吻對用戶進行威脅恐嚇,進行詐騙。
怎麼破:不要輕易相信陌生人打來的電話,如果有人說自己涉嫌犯罪,應當首先撥打110詢問。或向身邊的親友詢問一下,一般都能很快識破騙局。
套路三
「您乘坐的××航班取消了」
手機訂機票成了網路詐騙的風口。騙子謊稱改簽退票等理由,引導民眾進入釣魚網站,虛假號碼,進行到匯款的陷阱。《騰訊2016年第二季度反電信網路詐騙大數據報告》顯示,這一詐騙類型高達44%,成為網路詐騙主流。騙子能夠准確說出受害者的姓名、航班信息,多以可以獲得改簽補償金的名義進行詐騙。
怎麼破:機票退改簽業務,通過航空公司、票務代理商等正規渠道的網站、電話、服務廳辦理,別相信任何電話、簡訊,即使與本人信息完全相符。
套路四
「你購買的商品斷貨,可以申請退款」
騙子首先完全掌握了受害者的網購信息,並通過准確的描述受害者購物信息來取得受害者的信任,進而套取受害者的銀行卡號、密碼和簡訊驗證碼。騙子們有的時候是直接用電話套取相關信息,有時也會讓受害者打開釣魚網站並手動填寫相關信息。銀行卡號、密碼、驗證碼同時泄露,騙子就順利地將受害者網銀賬戶中的錢轉走了。
怎麼破:遇到商品交易出現異常、斷貨等情況,應當首先向購物網站的官方客服電話進行咨詢,不要輕易相信主動呼入的、自稱是客服的人。網購賬號、支付賬號應當單獨設置密碼,並且密碼要足夠復雜,定期更換。
套路五:「向您推薦十大牛股」
此類騙術通常以學習股票知識、推薦股票為名,向用戶收取押金或保證金,對那些急於求成的新股民尤為有效。事實上,正規的證券公司一般是不會向股民提供付費薦股服務的,更不會以此為名向用戶收取押金或保證金。他們通常發來所謂公司的營業執照、工商證明或組織機構代碼等的照片或圖片,只要撥打證券公司的官方客服進行詢問也就能清楚了。
怎麼破:不要相信任何薦股、選股信息,不論這些信息是來自網站、QQ、簡訊還是電話。可通過回撥官方客服電話的方式求證。
套路六:「699元免費贈送蘋果6S」
最近湖南警方通告的一起新型詐騙案,某詐騙團伙以「收取699元個人所得稅,免費贈送蘋果6S手機和700元電話卡」名義,向被害人寄送假冒、損壞手機或手機模具進行詐騙,兩個月里先後詐騙受害群眾數百人,詐騙金額數十萬元。
怎麼破:以貌似合法促 銷的名義進行詐騙,不能存僥幸心理,哪有天上掉餡餅的好事。
套路七:「請您及時領取新生兒補貼」
犯罪分子以領取新生兒補貼為由行騙,由於他們能說出受害人的詳細信息,讓受騙人信以為真。騙子在獲取受害人銀行賬號之後,通常會要求受害人到 ATM自動取款機操作,按照對方的「引導」進入英文操作界面。由於受害者看不懂ATM機上的英文提示,往往把轉賬程序當成輸入驗證碼,最終上當。
怎麼破:此類電話或簡訊,切勿輕信,更不要到ATM操作。
套路八:補換手機卡
最近出現的這種詐騙,其套路通常是先用幾百條垃圾簡訊和騷擾電話轟炸手機,以掩蓋由10086客服發送到手機號碼上的補卡業務提醒簡訊;然後,拿著一張有受害者信息的臨時身份證,去營業廳現場補辦手機卡,使得機主本人的手機卡被動失效;最後就是更改手機客服密碼和銀行卡密碼,並通過簡訊驗證碼把綁定在手機APP上的銀行卡的錢盜走。
怎麼破:常用網站密碼、客服密碼與銀行密碼和其他關鍵業務登錄密碼最好不相同,而且要定期修改;對於各類號碼發送的鏈接,不要隨意點擊。如果接收到大量騷擾電話或簡訊,切勿關機,應使用手機安全軟體屏蔽騷擾號碼,並立刻解除銀行卡綁定;在使用公共WiFi的場合下,盡量不要登錄手機中的銀行類 APP或者使用手機轉賬。
套路九:「小三懷孕了急需錢做流產」
這是長期活躍的一種詐騙類型,但是最近一個「小三懷孕了急需錢做流產」的騙子電話蒙了80多位老人。騙子充分利用老年人心疼兒子的特點,誘惑受害者轉賬,這是比較新的手段,是騙子在騙術上的不斷翻新與改進。
怎麼破:不要輕易相信陌生人打來的電話,尤其是急事急需打款。電信詐騙九大套路
160萬人分布在黑色產業鏈
幾十個工種環環相扣
電信詐騙的戲碼每天都在上演,詐騙者的劇本也在不斷翻新。某網站首席反詐騙專家裴智勇表示,如今電信詐騙已形成從上游的個人信息攫取、兜售到實施詐騙、分贓的黑色產業鏈。令人瞠目結舌的是,這個鏈條越來越產業化、專業化,分工越來越細,新的角色不斷冒出,二三十個「工種」環環相扣。
根據某網站獵網平台的數據,中國信息詐騙產業規模超過1152億元,詐騙從業者超過160萬人。電信詐騙屢屢成功,究其原因,安全專家認為,電信詐騙數量巨大、信息泄露現象普遍、產業鏈完善、從業人員經過體系化的培訓等都成為關鍵因素。
據了解,詐騙產業鏈上至少分為四大環節:上游的信息獲取、中間的批發銷售、面向公眾實施詐騙、最後的分贓銷贓。在這四大環節上,又有釣魚編輯、木馬開發、盜庫黑客、釣魚零售商、域名販子、個信批發商、銀行卡販子、電話卡販子、身份證販子、電話詐騙經理、簡訊群發代理、在線推廣技師、財務會計師、 ATM小馬仔、分贓中間人等多個工種環環相扣,將受害人一步步引入陷阱。

閱讀全文

與大數據的陷阱相關的資料

熱點內容
外來視頻會存在哪個文件夾 瀏覽:391
海霧結局沒看懂 瀏覽:562
黃金店鋪app是干什麼用 瀏覽:674
拍視頻刪除了怎麼還出現在文件 瀏覽:155
最全的下載小說的論壇 瀏覽:410
求個小說網站 瀏覽:19
可緩沖視頻網站 瀏覽:606
app拖動效果 瀏覽:2
家裡面網路很差是什麼原因 瀏覽:714
tsnme 瀏覽:605
機器和數據科學哪個好 瀏覽:96
有沒有那網址直接可以在線看片 瀏覽:350
樓上偷窺樓下韓國電影 瀏覽:533
海災難電影中國 瀏覽:395
香港在線 瀏覽:499
大數據採集平台設計 瀏覽:77
韓國強奸經典三及電影有哪些 瀏覽:9
優酷默認的文件在哪裡 瀏覽:556
建立網站教程 瀏覽:946
linux怎樣修改帶括弧的文件 瀏覽:408

友情鏈接