① 研究數據挖掘技術的研究方向怎麼填
這個可以從理論和應用兩個方面看,理論方面的話,數據挖掘技術的研究有統計學理論、機器學習、深度學習等方面;應用的話,會有一些大數據應用框架類,比如hadoop生態、一些大數據組件、MPP的一些框架等。
② 研究生什麼方向可以學大數據
研究生可以選擇計算機科學、數據分析、統計學、信息管理等專業方向來學習大數據。
大數據是當前重要的研究領域,許多專業方向都與大數據緊密相關。研究生想要學習大數據,可以選擇以下幾個方向:
1. 計算機科學專業。計算機科學是大數據領域的基礎學科,涵蓋了大數據處理、分析和應用等方面的知識。在這個專業方向,研究生可以學習大數據相關的演算法、編程語言和工具,以及如何處理大規模數據集。
2. 數據分析專業。數據分析是大數據領域中的重要分支,主要研究如何從大規模數據中提取有用信息。在這個專業方向,研究生可以學習數據分析的理論和方法,以及使用各種數據分析工具和軟體。
3. 統計學專業。統計學是數學的一個分支,是研究數據收集、分析、解釋和預測的學科。在大數據領域,統計學提供了重要的方法和工具來處理和分析大規模數據。研究生可以選擇統計學專業,深入學習概率論、數理統計等基礎知識,以及大數據相關的統計方法。
4. 信息管理專業。信息管理專業也涉及大數據領域,主要研究信息的組織、存儲、處理和利用。在這個專業方向,研究生可以學習大數據管理、信息檢索、數據挖掘等相關課程,以及如何將大數據應用於企業和組織的信息管理中。
總之,研究生可以通過選擇計算機科學、數據分析、統計學或信息管理等專業來學習大數據。這些專業提供了豐富的課程和實踐機會,幫助學生掌握大數據領域的理論和方法,為未來的職業發展奠定堅實基礎。隨著大數據領域的不斷發展,這些專業方向也將持續更新和演變,為學生提供更多的學習機會和挑戰。
③ 數據挖掘方面還有什麼研究方向嗎
數據挖掘領域主要包括以下方面:基礎理論研究(規則和模式挖掘、分類、聚類、話題學習、時間空間數據挖掘、機器學習方法,監督、非監督、半監督等)、社交網路分析和大規模圖挖掘(圖模式挖掘、社區發現、網路聚類系數估計、網路關系挖掘、網路用戶行為分析、網路信息傳播、社交網路應用,社交推薦(信息、好友等))、大數據挖掘(演算法的並行、分布式擴展、多源異構數據融合挖掘等)。數據挖掘應用(醫療、教育、金融等)。研究熱點是大數據挖掘、社交網路和大規模圖挖掘。
下面,在說一下什麼是大數據挖掘,它跟傳統的方法其本質區別是什麼?大數據挖掘可以分為三點:演算法的擴展、分布式框架開發、多源數據融合分析。通過閱讀KDD』13,KDD』14,幾篇KDD』15的big data session中的文章,幾乎百分之百的文章都提到了演算法的scalability。由此可見,現今大數據挖掘與傳統演算法的本質區別在於演算法的可擴展性。換句話說,現在研究的演算法在不僅僅能處理小規模數據集,當數據增加時也具有較大范圍內的適合。演算法的擴展,我理解為兩個方面:scale out-縱向擴展以及scale up-橫向擴展。縱向擴展最要在演算法底層、良好的數據結構設計或者並行設計方面。橫向擴展主要指演算法的分布式技術實現(自己編寫分布式演算法或者基於現有分布式框架實現)。這里所說的「大數據」,在不同的挖掘領域(文本、圖結構、機器學習、圖像)所對應的數據量是不同的。對文本來說,幾百萬個樣本可能就是「大數據」;對機器學習來說,千萬個樣本,幾十維、幾百維(MB/GB)就是「大數據」;對大規模圖挖掘來說,千萬級節點、億級邊(GB),也是「大數據」;對圖像數據,百萬級圖像(TB)完全可以稱得上「大數據」。那麼,要做演算法的可擴展性是不是必須用到並行技術、分布式編程技術?答案是一般需要,但並不絕對。演算法如果做到了極致,單台計算機也能處理「大數據」問題,比如:TurboGraph: A Fast Parallel Graph Engine Handing Billion-Scale Graphs in a Single PC. 文章僅僅在一台計算機上利用線程並行(多核)實現了計算機集群完成的工作。有些文章是用MATLAB來完成的實驗(Comparing apples to oranges: a scalable solution with heterogeneous hashing、Fast Flux Discrimination for Large-Scale Sparse Nonlinear Classification、Online Chinese Restaurant Process)、有些文章是利用hadoop集群來完成實驗、有些是利用C/JAVA語言編寫分布式程序實現、有些是利用多核CPU的多線程並行實現。可見,演算法的實現方式不重要,重要的是演算法具有scalability。多源數據融合以及挖掘分析也可以稱得上大數據挖掘,可能不見得數據集有非常大,但是通過多種數據的融合發現了之前完成不了的事情、或者之前完成效果不好的事情。比如:heterogeneous hashing文章用了兩個異構數據集(text、image)進行relation-aware分析。特別是微軟亞洲研究院在KDD』13 上的U-Air: When Urban Air Quality Inference Meets Big Data,這篇文章就是融合了5個數據集(氣象數據、空氣質量數據、POI數據、路網數據、軌跡數據),利用傳統的數據挖掘方法進行了融合分析,得到了較好的效果並進行了商業應用。附註:個人認為演算法也應該考慮擴展性,在面臨數據集增加時,看看是否還會能達到高效地預測結果。
總結:在大數據研究中,更多的是偏理論演算法的研究。可以這樣說,數據挖掘本身就是跟數據打交道,在特定情況下(數據集較大時或不斷增加時),數據挖掘的任何一個研究點都可能會遇到「大數據」問題。所以,真正需要做的是找准一個問題,利用傳統方法進行挖掘,並測試在大規模數據集下傳統演算法是否可行,如果不可行,提出演算法的改進版或者自己動手實現一個新的、具有可擴展性的演算法,這就是大數據研究的過程(也包括異構數據融合分析)。