大數據hadoop原理_大數據都是需要什麼技術的

㈠為什麼要使用Hadoop

感覺現在各個公司使用Hadoop的方式都不一樣，主要我覺得有兩種吧。
第一種是long running cluster形式，比如Yahoo，不要小看這個好像已經沒什麼存在感的公司，Yahoo可是Hadoop的元老之一。這種就是建立一個Data Center，然後有幾個上千Node的Hadoop Cluster一直在運行。比較早期進入Big Data領域的公司一般都在使用或者使用過這種方式。
另一種是只使用MapRece類型。畢竟現在是Cloud時代，比如AWS的Elastic MapRece。這種是把數據存在別的更便宜的地方，比如s3，自己的data center， sql database等等，需要分析數據的時候開啟一個Hadoop Cluster，Hive/Pig/Spark/Presto/java分析完了就關掉。不用自己做Admin的工作，方便簡潔。
所以個人如果要學Hadoop的話我也建議第二種，AWS有免費試用時間（但是EMR並不免費，所以不要建了幾千個Node一個月後發現破產了），可以在這上面學習。最重要的是你可以嘗試各種不同的配置對於任務的影響，比如不同的版本，不同的container size，memory大小等等，這對於學習Spark非常有幫助。
總的來說Hadoop適合應用於大數據存儲和大數據分析的應用，適合於伺服器幾千台到幾萬台的集群運行，支持PB級的存儲容量。Hadoop典型應用有：搜索、日誌處理、推薦系統、數據分析、視頻圖像分析、數據保存等。

㈡大數據的Hadoop是做什麼的

Hadoop是一個由抄Apache基金會所開發的分布式系統基礎架構，是用Java語言開發的一個開源分布式計算平台，適合大數據的分布式存儲和計算平台。
Hadoop是目前被廣泛使用的大數據平台，本身就是大數據平台研發人員的工作成果，Hadoop是目前比較常見的大數據支撐性平台。

㈢ Hadoop在大數據中有什麼作用

HDFS按照Master和Slave的結構。分為NameNode、SecondaryNameNode、DataNode這幾個角色。

NameNode：是Master節點，是大領導。管理數據塊映射;處理客戶端的讀寫請求;配置副本策略;管理HDFS的名稱空間。

SecondaryNameNode：是一個小弟，分擔大哥namenode的工作量;是NameNode的冷備份;合並fsimage(元數據鏡像文件，文件系統的目錄樹)和fsedits(元數據的操作日誌，針對文件系統做的修改操作記錄)，然後再發給namenode。

DataNode：是Slave節點，是奴隸，幹活的。負責存儲客戶端發來的block;執行block的讀寫操作。NameNode和DataNode之間的通信是通過心跳機制實現的。

Map(映射)任務處理：

讀取HDFS中的文件。每一行解析成一個。每一個鍵值對調用一次map函數。map函數接收前面產生的，進行處理，轉換為新的輸出。對轉換後的進行分區。對不同分區中的數據按key進行排序、分組。分組指的是相同key的value放到一個集合中。

Rece(歸約)任務處理：

多個map任務的輸出，按照不同的分區，通過網路到不同的rece節點上。對多個map的輸出進行合並、排序。覆蓋rece函數，接收的是分組後的數據，實現自己的業務邏輯，處理後，產生新的輸出。對rece輸出的寫到HDFS中。

關於Hadoop在大數據中有什麼作用，青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣，希望這篇文章能夠對你有所幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容，可以點擊本站的其他文章進行學習。

㈣大數據應用較多的技術都有哪些

簡單說有三大核心技術：拿數據，算數據，賣數據。通用化的大數版據處理框架，主要分為權下面幾個方面：數據採集與預處理、數據存儲、數據清洗、數據查詢分析和數據可視化。涉及到的技術很多
Logstash
Sqoop
Strom
Zookeeper
Hadoop
等等

㈤ hadoop的特點

通俗來講，Hadoop是由Apache軟體基金會所開發出來的開放源代碼分布式計算技術，是專門針對大量且結構復雜的大數據分析所設計，其目的不是為了瞬間反應、擷取和分析數據，而是通過分布式的數據處理模式，大量掃描數據文件以產生結果。其在效能與成本上均具有優勢，再加上可通過橫向擴充，易於應對容量增加的優點，因而備受矚目。Hadoop不需要使用商業伺服器，一般在個人計算機上就能運轉。用戶可利用網路連接兩台以上的電腦組成伺服器群，即所謂的「叢集」，叢集內的主機會分工合作處理數據。隨著需要處理的數據量越來越大，只要不斷增加計算機數量，而不需修改應用程序代碼，就能立即提高Hadoop的運算能力。總而言之，Hadoop可以用更低的成本，得到更高的運算效能，提高數據分析的能力，也難怪有些人稱Hadoop為大數據的救星，這說法雖然誇張，但卻有幾分真實，因為通過Hadoop，就算資金不夠雄厚的個人或組織，也能分析大量的結構與非結構數據。

㈥大數據只需要掌握hadoop嗎

如果抄只是應用Hadoop/Spark進行數據分析，那麼JavaSE只需要基本了解就行了，重點在於深入理解Hadoop/Spark各自的計算模型和實現原理，以及常見的數據分析方法和分布式演算法。實際的分析工作，甚至可以不使用java，使用各自的streaming介面用任意語言編寫。另外，Spark與Hadoop不同，原生語言是Scala。

如果要深入學習兩個框架的實現，閱讀源代碼的話，那肯定就得學習Java/Scala了，建議在掌握基礎之後邊看代碼邊查相應的語言特性。

對初學者，建議還是從應用入手，在使用的過程中，自然地一步步了解實現。

㈦為什麼會有第一代大數據hadoop和第二代大數據spark

首先看一下Hadoop解決了什麼問題，Hadoop就是解決了大數據（大到一台計算機無法進行存儲，一台計算機無法在要求的時間內進行處理）的可靠存儲和處理。

HDFS，在由普通PC組成的集群上提供高可靠的文件存儲，通過將塊保存多個副本的辦法解決伺服器或硬碟壞掉的問題。
MapRece，通過簡單的Mapper和Recer的抽象提供一個編程模型，可以在一個由幾十台上百台的PC組成的不可靠集群上並發地，分布式地處理大量的數據集，而把並發、分布式（如機器間通信）和故障恢復等計算細節隱藏起來。而Mapper和Recer的抽象，又是各種各樣的復雜數據處理都可以分解為的基本元素。這樣，復雜的數據處理可以分解為由多個Job（包含一個Mapper和一個Recer）組成的有向無環圖（DAG）,然後每個Mapper和Recer放到Hadoop集群上執行，就可以得出結果。

㈧為何要學Hadoop

這是現在流行的大數據處理平台幾乎已經成為大數據的代名詞，所以這個是必學的。Hadoop裡麵包括幾個組件HDFS、MapRece和YARN，HDFS是存儲數據的地方就像我們電腦的硬碟一樣文件都存儲在這個上面，MapRece是對數據進行處理計算的，它有個特點就是不管多大的數據只要給它時間它就能把數據跑完，但是時間可能不是很快所以它叫數據的批處理。YARN是體現Hadoop平台概念的重要組件有了它大數據生態體系的其它軟體就能在hadoop上運行了，這樣就能更好的利用HDFS大存儲的優勢和節省更多的資源比如我們就不用再單獨建一個spark的集群了，讓它直接跑在現有的hadoop yarn上面就可以了。其實把Hadoop的這些組件學明白你就能做大數據的處理了，只不過你現在還可能對"大數據"到底有多大還沒有個太清楚的概念，聽我的別糾結這個。等以後你工作了就會有很多場景遇到幾十T/幾百T大規模的數據，到時候你就不會覺得數據大真好，越大越有你頭疼的。當然別怕處理這么大規模的數據，因為這是你的價值所在，讓那些個搞Javaee的php的html5的和DBA的羨慕去吧。

㈨大數據都是需要什麼技術的

大數據技來術龐大復雜自，基礎的技術包含數據的採集、數據預處理、分布式存儲、NoSQL資料庫、數據倉庫、機器學習、並行計算、可視化等范疇

查詢引擎：Phoenix、Shark、Pig、Hive等

流式計算：storm、Twitter Rainbird等

迭代計算：Apache Hama、Apache Giraph、HaLoop等

離線計算：Hadoop MapRece、Berkeley Spark等

鍵值存儲：LevelDB、RocksDB、HyperDex、Voldemort等

表格存儲：OceanBase、Amazon SimpleDB、Cassandra、HBase等

文件存儲：CouchDB、MongoDB、HDFS等

資源管理：Twitter Mesos、Hadoop Yarn

㈩ hadoop框架的核心是什麼

maprece
由於現在大家都接觸的是hadoop2.x。對於hadoop1.x了解還是比較少的。
很多人問，如果沒有1.x的基礎，能否學習hadoop2.x。答案是可以的。但是如果了解hadoop1.x有助於我們理解hadoop2.x。
我們來看看hadoop1.x存在哪些問題？

hadoop有jobtracker,trasktracker.對於jobtracker,trasktracker剛接觸其實還是比較抽象的。可能多次遇到過。但是對於它的認識和理解還是比較模糊。
我們這里打個比喻：在一個組織結構中，既有管理者，又有執行者。而jobtracker,trasktracker則是管理者，執行者是map task和rece task。

trasktracker像是一個中層管理者，既監控執行者--map task和rece task，如果map任務或rece任務有更新，會通過心跳（一般間隔是3秒）告訴TraskTracker，TraskTracker再通過心跳（一般至少5s，因為代價比較大）告訴JobTracker。

JobTracker是最高層管理者，它接受trasktracker的心跳，負責資源管理和job的調度。

上面如果你思維謹密，就能看出，如果一旦最高層管理JobTracker掛掉，那麼整個集群就癱瘓了。
為什麼那？
1.不能提交job。
2.不能分配資源
3.job無法調度
這就有點像一個國家的leader掛掉了，那麼誰會來負責國家的運轉。如果你了解運行機制，其實也是有方案的。而這個方案就是我們所熟悉的高可用方案。而如果JobTracker掛掉了，顯然hadoop集群就掛掉了。所以顯然hadoop1.x是存在缺陷的。

既然存在缺陷，那麼我們該如何來彌補。如果還是在原先的框架上修改，弄兩個jobtracker是否可以。這肯定是一種方案。但是hadoop也是有野心的。作為大數據最初的開拓者，Spark，storm都非常的活躍。
所以我們列出了，hadoop需改造的下面需求：
1.hadoop存在單點故障
2.hadoop能否統一spark，storm

從上面我們看到hadoop自身存在問題，需要改造，同時又想統一spark和storm。所以hadoop急切需要改造升級。

這里想到了很多種解決方案。

方案1：兩個jobtraker

hadoop自身來講，既然存在單點故障，所以那麼我們可以創建兩個jobtraker，這是否可以。答案是可以的。因為一旦一個掛掉。我們啟用另外一個jobtraker，這也是合適的。但是還存在另外一個問題，就是該如何統一spark和storm。如果spark和storm運行的話，兩個jobtraker是否可以。答案是不行的，因為jobtraker其實還是沒有脫離他本身的框架，只能運行hadoop的map和rece。spark的DAG和storm的拓撲，還是不能運行的。那如果你說我們在jobtraker中加入不就行了。可是這是相當麻煩的，jobtraker肯定會累死的，他的任務太多。顯然需要分離的職務。

方案2：Yarn
兩個jobtraker是不行了，那麼就從jobtraker職能分離並且解決存在的問題
1.性能問題
2.單點故障
3.能運行maprece，spark，storm。

所以這時候就產生了Yarn。

補充hadoop的發展歷程
（1）Hadoop 1.0
Hadoop 1.0即第一代Hadoop，由分布式存儲系統HDFS和分布式計算框架MapRece組成，其中，HDFS由一個NameNode和多個DataNode組成，MapRece由一個JobTracker和多個TaskTracker組成，對應Hadoop版本為Apache Hadoop 0.20.x、1.x、0.21.X、0.22.x和CDH3。
（2）Hadoop 2.0
Hadoop 2.0即第二代Hadoop，為克服Hadoop 1.0中HDFS和MapRece存在的各種問題而提出的。針對Hadoop 1.0中的單NameNode制約HDFS的擴展性問題，提出了HDFS Federation，它讓多個NameNode分管不同的目錄進而實現訪問隔離和橫向擴展，同時它徹底解決了NameNode 單點故障問題；針對Hadoop 1.0中的MapRece在擴展性和多框架支持等方面的不足，它將JobTracker中的資源管理和作業控制功能分開，分別由組件ResourceManager和ApplicationMaster實現，其中，ResourceManager負責所有應用程序的資源分配，而ApplicationMaster僅負責管理一個應用程序，進而誕生了全新的通用資源管理框架YARN。基於YARN，用戶可以運行各種類型的應用程序（不再像1.0那樣僅局限於MapRece一類應用），從離線計算的MapRece到在線計算（流式處理）的Storm等。Hadoop 2.0對應Hadoop版本為Apache Hadoop 0.23.x、2.x和CDH4。

（3）MapRece 1.0或MRv1
MapRece 1.0計算框架主要由三部分組成，分別是編程模型、數據處理引擎和運行時環境。它的基本編程模型是將問題抽象成Map和Rece兩個階段，其中Map階段將輸入數據解析成key/value，迭代調用map()函數處理後，再以key/value的形式輸出到本地目錄，而Rece階段則將key相同的value進行規約處理，並將最終結果寫到HDFS上；它的數據處理引擎由MapTask和ReceTask組成，分別負責Map階段邏輯和Rece階段邏輯的處理；它的運行時環境由（一個）JobTracker和（若干個）TaskTracker兩類服務組成，其中，JobTracker負責資源管理和所有作業的控制，而TaskTracker負責接收來自JobTracker的命令並執行它。該框架在擴展性、容錯性和多框架支持等方面存在不足，這也促使了MRv2的產生。
（4）MRv2
MRv2具有與MRv1相同的編程模型和數據處理引擎，唯一不同的是運行時環境。MRv2是在MRv1基礎上經加工之後，運行於資源管理框架YARN之上的計算框架MapRece。它的運行時環境不再由JobTracker和TaskTracker等服務組成，而是變為通用資源管理系統YARN和作業控制進程ApplicationMaster，其中，YARN負責資源管理和調度，而ApplicationMaster僅負責一個作業的管理。簡言之，MRv1僅是一個獨立的離線計算框架，而MRv2則是運行於YARN之上的MapRece。
（5）YARN
YARN是Hadoop 2.0中的資源管理系統，它是一個通用的資源管理模塊，可為各類應用程序進行資源管理和調度。YARN不僅限於MapRece一種框架使用，也可以供其他框架使用，比如Tez（將在第9章介紹）、Spark、Storm（將在第10章介紹）等。YARN類似於幾年前的資源管理系統Mesos（將在12章介紹）和更早的Torque（將在6章介紹）。由於YARN的通用性，下一代MapRece的核心已經從簡單的支持單一應用的計算框架MapRece轉移到通用的資源管理系統YARN。
（6）HDFS Federation
Hadoop 2.0中對HDFS進行了改進，使NameNode可以橫向擴展成多個，每個NameNode分管一部分目錄，進而產生了HDFS Federation，該機制的引入不僅增強了HDFS的擴展性，也使HDFS具備了隔離性。

導航:首頁 > 網路數據 > 大數據hadoop原理

大數據hadoop原理

與大數據hadoop原理相關的資料

友情鏈接