在大數(shù)據(jù)時代，基于大數(shù)據(jù)技術(shù)的職位更有錢途，因此成為很多人的職業(yè)首選。在大數(shù)據(jù)技術(shù)中，大家常常聽到 Hadoop，很多剛開始接觸的人會問，什么是 Hadoop？它有什么作用？下面筆者就跟大家嘮叨嘮叨。

一、大數(shù)據(jù)介紹

1.1 什么是大數(shù)據(jù)

大數(shù)據(jù)（BigData）：指無法在一定時間內(nèi)用常規(guī)軟件工具對其進行獲取、存儲、管理和處理的數(shù)據(jù)集合。換句話說，大數(shù)據(jù)所包含的數(shù)據(jù)集合的大小，普通軟件沒有辦法在一個可以容忍的時間范圍內(nèi)完成大數(shù)據(jù)的捕獲和處理。

按順序給出數(shù)據(jù)存儲單位，如下圖。

1.2 大數(shù)據(jù)特點

目前，大家普遍認(rèn)為的大數(shù)據(jù)是具有 “4V”，即 Volume、Velocity、Variety、Veracity 特征的數(shù)據(jù)集合。如下圖，分別對每個特征作簡要描述。

1）Volume：生成和存儲的數(shù)據(jù)量巨大

隨著技術(shù)的發(fā)展，數(shù)據(jù)集合的規(guī)模不斷擴大，已經(jīng)從 GB 級增加到 TB 級再增加到 PB 級，近年來，數(shù)據(jù)量甚至開始以 EB 級和 ZB 級來計量。比如，百度每日處理的數(shù)據(jù)量達(dá)上百 PB，總的數(shù)據(jù)量規(guī)模已經(jīng)達(dá)到 EB 級。

2）Velocity：數(shù)據(jù)產(chǎn)生和處理速度快

加速的原因是數(shù)據(jù)創(chuàng)建的實時性特點，以及將流數(shù)據(jù)結(jié)合到業(yè)務(wù)流程和決策過程中的需求。數(shù)據(jù)處理速度快，處理模式已經(jīng)開始從批處理轉(zhuǎn)向流處理。比如，2020 天貓 “雙十一” 當(dāng)天，訂單創(chuàng)建峰值達(dá) 58.3 萬筆/秒。

3）Variety：數(shù)據(jù)源和數(shù)據(jù)種類多樣

現(xiàn)在要處理的數(shù)據(jù)來源不只是格式化數(shù)據(jù)，更多的是半結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)。比如關(guān)系數(shù)據(jù)庫、NoSQL、即時消息、圖片、音視頻流等，而且每天都會產(chǎn)生新的數(shù)據(jù)格式和數(shù)據(jù)源。

4）Veracity：數(shù)據(jù)的價值密度低

由于大數(shù)據(jù)總體量不斷加大，單位數(shù)據(jù)的價值密度逐漸降低，然而數(shù)據(jù)的整體價值不斷提高。比如，在城市的道路上增設(shè)信號燈，在 24 小時內(nèi)的監(jiān)控中，有用的數(shù)據(jù)可能僅僅只有幾分鐘，但是卻降低了 50% 以上的交通事故率。

1.3 大數(shù)據(jù)應(yīng)用場景

大數(shù)據(jù)無處不在，大數(shù)據(jù)應(yīng)用于各個行業(yè)，包括旅游、金融和零售等在內(nèi)的社會各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)的軌跡。

1）旅游

深度結(jié)合大數(shù)據(jù)能力與旅游行業(yè)需求，共建旅游產(chǎn)業(yè)智慧管理、智慧服務(wù)和智慧營銷的未來。

2）金融

多維度體系用戶特征，幫助金融機構(gòu)推薦優(yōu)質(zhì)客戶，防范欺詐風(fēng)險。

其中，欺詐風(fēng)險的防控，本質(zhì)上也是通過對歷史欺詐行為的分析，不斷梳理完善風(fēng)險特征庫，比如異地登錄、非常用設(shè)備登錄等行為，都是一種風(fēng)險信號，建立一系列的風(fēng)險規(guī)則判定集，預(yù)測用戶行為背后的欺詐概率。

3）零售

嘗試多維度給用戶推薦可能喜歡的商品。如下圖，筆者輸入 “松達(dá)” 關(guān)鍵字，立刻推薦了 7 組關(guān)鍵字，太了解我了，么么噠！

大數(shù)據(jù)的價值，遠(yuǎn)遠(yuǎn)不止于此，大數(shù)據(jù)對各行各業(yè)的滲透，大大推動了社會生產(chǎn)和生活，未來必將產(chǎn)生重大而深遠(yuǎn)的影響。

二、 Hadoop 介紹

2.1 什么是 Hadoop？

Hadoop 是一個由 Apache 軟件基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)，具有高容錯、高可靠性、高擴展性等特點。特別適合寫一次，讀多次的場景。

Hadoop 的核心架構(gòu)

Hadoop 以分布式文件系統(tǒng) HDFS 和分布式運算框架 MapReduce 為核心，為用戶提供系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。其中，HDFS 的高容錯性、高伸縮性等優(yōu)點允許用戶將 Hadoop 部署在低廉的硬件上，形成分布式文件系統(tǒng)；MapReduce 允許用戶在不了解分布式系統(tǒng)底層細(xì)節(jié)的情況下開發(fā)并行應(yīng)用程序。所以，Hadoop 具有高容錯、高可靠性、高擴展性等特點。

Hadoop 目前版本（2.0 版）含有以下模塊（如下圖）：

1）HDFS：是支持應(yīng)用數(shù)據(jù)高吞吐量訪問的分布式文件系統(tǒng)；

2）YARN：是用于作業(yè)調(diào)度和集群資源管理的框架；

3）MapReduce：基于 YARN 的大數(shù)據(jù)并行處理系統(tǒng)；

4）Others：支持其他 Hadoop 模塊的通用工具集。

Hadoop 2.0 比起 Hadoop 1.0 來說，在 HDFS 之上，增加了 YARN（分布式資源管理）層。它是一個資源管理模塊，為各類應(yīng)用程序提供資源管理和調(diào)度。

此外，Hadoop 2.0 版本還提升了系統(tǒng)的穩(wěn)定性。所以，現(xiàn)在企業(yè)里基本上都是使用 2.X 版本。

2.2 Hadoop 的生態(tài)系統(tǒng)

生態(tài)系統(tǒng)，顧名思義就是很多組件組成的一個生態(tài)鏈，經(jīng)過多年的發(fā)展，Hadoop 生態(tài)系統(tǒng)不斷完善和成熟。目前已經(jīng)包括了多個部件，除了核心的 HDFS、YARN 和 MapReduce 以外，Hadoop 生態(tài)系統(tǒng)還包括 Zookeeper、HBase、Hive、Spark、Sqoop、Flume、Ambari 等功能組件。

在整個 Hadoop 架構(gòu)中，計算框架（如 MapReduce、Tez 等）起到承上啟下的作用，一方面可以操作 HDFS 中的數(shù)據(jù)，另一方面可以被封裝，以方便上層組件（如 Hive、Pig 等）調(diào)用。

下面筆者簡單介紹其中幾個比較常用的組件。

2.2.1 HDFS

HDFS 是一個高度容錯性的分布式文件系統(tǒng)，適合部署在廉價的機器上。HDFS 能提供高吞吐量的數(shù)據(jù)訪問，非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。

HDFS 適應(yīng)一次寫入，多次讀出的場景，且不支持文件的修改。由于不便修改、延遲大、網(wǎng)絡(luò)開銷大、成本高，適合用來做數(shù)據(jù)分析，不適合用來做網(wǎng)盤。

1）HDFS 架構(gòu)

HDFS 采用 master/slave（主/從）架構(gòu)。一個 HDFS 集群是由一個 NameNode 和若干數(shù)目的 DataNodes 組成，如下圖。

（1）NameNode

NameNode 是主節(jié)點，是一個中心服務(wù)器，負(fù)責(zé)管理文件系統(tǒng)的名字空間（Namespace）以及客戶端對文件的訪問。具體說的話，NameNode 執(zhí)行文件系統(tǒng)的名字空間操作，例如打開、關(guān)閉、重命名文件或目錄。它也負(fù)責(zé)確定數(shù)據(jù)塊到具體 DataNode 節(jié)點的映射。并且，在 NameNode 的統(tǒng)一調(diào)度下進行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制。

（2）Secondary NameNode

定時與 NameNode 進行同步（定期合并文件系統(tǒng)鏡像和編輯日志，然后把合并后的傳給 NameNode，替換其鏡像，并清空編輯日志），但 NameNode 失效后仍需要手工將其設(shè)置成主機。

（3）DataNode

集群中的 DataNode 一般是從節(jié)點，是文件存儲的最基本的單元。它將數(shù)據(jù)塊（Block）存儲在本地文件系統(tǒng)中，并保存了數(shù)據(jù)塊（Block）的元信息，同時周期性地向所有存儲該數(shù)據(jù)塊（Block）信息的 NameNode 發(fā)送信息。

（4）數(shù)據(jù)塊（Block）的概念

Block 是 HDFS 中的基本存儲單位，默認(rèn)大小在 Hadoop2.x 版本中為 128MB，老版本中是 64MB；

一個大文件會被拆分成一個個的塊，然后存儲于不同的機器。如果一個文件少于 Block 大小，那么實際占用的空間為其文件的大??；

基本的讀寫單位，類似于磁盤的頁，每次都是讀寫一個塊。

2）HDFS 文件讀寫

（1）寫文件

Client 向 NameNode 發(fā)送數(shù)據(jù)寫操作請求，包括文件名和目錄路徑等部分?jǐn)?shù)據(jù)信息；NameNode 告訴 Client 到哪個數(shù)據(jù)節(jié)點進行具體的數(shù)據(jù)寫入；Client 直接將文件數(shù)據(jù)傳輸給 DataNode，由 DataNode 的后臺程序負(fù)責(zé)將數(shù)據(jù)保存到服務(wù)器的本地文件系統(tǒng)之中。

（2）讀文件

Client 向 NameNode 發(fā)送數(shù)據(jù)讀操作請求，NameNode 向客戶端發(fā)送組成該文件的數(shù)據(jù)塊的位置列表（即每個數(shù)據(jù)塊存儲哪些 DataNode），Client 直接從這些 DataNode 讀取文件數(shù)據(jù)（在讀數(shù)據(jù)過程中，NameNode 不參與文件的傳輸），如下圖。

2.2.2 MapReduce

MapReduce 是一個分布式計算軟件框架，具有擴展性良好、高容錯性的特點，且支持處理 T 級別的數(shù)據(jù)離線處理。

在 MapReduce 中，一個準(zhǔn)備提交執(zhí)行的應(yīng)用程序稱為 “作業(yè)（job）”，而從一個作業(yè)劃分出的運行于各個計算節(jié)點的工作單元稱為 “任務(wù)（task）”。

一個 MapReduce1.0 作業(yè)（job）通常會把輸入的數(shù)據(jù)集切分為若干獨立的數(shù)據(jù)塊，由 map 以完全并行的方式處理任務(wù)（task）?？蚣軙?map 的輸出先進行排序，然后把結(jié)果輸入給 reduce。通常作業(yè)的輸入和輸出都會被存儲在文件系統(tǒng)中。整個框架負(fù)責(zé)任務(wù)的調(diào)度和監(jiān)控，以及重新執(zhí)行已經(jīng)失敗的任務(wù)。舉個官方提供的 WordCount 例子，如下圖。

在 WordCount 程序中，MapReduce 會對輸入的作業(yè)（job）先進性切分，這一步其實就是分治算法中 “分” 的過程。切分后不同部分就會讓不同的機器去執(zhí)行 Map 操作。而后便是 Shuffle（實質(zhì)是歸并排序），這一階段會將相同的單詞加到一起，最后再進行 Reduce（規(guī)約），統(tǒng)計出結(jié)果并輸出到文件。

通常，MapReduce 由一個單獨的 Master JobTracker 和每個集群節(jié)點上一個 Slave TaskTracker 共同組成。Master 負(fù)責(zé)調(diào)度構(gòu)成一個作業(yè)的所有任務(wù)，這些任務(wù)分布在不同的 Slave 上，Master 監(jiān)控它們的執(zhí)行，并且監(jiān)控重新執(zhí)行已經(jīng)失敗的任務(wù)。而 Slave 僅負(fù)責(zé)執(zhí)行由 Master 指派的任務(wù)。

2.2.3 YARN

YARN 是 Hadoop2.0 中的資源管理系統(tǒng)，它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨大好處。

它的基本設(shè)計思想是將 MRv1 中的 JobTracker 拆分成了兩個獨立的服務(wù)：一個全局的資源調(diào)度器 ResourceManager 和每個應(yīng)用程序特有的應(yīng)用程序管理器 ApplicationMaster，該調(diào)度器是一個 “純調(diào)度器”，不再參與任何與具體應(yīng)用程序邏輯相關(guān)的工作，而僅根據(jù)各個應(yīng)用程序的資源需求進行分配，資源分配的單位用一個資源抽象概念 “Container” 來表示，Container 封裝了內(nèi)存和 CPU。

此外，調(diào)度器是一個可插拔的組件，用戶可根據(jù)自己的需求設(shè)計新的調(diào)度器，YARN 自身提供了 Fair Scheduler 和 Capacity Scheduler。

應(yīng)用程序管理器負(fù)責(zé)管理整個系統(tǒng)中所有應(yīng)用程序，包括應(yīng)用程序的提交、與調(diào)度器協(xié)商資源以啟動 ApplicationMaster、監(jiān)控 ApplicationMaster 運行狀態(tài)并在失敗時重新啟動等。

2.2.4 Hive

Hive 由 Facebook 實現(xiàn)并開源，是基于 Hadoop 的一個數(shù)據(jù)倉庫工具，可以將結(jié)構(gòu)化的數(shù)據(jù)映射為一張數(shù)據(jù)庫表，并提供 HQL（Hive SQL）查詢功能。

其實，Hive 的本質(zhì)就是將 SQL 語句轉(zhuǎn)換成 MapReduce 任務(wù)執(zhí)行，也就是說，使不熟悉 MapReduce 的用戶很方便地使用 HQL 處理和計算 HDFS 上的結(jié)構(gòu)化的數(shù)據(jù)，如下圖。

1）Hive的架構(gòu)

（1）Hive的用戶接口層

CLI，即 Shell 終端命令行，采用交互形式使用 Hive 命令與 Hive 進行交互。

JDBC/ODBC，開發(fā)人員或運維人員通過 JDBC 提供的客戶端連接至 Hive server 服務(wù)。

Web UI，通過瀏覽器訪問 Hive。

（2）跨語言服務(wù)

Thrift server 提供了一種能力，用戶可以使用多種不同的語言（如Java、C++、Ruby等）來操作 Hive。

（3）底層的 Driver

Driver 組件完成 HQL 查詢語句從詞法分析、語法分析、編譯、優(yōu)化及生成邏輯執(zhí)行語句，生成的邏輯執(zhí)行語句存儲在 HDFS 中，接下來 MapReduce 調(diào)用執(zhí)行。

Hive 的核心是驅(qū)動引擎，它由四部分組成：解釋器、編譯器、優(yōu)化器、執(zhí)行器。

（4）元數(shù)據(jù)存儲系統(tǒng)

Hive 中的元數(shù)據(jù)一般包括：數(shù)據(jù)庫的基本信息、表的基本信息等。

元數(shù)據(jù)信息一般存儲在 Mysql 數(shù)據(jù)庫中。

2）Hive與RDBMS比較

Hive 與 RDBMS 應(yīng)用場景完全不同，Hive 僅適合用來做海量數(shù)據(jù)離線統(tǒng)計分析，即數(shù)據(jù)倉庫。

2.2.5 Pig

Pig 是一種編程語言，它簡化了 Hadoop 常見的工作任務(wù)，Pig 為大型數(shù)據(jù)集處理提供了更高層次的抽象，與 MapReduce 相比，Pig 提供了更豐富的數(shù)據(jù)結(jié)構(gòu)，一般都是多值和嵌套的數(shù)據(jù)結(jié)構(gòu)。

2.2.6 HBase

HBase 是 Apache 的 Hadoop 項目的子項目，是 Hadoop Database 的簡稱。

HBase 是一個高可靠、高性能、面向列、可伸縮的分布式存儲系統(tǒng)，利用 HBase 技術(shù)可在廉價 PC Server 上搭建大規(guī)模結(jié)構(gòu)化存儲集群。

HBase 是一個分布式的、面向列族的開源數(shù)據(jù)庫，構(gòu)建在 Apache Hadoop 和 Apache Zookeeper 之上。HBase 不同于一般的關(guān)系數(shù)據(jù)庫，它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。另一個不同的是 HBase 基于列的而不是基于行的模式。

雖然 Hadoop 是一個高容錯、高延時的分布式文件系統(tǒng)和高并發(fā)的批處理系統(tǒng)，但是它不適用于提供實時計算。

然而，HBase 是可以提供實時計算的分布式數(shù)據(jù)庫，數(shù)據(jù)保存在 HDFS 分布式文件系統(tǒng)上，由 HDFS 保證其高容錯性。HBase 內(nèi)部使用哈希表和提供隨機接入，并且其存儲索引，可將在 HDFS 文件中的數(shù)據(jù)進行快速查找。

2.2.7 Zookeeper

Zookeeper 作為一個分布式服務(wù)框架，是 Apache Hadoop 的一個子項目，是基于 Fast Paxos 算法實現(xiàn)，它主要用來解決分布式系統(tǒng)中的一些數(shù)據(jù)管理問題，如：統(tǒng)一命名服務(wù)、狀態(tài)同步服務(wù)、集群管理、分布式應(yīng)用配置項的管理等。

一個典型的分布式數(shù)據(jù)一致性的解決方案，分布式應(yīng)用程序可以基于它實現(xiàn)諸如數(shù)據(jù)發(fā)布/訂閱、負(fù)載均衡、命名服務(wù)、分布式協(xié)調(diào)/通知、集群管理、Master 選舉、分布式鎖和分布式隊列等功能。

2.2.8 Oozie

Apache Oozie 是一個開源的工作流和協(xié)作服務(wù)引擎，基于 Apache Hadoop 的數(shù)據(jù)處理任務(wù)。Oozie 是可擴展的、可伸縮的面向數(shù)據(jù)的服務(wù)，運行在 Hadoop 平臺上，用來調(diào)度與管理 Hadoop 任務(wù)，比如：MapReduce、Pig 等。

Oozie 的工作流必須是一個有向無環(huán)圖，實際上 Oozie 就相當(dāng)于 Hadoop 的一個客戶端，當(dāng)用戶需要執(zhí)行多個關(guān)聯(lián)的MR任務(wù)時，只需要將MR執(zhí)行順序?qū)懭?workflow.xml，然后使用 Oozie 提交本次任務(wù)，Oozie 會托管此任務(wù)流。

在實際的業(yè)務(wù)中處理數(shù)據(jù)時一般包含多個 MR，這些 MR 可能是 Java 或 HDFS，甚至是 Shell 腳本。這時，使用 Oozie 可以輕松完成這種多樣的工作流。在使用 Oozie 時，若前一個任務(wù)執(zhí)行失敗，后一個任務(wù)將不會被調(diào)度。

2.2.9 Sqoop

Sqoop 是 SQL to Hadoop 的縮寫，是數(shù)據(jù)庫 ETL 工具。主要作用于結(jié)構(gòu)化的數(shù)據(jù)存儲與 Hadoop 之間進行雙向交換。也就是說，Sqoop 可以將關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)導(dǎo)入到 HDFS、Hive，也可以從 HDFS、Hive 導(dǎo)出到關(guān)系型數(shù)據(jù)庫中。

Sqoop 核心設(shè)計思想是利用 MapReduce 加快數(shù)據(jù)傳輸速度，也就是說 Sqoop 的導(dǎo)入和導(dǎo)出功能是通過 MapReduce 作業(yè)實現(xiàn)的，所以它是以批處理方式進行數(shù)據(jù)傳輸，難以實現(xiàn)實時數(shù)據(jù)的導(dǎo)入和導(dǎo)出。

2.2.10 Flume

Flume 是 Cloudera 提供的一個高可用、高可靠，分布式的海量日志采集、聚合和傳輸系統(tǒng)，F(xiàn)lume 支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方，用于數(shù)據(jù)收集；同時 Flume 提供對數(shù)據(jù)進行簡單處理，并寫到各種數(shù)據(jù)接收方（比如HDFS、HBase等）的能力。

2.2.11 Kafka

Kafka 是由 Apache 軟件基金會開發(fā)的一個開源流處理平臺，由 Scala 和 Java 編寫。

Kafka 是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)。具有分布式、高可用的特性，在大數(shù)據(jù)系統(tǒng)里被廣泛使用，如果把大數(shù)據(jù)系統(tǒng)比作一臺機器，那么 Kafka 就是前端總線，它連接了平臺中的各個組件。

Kafka 的目的是通過 Hadoop 的并行加載機制來統(tǒng)一線上和離線的消息處理，也是為了通過集群來提供實時的消息。

看得有些暈了吧？可以看下面這張圖更直觀些。

從上面列舉的組件看出，Hadoop 擁有二十多種組件，同時，也說明了 Hadoop 的應(yīng)用范圍非常廣泛，包括：日志采集、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)分析等，都可以使用它順利實現(xiàn)。

-END-

本文系作者：一個數(shù)據(jù)人的自留地授權(quán)發(fā)表，鳥哥筆記平臺僅提供信息存儲空間服務(wù)。

本文為作者獨立觀點，不代表鳥哥筆記立場，未經(jīng)允許不得轉(zhuǎn)載。

《鳥哥筆記版權(quán)及免責(zé)申明》如對文章、圖片、字體等版權(quán)有疑問，請點擊反饋舉報

關(guān)鍵詞

用戶研究

轉(zhuǎn)化

產(chǎn)品分析

chinesefreesexvideos高潮,欧美极品少妇性运交,久久久国产一区二区三区,99久久婷婷国产综合精品,成人国产一区二区三区