hadoop系統(tǒng)框架圖描述 hadoop功能介紹?
hadoop功能介紹?Hadoop是一個(gè)大數(shù)據(jù)處理框架和工具。Hdfs和mapReduce是Hadoop最初的兩個(gè)核心功能。前者是存儲(chǔ)系統(tǒng),類(lèi)似于把試卷放在幾個(gè)柜子里,后者負(fù)責(zé)并行計(jì)算,類(lèi)似于把100
hadoop功能介紹?
Hadoop是一個(gè)大數(shù)據(jù)處理框架和工具。
Hdfs和mapReduce是Hadoop最初的兩個(gè)核心功能。前者是存儲(chǔ)系統(tǒng),類(lèi)似于把試卷放在幾個(gè)柜子里,后者負(fù)責(zé)并行計(jì)算,類(lèi)似于把100張?jiān)嚲矸纸o5個(gè)人批改。
Hadoop后來(lái)逐漸加入了其他工具。
Hive提供了數(shù)據(jù)匯總和查詢(xún)功能,并給出了處理數(shù)據(jù)的窗口,可以對(duì)數(shù)據(jù)進(jìn)行加減乘除。
Hbase是一個(gè)可擴(kuò)展的非關(guān)系型數(shù)據(jù)庫(kù),不采用傳統(tǒng)excel表格的數(shù)據(jù)格式。
Spark是一個(gè)比mapReduc
Hadoop生態(tài)系統(tǒng)及各模塊的功能?
1.HDFS(Hadoop分布式文件系統(tǒng))
HDFS是一個(gè)在Hadoop生態(tài)中提供分布式存儲(chǔ)支持的系統(tǒng),很多上層計(jì)算框架(Hbase,Spark等。)依靠HDFS存儲(chǔ)。
(分布式計(jì)算模型)離線(xiàn)計(jì)算
什么是離線(xiàn)計(jì)算,其實(shí)就是非實(shí)時(shí)計(jì)算。
3.分布式資源管理器
紗線(xiàn)與紡織品。;的出現(xiàn)主要是為了解決原有Hadoop擴(kuò)展性差,不支持多種計(jì)算模式的問(wèn)題。
4.存儲(chǔ)計(jì)算
Spark在內(nèi)存中提供分布式計(jì)算能力,比傳統(tǒng)的MapReduce大數(shù)據(jù)分析更高效、更快速。
5.分布式列存儲(chǔ)數(shù)據(jù)庫(kù)
Hbase繼承了列存儲(chǔ)的特點(diǎn),非常適合數(shù)據(jù)的隨機(jī)讀寫(xiě)。其次,Hbase建立在HDFS之上,它內(nèi)部管理的所有文件都存儲(chǔ)在HDFS。這使得它具有高度的容錯(cuò)性和可擴(kuò)展性,并支持Hadoop mapreduce編程模型。
6.數(shù)據(jù)倉(cāng)庫(kù)
7.Oozie(工作流調(diào)度程序)
Oozie是一個(gè)基于工作流引擎的調(diào)度器,它實(shí)際上是一個(gè)運(yùn)行在Java Servlet容器(如Tomcat)中的JavaWeb應(yīng)用程序,在其上可以運(yùn)行諸如Hadoop 地圖縮小和豬。
8.Sqoop和Pig
9.Flume(日志收集工具)
Flume將數(shù)據(jù)從產(chǎn)生、傳輸、處理到最終寫(xiě)入目標(biāo)路徑的過(guò)程抽象成數(shù)據(jù)流。在特定的數(shù)據(jù)流中,數(shù)據(jù)源支持定制Flume中的數(shù)據(jù)傳輸。發(fā)送方,從而支持各種協(xié)議的數(shù)據(jù)收集。
10.Kafka(分布式消息隊(duì)列)
Kafka是Apache組織下的開(kāi)源系統(tǒng)。它最大的特點(diǎn)是可以實(shí)時(shí)處理大量數(shù)據(jù),滿(mǎn)足各種需求場(chǎng)景,比如基于Hadoop平臺(tái)的數(shù)據(jù)分析、低延遲實(shí)時(shí)系統(tǒng)、Storm/Spark流處理引擎等等。Kafka已被許多大公司用作各種類(lèi)型的數(shù)據(jù)管道和消息系統(tǒng)。
11.分布式協(xié)作服務(wù)
一般來(lái)說(shuō),動(dòng)物園管理員相當(dāng)于一個(gè)和事佬的角色。如果兩個(gè)人之間出現(xiàn)了一些自己無(wú)法解決的矛盾或,就需要ZooKeeper從中調(diào)解,而調(diào)解的就是根據(jù)一些規(guī)則(比如道德規(guī)則、法律規(guī)則)從第三方的客觀角度對(duì)雙方做出客觀合理、合規(guī)的判斷。
(大數(shù)據(jù)運(yùn)維工具)
Ambari是一個(gè)大數(shù)據(jù)基礎(chǔ)運(yùn)維平臺(tái),實(shí)現(xiàn)了Hadoop生態(tài)中各種組件的自動(dòng)部署、服務(wù)管理和監(jiān)控告警。Ambari通過(guò)puppet實(shí)現(xiàn)自動(dòng)安裝配置,通過(guò)Ganglia收集監(jiān)控指標(biāo),用Nagios實(shí)現(xiàn)故障報(bào)警。