apache搭建網(wǎng)站的架構(gòu)圖 hadoop框架?
Hadoop是由Hadoop是Apache軟件基金會下的分布式系統(tǒng)基礎(chǔ)設(shè)施。Hadoop框架的核心設(shè)計是HDFS和網(wǎng)絡(luò)的工作架構(gòu):1.瀏覽器的作用:用戶向服務(wù)器提交請求,解析服務(wù)器返回的響應(yīng)。2.we
Hadoop是由
Hadoop是Apache軟件基金會下的分布式系統(tǒng)基礎(chǔ)設(shè)施。Hadoop框架的核心設(shè)計是HDFS和
網(wǎng)絡(luò)的工作架構(gòu):
1.瀏覽器的作用:用戶向服務(wù)器提交請求,解析服務(wù)器返回的響應(yīng)。
2.web服務(wù)器:它接受用戶 請求并回復(fù)它們。Windows下有IIS,Linux下有Apache和Nginx。
3.網(wǎng)絡(luò)應(yīng)用:開發(fā)一個網(wǎng)絡(luò)應(yīng)用(博客,購物網(wǎng)站等。)用php,jsp,asp,aspx等開發(fā)語言。在服務(wù)器上運(yùn)行
4.數(shù)據(jù)庫:為了存儲數(shù)據(jù),數(shù)據(jù)庫有一個接口,連接數(shù)據(jù)庫的賬號密碼在應(yīng)用程序中指定。
5.中間件:比如在Linux環(huán)境下,如果要運(yùn)行一個以Apache為服務(wù)器的Java程序,就需要Tomcat環(huán)境的支持。Tomcat是一個中間件。目前Apache等服務(wù)器和中間件的區(qū)分越來越少,可以廣泛理解為Apache、IIS、Nginx、Tomcat、Jboss的統(tǒng)稱。
主要有以下四種流行的框架。
Hadoop
Hadoop無疑是大數(shù)據(jù)領(lǐng)域的第一站。這個由Apache基金會開發(fā)的分布式基礎(chǔ)設(shè)施有一個廣闊的生態(tài)系統(tǒng)。Hadoop提出的Map和Reduce的計算簡潔優(yōu)雅,實(shí)現(xiàn)了大量的算法和組件。然而,因?yàn)镠adoop 的計算任務(wù)需要在集群的多個節(jié)點(diǎn)上多次讀寫,在速度上會稍遜一籌,但是Hadoop s吞吐量也是其他框架無法比擬的。
暴風(fēng)雨
Storm是Twitter的一個開源大數(shù)據(jù)框架。Hadoop有不同的批處理模式,Storm采用的是流式計算框架。但Storm與Hadoop的相似之處在于,它也提出了兩個計算角色,Spout和Bolt。舉一個通俗的例子來說明Storm和Hadoop的區(qū)別。Hadoop類似于水桶,而Storm類似于水龍頭。要取水,Hadoop一桶一桶背,Storm只需要打開水龍頭。風(fēng)暴流計算框架使用內(nèi)存,在延遲上有優(yōu)勢,但不會持久化數(shù)據(jù)。Storm對Java、Ruby、Python等語言都有很好的支持。
火花
Spark大數(shù)據(jù)框架作為Hadoop的升級版,是一個混合計算框架,Spark自帶實(shí)時流處理工具。Spark也可以集成Hadoop,而不是MapReduce;甚至Spark也可以單獨(dú)使用,通過分布式存儲系統(tǒng)(如HDFS)部署集群?;鸹?的計算速度與Storm 美國火花公司。;的速度是Hadoop的100倍左右,成本比Hadoop 美國火花公司。;的普及主要在于統(tǒng)一引擎支持的批處理、流處理、交互查詢、機(jī)器學(xué)習(xí)等常見場景。Spark聲稱可以處理流,但主要思想是提供小批量。因?yàn)槭莾?nèi)存處理,如果處理的足夠快,可以做到低延遲。本質(zhì)上,它是一個基于內(nèi)存的批處理過程。
弗林克
Flink大數(shù)據(jù)框架也是一個混合計算框架。Fink和Spark的區(qū)別在于,F(xiàn)ink專注于處理流數(shù)據(jù),F(xiàn)link的所有操作都是基于流的。