spark分布式計(jì)算原理偽分布式的spark/mapreduce是只供用來(lái)學(xué)習(xí)的嗎？

2021-03-11

2747

偽分布式的spark/mapreduce是只供用來(lái)學(xué)習(xí)的嗎？首先，MapReduce出現(xiàn)得更早。介紹了分布式大數(shù)據(jù)處理的基本思想?，F(xiàn)在我在學(xué)習(xí)火花。Matei zaharia的畢業(yè)論文，即spark的

偽分布式的spark/mapreduce是只供用來(lái)學(xué)習(xí)的嗎？

首先，MapReduce出現(xiàn)得更早。介紹了分布式大數(shù)據(jù)處理的基本思想?，F(xiàn)在我在學(xué)習(xí)火花。Matei zaharia的畢業(yè)論文，即spark的介紹論文，已在CSDN上翻譯成中文。

建議先學(xué)習(xí)MapReduce，主要是了解任務(wù)是如何執(zhí)行的。都在網(wǎng)上。然后，spark學(xué)習(xí)應(yīng)該關(guān)注于理解spark-to-SQL語(yǔ)句的執(zhí)行機(jī)制。

不同的分布式框架有各自的優(yōu)勢(shì)和不同的業(yè)務(wù)場(chǎng)景。MapReduce可以更好地處理大量ETL服務(wù)，而spark則相對(duì)更側(cè)重于機(jī)器學(xué)習(xí)。對(duì)于企業(yè)來(lái)說(shuō)，如果這些業(yè)務(wù)能夠在同一個(gè)集群上運(yùn)行，就可以有效地降低成本。為了讓不同的框架同時(shí)在同一個(gè)集群中運(yùn)行，最重要的問(wèn)題是如何分配資源。當(dāng)沒(méi)有紗線時(shí)，一個(gè)相對(duì)簡(jiǎn)單的方法是假設(shè)集群中有100臺(tái)機(jī)器。我們將50臺(tái)機(jī)器分配給spark，將其他50臺(tái)機(jī)器分配給MapReduce。這似乎沒(méi)什么問(wèn)題。不過(guò)，如果我們每天只運(yùn)行一個(gè)小時(shí)的MapReduce，其余大部分時(shí)間都在運(yùn)行spark，那么一天就有23個(gè)小時(shí)，50臺(tái)機(jī)器處于空閑狀態(tài)，而spark的機(jī)器很可能有大量作業(yè)在隊(duì)列中。這顯然不是一種非常有效的使用集群的方法。

在hadoop和spark之間如何取舍？

一般來(lái)說(shuō)，會(huì)用到主流行業(yè)的大數(shù)據(jù)技術(shù)Hadoop和spark。學(xué)習(xí)時(shí)，兩個(gè)系統(tǒng)都會(huì)學(xué)習(xí)，先學(xué)習(xí)Hadoop，再學(xué)習(xí)spark。

Apache開(kāi)源組織的分布式基礎(chǔ)設(shè)施提供了分布式文件系統(tǒng)（HDFS）、分布式計(jì)算（MapReduce）和統(tǒng)一資源管理框架（yarn）的軟件體系結(jié)構(gòu)。用戶(hù)可以在不了解分布式系統(tǒng)的基本細(xì)節(jié)的情況下開(kāi)發(fā)分布式程序。

為大規(guī)模數(shù)據(jù)處理設(shè)計(jì)的快速通用計(jì)算引擎。用于構(gòu)建大型、低延遲的數(shù)據(jù)分析應(yīng)用程序。它可以用來(lái)完成各種操作，包括SQL查詢(xún)、文本處理、機(jī)器學(xué)習(xí)等。

https://www.toutiao.com/i654015696262573648397/

成人AV在线无码|婷婷五月激情色,|伊人加勒比二三四区|国产一区激情都市|亚洲AV无码电影|日av韩av无码|天堂在线亚洲Av|无码一区二区影院|成人无码毛片AV|超碰在线看中文字幕

偽分布式的spark/mapreduce是只供用來(lái)學(xué)習(xí)的嗎？

在hadoop和spark之間如何取舍？

相關(guān)推薦

偽分布式的spark/mapreduce是只供用來(lái)學(xué)習(xí)的嗎？

在hadoop和spark之間如何取舍？