python分布式任務(wù)調(diào)度 分布式任務(wù)調(diào)度框架選型,如何選擇一個合適的框架?
分布式任務(wù)調(diào)度框架選型,如何選擇一個合適的框架?首先,這樣一個框架現(xiàn)在已經(jīng)上市了。強烈建議不要重復(fù)制造車輪。首先,我們將介紹幾種主流技術(shù)。Elastic job是當(dāng)當(dāng)網(wǎng)的開源分布式調(diào)度解決方案。它支持
分布式任務(wù)調(diào)度框架選型,如何選擇一個合適的框架?
首先,這樣一個框架現(xiàn)在已經(jīng)上市了。強烈建議不要重復(fù)制造車輪。
首先,我們將介紹幾種主流技術(shù)。
Elastic job是當(dāng)當(dāng)網(wǎng)的開源分布式調(diào)度解決方案。它支持任務(wù)碎片化,能夠充分利用資源。Elastic job有兩個獨立的子項目:Elastic job lite和Elastic job cloud。具體實現(xiàn)可以參考官方教程??傮w架構(gòu)如下。
彈性工作的特點:1。分布式調(diào)度。高可用性工作。切片任務(wù)執(zhí)行。
此外,還有其他可用于比較的框架。例如TBSchedule是阿里巴巴的一個開源分布式調(diào)度框架,完全由Java實現(xiàn),目前正在淘寶、阿里巴巴、支付寶、京東、汽車之家等應(yīng)用。公開評論的開源XXL作業(yè)也是一種廣泛使用的分布式調(diào)度任務(wù)。
目前,我已經(jīng)使用彈性工作和XXL工作。兩個功能都非常強大,后臺管理也比較完善。開始很容易。能滿足日常工作的需要。區(qū)別在于彈性作業(yè)依賴于ZK,而XXL作業(yè)不依賴于ZK,只依賴于數(shù)據(jù)庫。
目前市場上應(yīng)該還有一些其他的框架,但是以上都是比較主流的,你可以根據(jù)自己的需要來選擇。記住不要反復(fù)造輪子。這需要很多時間來驗證。它會讓你遠(yuǎn)離深淵。
謝謝。我希望它能幫助你。如果你有什么問題,可以留言。我們一起討論吧
Hadoop支持用python開發(fā)嗎?還有哪些支持python的分布式計算系統(tǒng)框架?
Hadoop支持python。我的理解是,任務(wù)通過yarn分配到工作節(jié)點,并通過shell調(diào)用。這種方法比原生Mr速度慢,因此沒有得到廣泛的應(yīng)用。
Spark應(yīng)該是Python的友好框架。要說缺點,畢竟是Scala或Java風(fēng)格的API,這對于Python是不夠的。在使用了panda和numpy之后,我覺得spark的API是比較基本的。
此外,python建議您學(xué)習(xí)dask和芹菜。Dask基于numpy和panda進(jìn)行封裝,兼容大多數(shù)NP和PD接口。它還支持分布式和可視化界面??偟膩碚f,這是個不錯的選擇。
作為一個分布式任務(wù)調(diào)度框架,cellery并不是專門為ETL設(shè)計的,所以它的性能比dask差。但我覺得作為一個生產(chǎn)體系,芹菜比較穩(wěn)定。