java如何解析json數(shù)據(jù) spark怎么處理kafka中的json的數(shù)據(jù)?
spark怎么處理kafka中的json的數(shù)據(jù)?構(gòu)造函數(shù)是KafkaUtils.createDstream創(chuàng)建(SSC,[ZK],[consumer group ID],[per topic,part
spark怎么處理kafka中的json的數(shù)據(jù)?
構(gòu)造函數(shù)是KafkaUtils.createDstream創(chuàng)建(SSC,[ZK],[consumer group ID],[per topic,partitions])使用Kafka高級使用者API使用接收器接收數(shù)據(jù)。對于所有接收器,接收到的數(shù)據(jù)將保存在spark executors中,然后通過spark Streaming啟動一個作業(yè)來處理數(shù)據(jù),默認(rèn)情況下這些數(shù)據(jù)將丟失。它可以啟用存儲在HDFS上的wal-log
spark是一個工具,而深度學(xué)習(xí)是一種解決問題的策略。如果做大數(shù)據(jù)分析,至少要熟練使用一種工具,深入了解常用的算法。對于大數(shù)據(jù)分析,您不需要在代碼級別和架構(gòu)級別熟悉spark。因為它只是一個工具,你可以熟練地使用它。如果主題有很好的編程基礎(chǔ),一個月就足夠?qū)W好SPARKSQL和SPARKML了。算法學(xué)習(xí)需要花費(fèi)更多的精力。但如果受試者想學(xué)習(xí)深度學(xué)習(xí),則不建議學(xué)習(xí)spark。由于目前常用的CNN、RNN等模型通常使用GPU代替CPU進(jìn)行計算,而spark是一種內(nèi)存計算框架,主要在CPU上完成計算,因此計算效率不如GPU高。因此,如果將深度學(xué)習(xí)用于大數(shù)據(jù)分析,則可以使用tensorflow和其他框架。