python數(shù)據(jù)分析師要學(xué)什么 想做數(shù)據(jù)分析是學(xué)python還是學(xué)大數(shù)據(jù)?
想做數(shù)據(jù)分析是學(xué)python還是學(xué)大數(shù)據(jù)?大數(shù)據(jù)結(jié)構(gòu)中的很多組件都是用Java語(yǔ)言編寫(xiě)的,還有一些是用Scala編寫(xiě)的,比如Hadoop中的HDFS、MapReduce、yarn、ZK、HBase、h
想做數(shù)據(jù)分析是學(xué)python還是學(xué)大數(shù)據(jù)?
大數(shù)據(jù)結(jié)構(gòu)中的很多組件都是用Java語(yǔ)言編寫(xiě)的,還有一些是用Scala編寫(xiě)的,比如Hadoop中的HDFS、MapReduce、yarn、ZK、HBase、hive、spark等。這些東西更傾向于數(shù)據(jù)工程、數(shù)據(jù)處理和計(jì)算。Python語(yǔ)言,包括pandas、numpy、SciPy等數(shù)據(jù)分析擴(kuò)展包,通過(guò)學(xué)習(xí)使用這些包,可以充分掌握數(shù)據(jù)分析的能力。因此,要學(xué)習(xí)數(shù)據(jù)分析,建議學(xué)習(xí)Python而不是大數(shù)據(jù)。
python數(shù)據(jù)分析師的就業(yè)前景如何?
這是一個(gè)非常好的問(wèn)題。作為一個(gè)it從業(yè)者和教育工作者,讓我來(lái)回答這個(gè)問(wèn)題。
首先,從工業(yè)互聯(lián)網(wǎng)和大數(shù)據(jù)的發(fā)展趨勢(shì)來(lái)看,Python數(shù)據(jù)分析師的就業(yè)前景還是非常廣闊的。一方面,數(shù)據(jù)分析本身的應(yīng)用場(chǎng)景會(huì)越來(lái)越多。另一方面,python語(yǔ)言也廣泛應(yīng)用于人工智能領(lǐng)域,因此python數(shù)據(jù)分析師的發(fā)展空間相對(duì)較大。
如果你想走Python數(shù)據(jù)分析師的發(fā)展道路,你應(yīng)該從以下三個(gè)方面提高你的職業(yè)價(jià)值:第一,注意新技術(shù)的學(xué)習(xí)。數(shù)據(jù)分析技術(shù)是一個(gè)快速迭代的領(lǐng)域,因此數(shù)據(jù)分析人員必須跟上技術(shù)的發(fā)展趨勢(shì),尤其要注意算法相關(guān)知識(shí)的學(xué)習(xí)。從大技術(shù)的角度來(lái)看,目前的數(shù)據(jù)分析方法主要是基于統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)在數(shù)據(jù)分析領(lǐng)域的發(fā)展?jié)摿Ρ容^大,而且機(jī)器學(xué)習(xí)也是人工智能技術(shù)體系的重要組成部分,因此必須重視機(jī)器學(xué)習(xí)相關(guān)知識(shí)的學(xué)習(xí)和深化。
第二,關(guān)注平臺(tái)的價(jià)值。數(shù)據(jù)分析師要想提升自己的職業(yè)價(jià)值,不僅要提高自己的技術(shù)水平,還要從工作效率方面入手,而提高工作效率更有效的途徑就是合理利用平臺(tái)。工業(yè)互聯(lián)網(wǎng)時(shí)代必然是平臺(tái)時(shí)代。數(shù)據(jù)分析作為大數(shù)據(jù)平臺(tái)的一項(xiàng)重要功能,必然會(huì)得到平臺(tái)的大量支持,因此數(shù)據(jù)分析人員必須重視技術(shù)平臺(tái)的應(yīng)用。
第三,注重行業(yè)知識(shí)的積累。數(shù)據(jù)分析師對(duì)行業(yè)知識(shí)的要求非常高。為了使數(shù)據(jù)分析在行業(yè)中發(fā)揮更重要的作用,數(shù)據(jù)分析人員必須能夠根據(jù)行業(yè)選擇和應(yīng)用技術(shù)。
操控excel,選擇Python還是vba?
對(duì)于大量數(shù)據(jù),建議使用Python。VBA通常將數(shù)據(jù)存儲(chǔ)在內(nèi)存中。當(dāng)數(shù)據(jù)沒(méi)有分割,計(jì)算機(jī)配置不高時(shí),會(huì)出現(xiàn)更多的卡。經(jīng)過(guò)數(shù)據(jù)處理后,如果內(nèi)存沒(méi)有釋放,電腦也會(huì)多卡。VBA一般啟動(dòng)兩個(gè)CPU核進(jìn)行數(shù)據(jù)計(jì)算,運(yùn)算效率較低?,F(xiàn)在微軟已經(jīng)停止更新VBA了,更建議大家學(xué)習(xí)python。如果只操作excel,兩種學(xué)習(xí)難度相差不大,但是Python的開(kāi)發(fā)空間會(huì)更好
另一種更方便的方法是使用power Bi的三個(gè)組件進(jìn)行數(shù)據(jù)處理,power query進(jìn)行數(shù)據(jù)處理,PowerPivot進(jìn)行分析,power Bi進(jìn)行數(shù)據(jù)處理的優(yōu)點(diǎn)數(shù)據(jù)可視化的主要觀點(diǎn)是學(xué)習(xí)周期短,數(shù)據(jù)可以自動(dòng)刷新,啟動(dòng)時(shí)間相對(duì)較快。使用這種方法,效率可能比excel快,但速度仍然不如python快。當(dāng)然,為了長(zhǎng)時(shí)間的持續(xù),建議學(xué)習(xí)python,但是開(kāi)始的時(shí)間會(huì)比較長(zhǎng)
雖然這種方法可能會(huì)產(chǎn)生很快的結(jié)果,效率也很高,但是由于所有的組件都是設(shè)計(jì)好的,所以基本上可以遵循規(guī)則,當(dāng)您遇到問(wèn)題時(shí),您不能下推和重建組件,只能替換其他組件或更改組合方法;
并且您不能使用大量數(shù)據(jù),因?yàn)镋xcel的邏輯關(guān)系太弱,就像構(gòu)建塊會(huì)崩潰一樣,因此,處理10000個(gè)級(jí)別的數(shù)據(jù)有點(diǎn)困難;因此excel不能用于建造高層建筑。畢竟,世界上沒(méi)有用積木建造的高樓。
從數(shù)據(jù)分析的角度看,Excel的可視化效果較差,數(shù)據(jù)采集無(wú)法與Python相比。這不是Excel的特長(zhǎng),但是Excel在數(shù)理統(tǒng)計(jì)方面的表現(xiàn)還是很好的
所以當(dāng)數(shù)據(jù)量比較小的時(shí)候,你想快速得到結(jié)果,而且邏輯關(guān)系簡(jiǎn)單,Excel很香
!缺點(diǎn)是您需要能夠做任何事情。你需要能夠建造墻壁,建造和繪制圖紙。自然比excel難學(xué)
從效率上講,處理簡(jiǎn)單的問(wèn)題肯定比excel差,但面對(duì)復(fù)雜的問(wèn)題,Python的優(yōu)勢(shì)可以凸顯
有了這堆原材料,你不僅可以建造高樓,還可以建造飛機(jī),船和火箭頭,所以人們說(shuō),Python是一種通用語(yǔ)言,它可以做任何事情,除了生孩子
另一點(diǎn)是,Python是開(kāi)源的,至少比matlab(深執(zhí)迷)好得多
從數(shù)據(jù)分析的角度來(lái)看,Python絕對(duì)比excel、數(shù)據(jù)采集,數(shù)據(jù)處理和數(shù)據(jù)分析、可視化都比excel好,當(dāng)然這只是用于數(shù)據(jù)分析
當(dāng)數(shù)據(jù)量大、邏輯關(guān)系復(fù)雜時(shí),Python是最佳的解決方案
PS:
當(dāng)然VBA是另一點(diǎn)。其實(shí),我覺(jué)得VBA的學(xué)習(xí)難度和python沒(méi)有太大區(qū)別,但是使用起來(lái)太難了。讓我們看看個(gè)人的具體需求。這里我不詳細(xì)說(shuō)明具體的區(qū)別