hadoop運(yùn)維面試題 學(xué)大數(shù)據(jù)之后能做什么工作?
學(xué)大數(shù)據(jù)之后能做什么工作?1. 數(shù)據(jù)挖掘工程師要做數(shù)據(jù)挖掘,我們需要一定的數(shù)學(xué)知識(shí)從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,如線性代數(shù)、高等代數(shù)、凸優(yōu)化、概率論等PS:常用的語言有python、Java、C或C,有些人用
學(xué)大數(shù)據(jù)之后能做什么工作?
1. 數(shù)據(jù)挖掘工程師
要做數(shù)據(jù)挖掘,我們需要一定的數(shù)學(xué)知識(shí)從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,如線性代數(shù)、高等代數(shù)、凸優(yōu)化、概率論等
PS:常用的語言有python、Java、C或C,有些人用的python或Java更多。有時(shí),MapReduce用于編寫程序,然后Hadoop或Hyp用于處理數(shù)據(jù)。如果使用Python,它將與spark相結(jié)合。
2. Hadoop開發(fā)工程師
精通整個(gè)Hadoop生態(tài)系統(tǒng)的組件,如紗線、HBase、蜂巢、豬等重要組件,可以實(shí)現(xiàn)平臺(tái)監(jiān)控和輔助運(yùn)維系統(tǒng)的開發(fā)。Hadoop工程師主要關(guān)注開發(fā)層面,即圍繞大數(shù)據(jù)平臺(tái)的系統(tǒng)級(jí)研發(fā)人員,精通Hadoop大數(shù)據(jù)平臺(tái)的核心框架,能夠使用Hadoop提供的通用算法,
3。數(shù)據(jù)分析員
數(shù)據(jù)分析員是一種數(shù)據(jù)分析員[“det????n],是指從事行業(yè)數(shù)據(jù)收集、整理和分析,并根據(jù)數(shù)據(jù)進(jìn)行行業(yè)研究、評(píng)估和預(yù)測(cè)的不同行業(yè)的專業(yè)人員。
PS:作為一名數(shù)據(jù)分析師,您至少需要精通SPSS、static、Eviews、SAS等數(shù)據(jù)分析軟件。一個(gè)優(yōu)秀的數(shù)據(jù)分析師不應(yīng)該在業(yè)務(wù)、管理、分析、工具和設(shè)計(jì)方面落后。
4. 大數(shù)據(jù)分析師
流行點(diǎn),這是集Hadoop開發(fā)工程師和數(shù)據(jù)分析師、數(shù)據(jù)挖掘工程師為一體的大人才。如果你能做到所有這些并且有一些經(jīng)驗(yàn),那么薪水就不用說了。
5. 大數(shù)據(jù)可視化工程師
需要獨(dú)立熟悉storm、spark等計(jì)算框架、Scala/Python語言、java開發(fā)、SSM項(xiàng)目、NoSQL如redis或mongodb、Linux基本操作、java多線程開發(fā)能力、程序設(shè)計(jì)模式、數(shù)據(jù)庫和ETL流程。
在現(xiàn)代和當(dāng)代的培訓(xùn)行業(yè),如果你想賺錢,你必須跟上進(jìn)步的步伐,踏上新技術(shù)的熱潮。
如何為Hadoop集群選擇正確的硬件?
Hadoop是一個(gè)運(yùn)行在集群環(huán)境中的大數(shù)據(jù)框架,包括分布式存儲(chǔ)和分布式計(jì)算。
Hadoop流行的一個(gè)重要原因是它不需要很高的硬件,通常超過8g的內(nèi)存可以運(yùn)行Hadoop。許多研究Hadoop的程序員從部署偽集群開始,這表明Hadoop對(duì)硬件的要求非常低。但要想順利運(yùn)行Hadoop,其中一個(gè)關(guān)鍵點(diǎn)是增加內(nèi)存和使用超過i5cpu。
Hadoop對(duì)內(nèi)存和CPU的要求非常敏感。如果使用spark,建議內(nèi)存大于32g,否則處理速度會(huì)受到很大影響,因?yàn)閟park是基于內(nèi)存的。
Hadoop是學(xué)習(xí)階段的選擇。商業(yè)大數(shù)據(jù)平臺(tái)一般會(huì)在Hadoop的基礎(chǔ)上進(jìn)行打包,或者選擇成熟的商業(yè)大數(shù)據(jù)平臺(tái)。由于Hadoop的部署和操作維護(hù)比較麻煩,商業(yè)平臺(tái)通常比較完善,使用起來也比較方便。