大數(shù)據(jù)分析一般用什么工具分析?
網(wǎng)友解答: 大數(shù)據(jù)分析工具有很多,不過絕大多數(shù)是自己開發(fā),或在某工具上進行二次開發(fā)。大數(shù)據(jù)業(yè)務(wù)有很多環(huán)節(jié),大致為:1. 數(shù)據(jù)搜集:借助工具對研究對象進行數(shù)據(jù)采集,可以是人工采集——如街頭
大數(shù)據(jù)分析工具有很多,不過絕大多數(shù)是自己開發(fā),或在某工具上進行二次開發(fā)。
大數(shù)據(jù)業(yè)務(wù)有很多環(huán)節(jié),大致為:
1. 數(shù)據(jù)搜集:借助工具對研究對象進行數(shù)據(jù)采集,可以是人工采集——如街頭調(diào)查、電話采訪、現(xiàn)場統(tǒng)計……,也可以是軟件采集——如網(wǎng)絡(luò)爬蟲、GPS軌跡、企業(yè)ERP歷史數(shù)據(jù)……;
2. 數(shù)據(jù)清洗:對采集到的數(shù)據(jù)按研究價值進行整理和歸類,如:那些數(shù)據(jù)是無效數(shù)據(jù),那的數(shù)據(jù)是被污染(被刻意篡改)……將這些數(shù)據(jù)剔除,減少干擾。數(shù)據(jù)清洗的工具同樣也有人工和軟件,甚至同時使用。
3. 數(shù)據(jù)加工:對清洗后的數(shù)據(jù)按研究意圖進行整理和歸類,如價格(將出廠價、零售價、批發(fā)價、開票價、稅率、促銷價等價格信息進行歸類)、品種(按顏色、行業(yè)規(guī)格、適用環(huán)境、質(zhì)地等進行歸類)、日期(將年齡、生日、期間起始日期、庫齡等日期相關(guān)的歸類)……
4. 數(shù)據(jù)統(tǒng)計:對加工過的數(shù)據(jù)進行預(yù)測,發(fā)現(xiàn)數(shù)據(jù)規(guī)律。對加工過的數(shù)據(jù)進行人工抽樣(小樣本),借助簡單的工具來發(fā)現(xiàn)一些規(guī)律,尋找一些蛛絲馬跡,建立數(shù)學(xué)統(tǒng)計模型和分析算法。
5. 大數(shù)據(jù)分析:對原始數(shù)據(jù)(或加工過的數(shù)據(jù)),通過第4步建立的分析算法,進行“大數(shù)據(jù)”自動分析,分析過程中,還需要不斷修正算法,可能重新回到上述第3步,將原算法推倒從重來。
——結(jié)論——
大數(shù)據(jù)分析是一個系統(tǒng)工程,是對某種社會行為和自然現(xiàn)象(如購物、交易、人流、設(shè)備運轉(zhuǎn)、輿情、氣候等)進行分析,需要分析人員掌握很多綜合知識,然后借助計算機的運算能力,幫助分析。
從題主的提問來揣測,可能題主認為大數(shù)據(jù)就是計算機行業(yè),其實不然。大數(shù)據(jù)分析人員的知識結(jié)構(gòu)大致為:非計算機知識占80%,計算機使用能力占20%,同時還要隨時跟上計算機工具的版本更新或更迭。
最后,回答本提問,大數(shù)據(jù)分析的工具有很多,手工算、算盤,excel,microsoft PowerBI,python中的很多模塊,mssql,mysql……那個順手用那個,那個適合業(yè)務(wù)需要用那個,目前沒有“最好”,也沒有“行業(yè)慣例”,自己選擇自己習(xí)慣的吧。
網(wǎng)友解答:Hadoop
Hadoop是一個能對大數(shù)據(jù)進行分布式處理的軟件框架。能夠處理PB級的數(shù)據(jù),依賴于社區(qū)服務(wù)器,成本較低,有著高可靠性,高擴展性,高效性,高容錯性等優(yōu)點。
Stormstorm是自由的開源軟件,分布式,容錯的實時計算系統(tǒng),可以可靠的處理龐大的數(shù)據(jù)流,支持多種編程語言,應(yīng)用在多個領(lǐng)域,比如實時分析,在線機器學(xué)習(xí),不停頓計算等等
Excel這個不多說。