大數(shù)據(jù)建模平臺 數(shù)據(jù)倉庫數(shù)據(jù)建模的幾種思路?
數(shù)據(jù)倉庫數(shù)據(jù)建模的幾種思路?說到建模,我們不得不說有兩個好人,一個是數(shù)據(jù)倉庫之父inmon,他提倡ER模型,另一個是Kimball,他提倡維度模型。事實上,這兩種建模方法各有優(yōu)勢。ER模型是一種實體關(guān)
數(shù)據(jù)倉庫數(shù)據(jù)建模的幾種思路?
說到建模,我們不得不說有兩個好人,一個是數(shù)據(jù)倉庫之父inmon,他提倡ER模型,另一個是Kimball,他提倡維度模型。事實上,這兩種建模方法各有優(yōu)勢。ER模型是一種實體關(guān)系模型,對建模者要求高,實現(xiàn)周期長。施工完成后,數(shù)據(jù)之間的關(guān)系清晰,沒有冗余。它在保證數(shù)據(jù)的一致性和準確性方面有著天然的優(yōu)勢,但不能應對后期的業(yè)務變化。維度模型將業(yè)務數(shù)據(jù)分為維度表和事實表。維度表主要用于存儲一些不隨業(yè)務發(fā)展而變化的公共數(shù)據(jù),如員工信息、合同信息等事實表。用于存儲維度表的一些鍵值和度量值,如員工ID、交易金額等。維度建模不需要建模者了解全局數(shù)據(jù),只需要了解相關(guān)數(shù)據(jù),在面對業(yè)務變化時具有天然的優(yōu)勢。另外,還有Inman在ER模型上改進的datavault模型,但是datavault不能簡單地稱為一個模型,它是一個整體的解決方案。
統(tǒng)計建模和機器學習建模,有什么區(qū)別?
統(tǒng)計建模和機器學習建模可用于數(shù)據(jù)分析和數(shù)據(jù)挖掘。不同的是,統(tǒng)計建模是基于傳統(tǒng)的統(tǒng)計方法,如回歸分析、聚類分析、主成分分析等,側(cè)重于對已知現(xiàn)象或數(shù)據(jù)的描述。雖然機器學習建模也是基于統(tǒng)計的,但它側(cè)重于對未知現(xiàn)象或數(shù)據(jù)的預測,對數(shù)據(jù)的大小有一定的要求。
統(tǒng)計建模是指基于統(tǒng)計知識的建模。常用的統(tǒng)計知識包括參數(shù)估計、假設(shè)檢驗、方差分析、回歸分析、時間序列、聚類分析、主成分分析和因子分析,如下圖所示。
機器學習建模是指利用機器學習算法進行建模。常用的機器學習算法有:k近鄰算法、決策樹、邏輯回歸、SVM、隨機林、聚類分析、關(guān)聯(lián)分析等,實現(xiàn)這些算法的語言有Python和r,具體如下圖所示。!不管是統(tǒng)計建模還是機器學習建模,我們都需要有一個好的數(shù)學基礎(chǔ),主要是微積分、線性代數(shù)和概率論。
就是這樣!歡迎關(guān)注[數(shù)據(jù)科學孫斌],分享數(shù)據(jù)科學相關(guān)知識
什么是數(shù)據(jù)建模?數(shù)據(jù)建模有什么優(yōu)點和缺點?
最流行的如下
1。最基本的Excel:操作簡單,易學,數(shù)據(jù)量小,使用方便
2。SPSS:內(nèi)置了很多現(xiàn)成的分析工具,不能直接編碼應用數(shù)據(jù)分析模式,可以大大提高數(shù)據(jù)量,結(jié)論報告也很專業(yè);缺點,不太好定制分析模式SAS和R語言:需要一定的代碼庫,網(wǎng)上有開源的代碼包,你可以用,入門門檻比較高
最后,根據(jù)你需要處理的數(shù)據(jù)量和分析方法,選擇自己的軟件進行分析
希望對你有所幫助
我不知道你想比較兩組數(shù)據(jù)是什么,但這種方法在許多國家是常用的元統(tǒng)計分析方法,如聚類分析、貝葉斯分類等。建議閱讀有關(guān)多元統(tǒng)計分析的書籍。