常用數(shù)據(jù)挖掘工具和方法是什么 數(shù)據(jù)挖掘的主要學科來源?
數(shù)據(jù)挖掘的主要學科來源?數(shù)據(jù)挖掘起源于許多學科,其中最重要的是統(tǒng)計學和機器學習。統(tǒng)計學起源于數(shù)學,強調數(shù)學的準確性;機器學習主要起源于計算機實踐,更傾向于實踐和主動檢測某種東西來確定其表現(xiàn)形式。數(shù)據(jù)庫
數(shù)據(jù)挖掘的主要學科來源?
數(shù)據(jù)挖掘起源于許多學科,其中最重要的是統(tǒng)計學和機器學習。統(tǒng)計學起源于數(shù)學,強調數(shù)學的準確性;機器學習主要起源于計算機實踐,更傾向于實踐和主動檢測某種東西來確定其表現(xiàn)形式。
數(shù)據(jù)庫需要用哪些軟件?
這類軟件主要用于更專業(yè)的數(shù)據(jù)分析和挖掘,尤其是在銀行、金融、保險等行業(yè)。
SPSS和SAS都是用于統(tǒng)計分析的,側重于統(tǒng)計知識的一些基本應用,包括描述性統(tǒng)計、方差分析、因子分析、主成分分析、基本回歸、分布檢驗等。SPSS在市場調研中應用廣泛,而SAS銀行的金融醫(yī)療統(tǒng)計比較多,有些難度。
r語言似乎是一種綜合的數(shù)據(jù)分析工具,集統(tǒng)計分析、數(shù)據(jù)挖掘和數(shù)據(jù)可視化于一體。
展開來說說數(shù)據(jù)分析~
這些數(shù)據(jù)分析工具的使用還是要看需求,每個企業(yè)應用的選擇和方法都不一樣。數(shù)據(jù)分析的概念非常廣泛。從IT的角度來看,數(shù)據(jù)分析工具在實際應用中可以分為兩個維度:
第一個維度:數(shù)據(jù)存儲層-數(shù)據(jù)報表層-數(shù)據(jù)分析層-數(shù)據(jù)展現(xiàn)層。
第二個維度:用戶級-部門級-企業(yè)級-BI級。
1.數(shù)據(jù)存儲層
從數(shù)據(jù)存儲設計到數(shù)據(jù)庫概念和數(shù)據(jù)庫語言,這方面不必深究,但至少要了解數(shù)據(jù)的存儲、基本結構和數(shù)據(jù)類型。SQL查詢語言必不可少,精通最好。我們可以從選擇查詢、更新修改、刪除刪除和插入插入的基本結構和讀取開始。
Access2003、Access07等
這是最基本的個人數(shù)據(jù)庫,常用于個人或部分基礎數(shù)據(jù)存儲;部門或互聯(lián)網(wǎng)數(shù)據(jù)庫應用必備的MySQL數(shù)據(jù)庫,此時掌握SQL語言的數(shù)據(jù)庫結構和數(shù)據(jù)查詢能力是關鍵;
SQL Server2005或更高版本
對于中小型企業(yè),一些大型企業(yè)也可以使用SQL Server數(shù)據(jù)庫。其實這次除了數(shù)據(jù)存儲,還包括數(shù)據(jù)報表和數(shù)據(jù)分析,甚至數(shù)據(jù)挖掘工具也在其中;
DB2和Oracle數(shù)據(jù)庫都是大型數(shù)據(jù)庫。
,主要是企業(yè)級,特別是大型企業(yè)或者有海量存儲數(shù)據(jù)需求的是必須的。一般大型數(shù)據(jù)庫公司都提供非常好的數(shù)據(jù)集成應用平臺;
雙電平
其實這不是一個數(shù)據(jù)庫,而是建立在之前數(shù)據(jù)庫基礎上的企業(yè)級應用數(shù)據(jù)倉庫。數(shù)據(jù)倉庫(Data Warehouse),基于DW計算機的數(shù)據(jù)存儲基本上是一個商業(yè)智能平臺,它集成了各種數(shù)據(jù)分析、報告、分析和展示。與BI產(chǎn)品相結合的BI級數(shù)據(jù)倉庫也是近年來的一大趨勢。
2.報告/商務智能層
踮起腳尖存儲的數(shù)據(jù)需要讀取和顯示,報表工具是應用最廣泛的工具,尤其是在。以前傳統(tǒng)的報道大多解決的是呈現(xiàn)的問題。現(xiàn)在的FineReport和帆板報告一樣,也會和其他應用交叉,做數(shù)據(jù)分析報告。通過接口開放、報表、決策報表等功能,可以訪問數(shù)據(jù),涵蓋了早期商業(yè)智能的功能。
Tableau、Qlikview、FineBI等BI工具可分為報表層和數(shù)據(jù)展現(xiàn)層,涵蓋數(shù)據(jù)集成、數(shù)據(jù)分析和數(shù)據(jù)展現(xiàn)。FineBI和Tableau都是近年來比較優(yōu)秀的軟件,可以作為可視化的數(shù)據(jù)分析軟件,F(xiàn)ineBI可以用來從數(shù)據(jù)庫中取出數(shù)據(jù)進行報表和可視化分析。相對來說,visual Tableau更好,但是FineBI還有另外一個身份——商業(yè)智能。
所以在大數(shù)據(jù)處理方面的能力更好。
3.數(shù)據(jù)分析層
其實這一層有很多分析工具。當然,Excel是最常用的。
Excel軟件
首先,版本越高越好用,這是肯定的;當然,對于excel,很多人只掌握了5%的Excel功能,而Excel是非常強大的,甚至可以完成所有的統(tǒng)計分析工作!但是我經(jīng)常說,學統(tǒng)計軟件不如會玩Excel這個統(tǒng)計工具。
SPSS軟件
:目前版本為18,名稱已改為PASW統(tǒng)計;;我是從3.0開始在Dos環(huán)境下編程分析的,目前版本的變化也可以從SPSS社科統(tǒng)計軟件包的變化中看出。從關注醫(yī)學、化學開始,我越來越關注商業(yè)分析,現(xiàn)在已經(jīng)成為一個預測分析軟件。
SAS軟件
比起SPSS,SAS其實更強大。SAS是一個平臺,EM挖掘模塊的平臺是集成的。相對來說,SAS更難學,但是如果你掌握了SAS,會更有價值,比如離散選擇模型,抽樣問題,正交實驗設計等。另外SAS的學習資料比較多,而且是開放的,會有收獲!
JMP分析
:SAS的分析分支
XLstat
:Excel插件,可以完成SPSS的大部分統(tǒng)計分析功能。
4.表示層
表示層也叫數(shù)據(jù)可視化,上面每個工具都提供了幾乎一點點的展現(xiàn)功能。上面提到了FineBI和Tableau的可視化功能。其實這幾年Excel的可視化越來越好,加上一些插件,使用感更好了。
PPT:
辦公常用,用來寫數(shù)據(jù)分析報告;
Xmindamp百度腦圖:
梳理流程,幫助思考分析,展現(xiàn)數(shù)據(jù)分析水平;
Xcelsius軟件:
Dashboard制作和數(shù)據(jù)可視化報表工具,可以直接讀取數(shù)據(jù)庫,在Excel中建模,在互聯(lián)網(wǎng)上展示。最大的特點也是在PPT中實現(xiàn)動態(tài)報表是可能的。
最后需要說明的是,這種分類并不是為了區(qū)分軟件,而是為了說明軟件的應用。有時候我們用數(shù)據(jù)庫做報表分析,有時候報表是分析,有時候分析是展現(xiàn);當然,有時候呈現(xiàn)就是分析,分析也是報告,報告就是數(shù)據(jù)存儲!