大數(shù)據(jù)采集系統(tǒng)軟件 為什么建數(shù)據(jù)倉庫需要使用ETL工具?
為什么建數(shù)據(jù)倉庫需要使用ETL工具?數(shù)據(jù)倉庫是一個戰(zhàn)略集合,為各級決策過程提供各種數(shù)據(jù)支持。它是為分析報告和決策支持目的而創(chuàng)建的單個數(shù)據(jù)存儲。由于要獲取所有的數(shù)據(jù),必然涉及到多系統(tǒng)、多類型數(shù)據(jù)庫的對接
為什么建數(shù)據(jù)倉庫需要使用ETL工具?
數(shù)據(jù)倉庫是一個戰(zhàn)略集合,為各級決策過程提供各種數(shù)據(jù)支持。它是為分析報告和決策支持目的而創(chuàng)建的單個數(shù)據(jù)存儲。由于要獲取所有的數(shù)據(jù),必然涉及到多系統(tǒng)、多類型數(shù)據(jù)庫的對接問題,以及數(shù)據(jù)的提取和整理問題。
此時,ETL工具的功能體現(xiàn)在數(shù)據(jù)提取、轉(zhuǎn)換和加載的過程中,直至用于人們的分析。ETL是數(shù)據(jù)抽取、轉(zhuǎn)換和加載的過程。
在某些地方,可以先在轉(zhuǎn)換中選擇和加載ELT。對于日志倉庫,ETL首先要考慮業(yè)務(wù)需求,最后數(shù)據(jù)登陸模型要體現(xiàn)一定的主題。
一般來說,數(shù)據(jù)倉庫就像一個大的池。水池的供水需要水泵和水管,ETL負責水泵和水管的功能。
大數(shù)據(jù)ETL工程師是做什么的,發(fā)展前景如何?
ETL工程師是大數(shù)據(jù)倉庫方向的一個職位,主要從事數(shù)據(jù)清洗、提取和轉(zhuǎn)換。目前,Hadoop的HDFS主要用作存儲平臺,hive用作數(shù)據(jù)建模、清洗和結(jié)構(gòu)化數(shù)據(jù)分析,并使用工具或腳本將數(shù)據(jù)導(dǎo)入關(guān)系數(shù)據(jù)庫數(shù)據(jù)節(jié)點,作為后續(xù)部門的結(jié)果數(shù)據(jù)。
一般的工作應(yīng)該是通過hivesql、shell腳本或oozie等作業(yè)相關(guān)工具進行數(shù)據(jù)分析和統(tǒng)計,以便進行任務(wù)周期調(diào)度
還有很大的發(fā)展空間。利用SQL實現(xiàn)業(yè)務(wù)可以鍛煉思維邏輯,增加工作經(jīng)驗,后續(xù)可以做數(shù)據(jù)建模工程師,可以指導(dǎo)戰(zhàn)士做日常開發(fā),而且薪水可觀