impala刪除指定分區(qū) impala為什么比hive快?
impala為什么比hive快?Impala聲稱數(shù)據(jù)查詢的效率是hive的幾倍甚至幾十倍。為什么黑斑羚這么快的原因如下:真正的MPP查詢引擎。使用C開發(fā)而不是Java來減少運行負載。運行時代碼生成(l
impala為什么比hive快?
Impala聲稱數(shù)據(jù)查詢的效率是hive的幾倍甚至幾十倍。為什么黑斑羚這么快的原因如下:
真正的MPP查詢引擎。
使用C開發(fā)而不是Java來減少運行負載。
運行時代碼生成(llvm IR)以提高效率。
新的執(zhí)行引擎(不是MapReduce)。
執(zhí)行SQL語句時,impala不會將中間數(shù)據(jù)寫入磁盤,而是在內存中完成所有處理。
使用impala時,將立即執(zhí)行查詢任務而不是生產MapReduce任務,這將節(jié)省大量初始化時間。
Impala查詢計劃解析器使用更智能的算法在多個節(jié)點上以分布式方式執(zhí)行每個查詢步驟,同時避免了排序和洗牌這兩個非常耗時的階段,這兩個階段通常是不必要的。
Impala在HDFS上有每個數(shù)據(jù)塊的信息。在處理查詢時,impala可以在每個數(shù)據(jù)節(jié)點上更均勻地分布查詢。
另一個關鍵原因是impala為每個查詢生成程序集級代碼。當impala在本地內存中運行時,匯編代碼的執(zhí)行效率比任何其他代碼框架都要快,因為代碼框架會增加額外的延遲。