impala刪除指定分區(qū) impala為什么比hive快？

2021-03-10

1892

impala為什么比hive快？Impala聲稱數(shù)據(jù)查詢的效率是hive的幾倍甚至幾十倍。為什么黑斑羚這么快的原因如下：真正的MPP查詢引擎。使用C開發(fā)而不是Java來減少運行負載。運行時代碼生成（l

impala為什么比hive快？

Impala聲稱數(shù)據(jù)查詢的效率是hive的幾倍甚至幾十倍。為什么黑斑羚這么快的原因如下：

真正的MPP查詢引擎。

使用C開發(fā)而不是Java來減少運行負載。

運行時代碼生成（llvm IR）以提高效率。

新的執(zhí)行引擎（不是MapReduce）。

執(zhí)行SQL語句時，impala不會將中間數(shù)據(jù)寫入磁盤，而是在內存中完成所有處理。

使用impala時，將立即執(zhí)行查詢任務而不是生產MapReduce任務，這將節(jié)省大量初始化時間。

Impala查詢計劃解析器使用更智能的算法在多個節(jié)點上以分布式方式執(zhí)行每個查詢步驟，同時避免了排序和洗牌這兩個非常耗時的階段，這兩個階段通常是不必要的。

Impala在HDFS上有每個數(shù)據(jù)塊的信息。在處理查詢時，impala可以在每個數(shù)據(jù)節(jié)點上更均勻地分布查詢。

另一個關鍵原因是impala為每個查詢生成程序集級代碼。當impala在本地內存中運行時，匯編代碼的執(zhí)行效率比任何其他代碼框架都要快，因為代碼框架會增加額外的延遲。