EMR Spark Runtime Filter性能优化

  • 时间:
  • 浏览:2

推断出Filter(b=1) on B

目前在SparkSQL富含Filter下推优化,包括一一俩个多维度:

生成Filter(a=1) on A

隐式推断

直接显示获取

利用生成的Filter算子有有助于优化,比如:

SparkSQL会从用户的SQL语句中获取到Filter

Join是一一俩个多非常耗费资源耗费时间的操作,有点是数据量很大的状态下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 有时候他们 有有助于尽有时候的在靠近源头上减少参与计算的数据,一方面有有助于提高查询性能,另一方面有有助于够减少资源的消耗(网络/IO/CPU等),在同样的资源的状态下有有助于支撑更多的查询。