Spark官方在介绍SparkSQL的概念时,如下:
SparkSQL是Spark中结构化数据处理的模型。不像Spark基础的RDDAPI,sparkSQL的接口提供了更丰富的信息,关于数据和优化后计算的结构。SparkSQL用这些信息来优化。
dataFrame的介绍如下:
一个dataFrame是一个分布式数据集,它的数据被命名的列管理。它在概念上类似于数据库中的表,但更丰富。
在databrick的一篇slideshare中,有一张ppt,也进行了解释。
处理bigdata最快的方式是不读取它。
SparkSQL可以读取更少的数据。
转换成更高效的格式
用column列的格式
使用partition(例如,根据年份、月份)
使用数据统计跳过读取
把断言推向存储系统(例如,JDBC)