hudi spparksql 注意点

spark sql 加载hudi文件是注意加 /*

spark.read.laod(path:String) 不要用 spark.read.laod(path:_*)

sparksql源码

/**
 * Loads input in as a `DataFrame`, for data sources that require a path (e.g. data backed by
 * a local or distributed file system).
 *
 * @since 1.4.0
 */
def load(path: String): DataFrame = {
  option("path", path).load(Seq.empty: _*) // force invocation of `load(...varargs...)`
}

/**
 * Loads input in as a `DataFrame`, for data sources that support multiple paths.
 * Only works if the source is a HadoopFsRelationProvider.
 *
 * @since 1.6.0
 */
@scala.annotation.varargs
def load(paths: String*): DataFrame = {
  if (source.toLowerCase(Locale.ROOT) == DDLUtils.HIVE_PROVIDER) {
    throw new AnalysisException("Hive data source can only be used with tables, you can not " +
      "read files of Hive data source directly.")
  }
...........
}

hudi_spark_bundle datasource源码

override def createRelation(sqlContext: SQLContext,
                            optParams: Map[String, String],
                            schema: StructType): BaseRelation = {
  // Add default options for unspecified read options keys.
  val parameters = translateViewTypesToQueryTypes(optParams)

  val path = parameters.get("path")
  val readPathsStr = parameters.get(DataSourceReadOptions.READ_PATHS_OPT_KEY)
  if (path.isEmpty && readPathsStr.isEmpty) {
    throw new HoodieException(s"'path' or '$READ_PATHS_OPT_KEY' or both must be specified.")
  }

  val readPaths = readPathsStr.map(p => p.split(",").toSeq).getOrElse(Seq())
  ....
}

SparkSql Hudi

hudi spparksql 注意点

相关

sparkSQL

SparkSQL的一些用法建议和Spark的性能优化

sparksql Seq生成DataFrame

看SparkSql如何支撑企业数仓

SparkSql 计算一周的周开始和周结束时间

华为云FusionInsight MRS实战 - Hudi实时入湖之DeltaStreamer工具最佳实践

SparkSQL的3种Join实现

八、SparkSQL综合作业

8. SparkSQL综合作业

SparkSQL 数据分页及Top N

Apache Hudi数据跳过技术加速查询高达50倍

使用 Apache Hudi 实现 SCD-2（渐变维度）

标签