展开

spark 当前支持三种集群管理器:

  • Spark独立集群管理器(Standalone),一种简单的Spark集群管理器,很容易建立集群,基于Spark自己的Master-Worker集群
  • Apache Mesos,一种能够运行Haoop MapReduce和服务应用的集群管理器
  • Hadoop YARN,Spark可以和Hadoop集成,利用Yarn进行资源调度
Dataset df = spark.read().json("logs.json");
df.where("age > 21")
  .select("name.first").show();

https://www.bilibili.com/video/BV1gr4y1w7zw?p=17&vd_source=b3d0a7d246fbac11e6e6396ffaf89d1b