Spark编程指南

目录

快速上手

Spark Shell

创建spark应用程序

Spark 运行程序

编程指南

引入 Spark

初始化 Spark

Spark RDD

Spark 并行集合

Spark 外部数据集

Spark RDD操作

Spark 传递函数

Spark reduceByKey

SparK RDD持久化

Spark 共享变量[广播变量和累加器]

Spark Streaming

Spark Streaming 实例

Spark Streaming基础概念

Spark Streaming关联

Spark 初始化StreamingContext

Spark Streaming离散流

Spark DStreams和receivers

Spark DStream中的转换

Spark DStreams上的输出操作

Spark DStreams缓存或持久化

Spark Streaming checkpoint

Spark Streaming部署应用程序

Spark Streaming监控应用程序

Spark Streaming性能调优

Spark Streaming减少批数据的执行时间

Spark Streaming设置正确的批容量

Spark Streaming内存调优

Spark Streaming容错语义

Spark SQL

Spark SQL例子

Spark SQL 数据源RDDs

Spark SQL 数据源Parquet文件

Spark SQL 数据源JSON数据集

Spark SQL 数据源Hive表

SparkSQL 性能调优

Spark SQL Thrift和CLI

SparkSQL 编写语言集成(Language-Integrated)的相关查询

Spark SQL 数据类型

GraphX编程指南

引入Spark和GraphX

Spark GraphX 属性图

Spark GraphX 图操作符

Spark GraphX Pregel API

Spark GraphX 图构造者

Spark GraphX 顶点和边RDDs

Spark GraphX 图算法

Spark GraphX 例子

Spark 提交应用程序

独立运行Spark

在YARN上运行Spark

本文档使用 V型知识库发布

Spark 传递函数

2018年05月08日 10:36 | 2706次浏览

Spark 的 API 很大程度上依靠在驱动程序里传递函数到集群上运行。这里有两种推荐的方式：

1 匿名函数 (Anonymous function syntax)，可以在比较短的代码中使用。

2 全局单例对象里的静态方法。例如，你可以定义 object MyFunctions 然后传递 MyFounctions.func1，像下面这样：

object MyFunctions {
  def func1(s: String): String = { ... }
}

myRdd.map(MyFunctions.func1)

注意，它可能传递的是一个类实例里的一个方法引用(而不是一个单例对象)，这里必须传送包含方法的整个对象。例如：

class MyClass {

  def func1(s: String): String = { ... }
  
  def doStuff(rdd: RDD[String]): RDD[String] = { rdd.map(func1) }
  
}

这里，如果我们创建了一个 new MyClass 对象，并且调用它的 doStuff，map 里面引用了这个 MyClass 实例中的 func1 方法，所以这个对象必须传送到集群上。类似写成 rdd.map(x => this.func1(x))。

以类似的方式，访问外部对象的字段将会引用整个对象：

class MyClass {

  val field = "Hello"
  
  def doStuff(rdd: RDD[String]): RDD[String] = { rdd.map(x => field + x) }
  
}

相当于写成 rdd.map(x => this.field + x)，引用了整个 this 对象。为了避免这个问题，最简单的方式是复制 field 到一个本地变量而不是从外部访问它：

def doStuff(rdd: RDD[String]): RDD[String] = {

  val field_ = this.field
  
  rdd.map(x => field_ + x)
}

小说《我是全球混乱的源头》

感觉本站内容不错，读后有收获？小额赞助,鼓励网站分享出更好的教程

上一篇：Spark RDD操作下一篇：weui Loadmore加载更多

^