Spark编程指南

目录

快速上手

Spark Shell

创建spark应用程序

Spark 运行程序

编程指南

引入 Spark

初始化 Spark

Spark RDD

Spark 并行集合

Spark 外部数据集

Spark RDD操作

Spark 传递函数

Spark reduceByKey

SparK RDD持久化

Spark 共享变量[广播变量和累加器]

Spark Streaming

Spark Streaming 实例

Spark Streaming基础概念

Spark Streaming关联

Spark 初始化StreamingContext

Spark Streaming离散流

Spark DStreams和receivers

Spark DStream中的转换

Spark DStreams上的输出操作

Spark DStreams缓存或持久化

Spark Streaming checkpoint

Spark Streaming部署应用程序

Spark Streaming监控应用程序

Spark Streaming性能调优

Spark Streaming减少批数据的执行时间

Spark Streaming设置正确的批容量

Spark Streaming内存调优

Spark Streaming容错语义

Spark SQL

Spark SQL例子

Spark SQL 数据源RDDs

Spark SQL 数据源Parquet文件

Spark SQL 数据源JSON数据集

Spark SQL 数据源Hive表

SparkSQL 性能调优

Spark SQL Thrift和CLI

SparkSQL 编写语言集成(Language-Integrated)的相关查询

Spark SQL 数据类型

GraphX编程指南

引入Spark和GraphX

Spark GraphX 属性图

Spark GraphX 图操作符

Spark GraphX Pregel API

Spark GraphX 图构造者

Spark GraphX 顶点和边RDDs

Spark GraphX 图算法

Spark GraphX 例子

Spark 提交应用程序

独立运行Spark

在YARN上运行Spark

本文档使用 V型知识库发布

Spark reduceByKey

2018年05月09日 09:33 | 2779次浏览

虽然很多 Spark 操作工作在包含任意类型对象的 RDDs 上的，但是少数几个特殊操作仅仅在键值(key-value)对 RDDs 上可用。最常见的是分布式 "shuffle" 操作，例如根据一个 key 对一组数据进行分组和聚合。

在 Scala 中，这些操作在包含二元组(Tuple2)(在语言的内建元组中，通过简单的写 (a, b) 创建) 的 RDD 上自动地变成可用的，只要在你的程序中导入 org.apache.spark.SparkContext._ 来启用 Spark 的隐式转换。在 PairRDDFunctions 的类里键值对操作是可以使用的，如果你导入隐式转换它会自动地包装成元组 RDD。

例如，下面的代码在键值对上使用 reduceByKey 操作来统计在一个文件里每一行文本内容出现的次数：

val lines = sc.textFile("data.txt")

val pairs = lines.map(s => (s, 1))

val counts = pairs.reduceByKey((a, b) => a + b)

我们也可以使用 counts.sortByKey()，例如，将键值对按照字母进行排序，最后 counts.collect() 把它们作为一个对象数组带回到驱动程序。

注意：当使用一个自定义对象作为 key 在使用键值对操作的时候，你需要确保自定义 equals() 方法和 hashCode() 方法是匹配的。更加详细的内容，查看 Object.hashCode() 文档)中的契约概述。

小说《我是全球混乱的源头》

感觉本站内容不错，读后有收获？小额赞助,鼓励网站分享出更好的教程

上一篇：css position 下一篇：weui Preview表单预览

^