Spark编程指南

目录

快速上手

Spark Shell

创建spark应用程序

Spark 运行程序

编程指南

引入 Spark

初始化 Spark

Spark RDD

Spark 并行集合

Spark 外部数据集

Spark RDD操作

Spark 传递函数

Spark reduceByKey

SparK RDD持久化

Spark 共享变量[广播变量和累加器]

Spark Streaming

Spark Streaming 实例

Spark Streaming基础概念

Spark Streaming关联

Spark 初始化StreamingContext

Spark Streaming离散流

Spark DStreams和receivers

Spark DStream中的转换

Spark DStreams上的输出操作

Spark DStreams缓存或持久化

Spark Streaming checkpoint

Spark Streaming部署应用程序

Spark Streaming监控应用程序

Spark Streaming性能调优

Spark Streaming减少批数据的执行时间

Spark Streaming设置正确的批容量

Spark Streaming内存调优

Spark Streaming容错语义

Spark SQL

Spark SQL例子

Spark SQL 数据源RDDs

Spark SQL 数据源Parquet文件

Spark SQL 数据源JSON数据集

Spark SQL 数据源Hive表

SparkSQL 性能调优

Spark SQL Thrift和CLI

SparkSQL 编写语言集成(Language-Integrated)的相关查询

Spark SQL 数据类型

GraphX编程指南

引入Spark和GraphX

Spark GraphX 属性图

Spark GraphX 图操作符

Spark GraphX Pregel API

Spark GraphX 图构造者

Spark GraphX 顶点和边RDDs

Spark GraphX 图算法

Spark GraphX 例子

Spark 提交应用程序

独立运行Spark

在YARN上运行Spark

本文档使用 V型知识库发布

Spark RDD

2018年05月05日 08:44 | 2635次浏览作者原创版权保护

Spark 核心的概念是 Resilient Distributed Dataset (RDD)：一个可并行操作的有容错机制的数据集合。有 2 种方式创建 RDDs：第一种是在你的驱动程序中并行化一个已经存在的集合；另外一种是引用一个外部存储系统的数据集，例如共享的文件系统，HDFS，HBase或其他 Hadoop 数据格式的数据源。

接下来的章节重点介绍知识点如下：

并行集合

外部数据集

RDD 操作

传递函数到 Spark

使用键值对

Transformations

Actions

RDD持久化

小说《我是全球混乱的源头》

此文章本站原创，地址 https://www.vxzsk.com/871.html 转载请注明出处！谢谢！

感觉本站内容不错，读后有收获？小额赞助,鼓励网站分享出更好的教程

上一篇：vue 属性绑定v-bind 下一篇：html教程(第一章):HTML介绍

^