Spark编程指南

目录

快速上手

Spark Shell

创建spark应用程序

Spark 运行程序

编程指南

引入 Spark

初始化 Spark

Spark RDD

Spark 并行集合

Spark 外部数据集

Spark RDD操作

Spark 传递函数

Spark reduceByKey

SparK RDD持久化

Spark 共享变量[广播变量和累加器]

Spark Streaming

Spark Streaming 实例

Spark Streaming基础概念

Spark Streaming关联

Spark 初始化StreamingContext

Spark Streaming离散流

Spark DStreams和receivers

Spark DStream中的转换

Spark DStreams上的输出操作

Spark DStreams缓存或持久化

Spark Streaming checkpoint

Spark Streaming部署应用程序

Spark Streaming监控应用程序

Spark Streaming性能调优

Spark Streaming减少批数据的执行时间

Spark Streaming设置正确的批容量

Spark Streaming内存调优

Spark Streaming容错语义

Spark SQL

Spark SQL例子

Spark SQL 数据源RDDs

Spark SQL 数据源Parquet文件

Spark SQL 数据源JSON数据集

Spark SQL 数据源Hive表

SparkSQL 性能调优

Spark SQL Thrift和CLI

SparkSQL 编写语言集成(Language-Integrated)的相关查询

Spark SQL 数据类型

GraphX编程指南

引入Spark和GraphX

Spark GraphX 属性图

Spark GraphX 图操作符

Spark GraphX Pregel API

Spark GraphX 图构造者

Spark GraphX 顶点和边RDDs

Spark GraphX 图算法

Spark GraphX 例子

Spark 提交应用程序

独立运行Spark

在YARN上运行Spark

本文档使用 V型知识库发布

引入 Spark

2018年05月03日 08:12 | 2985次浏览

Spark 1.2.0 使用 Scala 2.10 写应用程序，你需要使用一个兼容的 Scala 版本(例如：2.10.X)。

写 Spark 应用程序时，你需要添加 Spark 的 Maven 依赖，Spark 可以通过 Maven 中心仓库来获得：

groupId = org.apache.spark

artifactId = spark-core_2.10

version = 1.2.0

另外，如果你希望访问 HDFS 集群，你需要根据你的 HDFS 版本添加 hadoop-client 的依赖。一些公共的 HDFS 版本 tags 在第三方发行页面中被列出。

groupId = org.apache.hadoop

artifactId = hadoop-client

version = <your-hdfs-version>

最后，你需要导入一些 Spark 的类和隐式转换到你的程序，添加下面的行就可以了：

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

import org.apache.spark.SparkConf

小说《我是全球混乱的源头》

感觉本站内容不错，读后有收获？小额赞助,鼓励网站分享出更好的教程

上一篇：css 字体下一篇：初始化 Spark

^