Spark编程指南

目录

快速上手

Spark Shell

创建spark应用程序

Spark 运行程序

编程指南

引入 Spark

初始化 Spark

Spark RDD

Spark 并行集合

Spark 外部数据集

Spark RDD操作

Spark 传递函数

Spark reduceByKey

SparK RDD持久化

Spark 共享变量[广播变量和累加器]

Spark Streaming

Spark Streaming 实例

Spark Streaming基础概念

Spark Streaming关联

Spark 初始化StreamingContext

Spark Streaming离散流

Spark DStreams和receivers

Spark DStream中的转换

Spark DStreams上的输出操作

Spark DStreams缓存或持久化

Spark Streaming checkpoint

Spark Streaming部署应用程序

Spark Streaming监控应用程序

Spark Streaming性能调优

Spark Streaming减少批数据的执行时间

Spark Streaming设置正确的批容量

Spark Streaming内存调优

Spark Streaming容错语义

Spark SQL

Spark SQL例子

Spark SQL 数据源RDDs

Spark SQL 数据源Parquet文件

Spark SQL 数据源JSON数据集

Spark SQL 数据源Hive表

SparkSQL 性能调优

Spark SQL Thrift和CLI

SparkSQL 编写语言集成(Language-Integrated)的相关查询

Spark SQL 数据类型

GraphX编程指南

引入Spark和GraphX

Spark GraphX 属性图

Spark GraphX 图操作符

Spark GraphX Pregel API

Spark GraphX 图构造者

Spark GraphX 顶点和边RDDs

Spark GraphX 图算法

Spark GraphX 例子

Spark 提交应用程序

独立运行Spark

在YARN上运行Spark

本文档使用 V型知识库发布

Spark SQL

2018年05月25日 09:40 | 2944次浏览

Spark SQL允许Spark执行用SQL, HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。 SchemaRDDs由行对象组成，行对象拥有一个模式（scheme）来描述行中每一列的数据类型。SchemaRDD与关系型数据库中的表很相似。可以通过存在的RDD、一个Parquet文件、一个JSON数据库或者对存储在Apache Hive中的数据执行HiveSQL查询中创建。

本章的所有例子都利用了Spark分布式系统中的样本数据，可以在spark-shell中运行它们。接下来重点介绍如下：

spark sql 例子

数据源

RDDs

parquet文件

JSON数据集

Hive表

性能调优

其它SQL接口

编写语言集成(Language-Integrated)的相关查询

Spark SQL数据类型

小说《我是全球混乱的源头》

感觉本站内容不错，读后有收获？小额赞助,鼓励网站分享出更好的教程

上一篇：Spark Streaming容错语义下一篇：5.机器学习的应用--大数据

^