Spark-V型知识库

在YARN上运行Spark

浏览: 2725 2018年06月10日

配置大部分为Spark on YARN模式提供的配置与其它部署模式提供的配置相同。下面这些是为Spark on YARN模式提供的配置。Spark属性Property Name默认描述spark.yarn.applicationMaster.waitTries 10ApplicationMast...

[阅读全文]

独立运行Spark

浏览: 2657 2018年06月09日

安装Spark独立模式集群安装Spark独立模式，你只需要将Spark的编译版本简单的放到集群的每个节点。你可以获得每个稳定版本的预编译版本，也可以自己编译。手动启动集群你能够通过下面的方式启动独立的master服务器。./sbin/start-master.sh一旦启动，master将会为自己...

[阅读全文]

Spark 提交应用程序

浏览: 2675 2018年06月09日

在Spark bin目录下的spark-submit可以用来在集群上启动应用程序。它可以通过统一的接口使用Spark支持的所有集群管理器，所有你不必为每一个管理器做相应的配置。用spark-submit启动应用程序bin/spark-submit脚本负责建立包含Spark以及其依赖的类路径（c...

[阅读全文]

Spark GraphX 例子

浏览: 2540 2018年06月09日

假定我们想从一些文本文件中构建一个图，限制这个图包含重要的关系和用户，并且在子图上运行page-rank，最后返回与top用户相关的属性。可以通过如下方式实现。// Connect to the Spark clusterval sc = new SparkContext("spark://ma...

[阅读全文]

Spark GraphX 图算法

浏览: 2874 2018年06月08日

GraphX包括一组图算法来简化分析任务。这些算法包含在org.apache.spark.graphx.lib包中，可以被直接访问。PageRank算法PageRank度量一个图中每个顶点的重要程度，假定从u到v的一条边代表v的重要性标签。例如，一个Twitter用户被许多其它人粉，该用户排名很...

[阅读全文]

Spark GraphX 顶点和边RDDs

浏览: 2465 2018年06月08日

GraphX暴露保存在图中的顶点和边的RDD。然而，因为GraphX包含的顶点和边拥有优化的数据结构，这些数据结构提供了额外的功能。顶点和边分别返回VertexRDD和EdgeRDD。这一章我们将学习它们的一些有用的功能。VertexRDDsVertexRDD[A]继承自RDD[(Vertex...

[阅读全文]

Spark GraphX 图构造者

浏览: 2666 2018年06月07日

GraphX提供了几种方式从RDD或者磁盘上的顶点和边集合构造图。默认情况下，没有哪个图构造者为图的边重新分区，而是把边保留在默认的分区中（例如HDFS中它们的原始块）。Graph.groupEdges⇒ED):Graph[VD,ED]) 需要重新分区图，因为它假定相同的边将会被分配到同一个分区...

[阅读全文]

Spark GraphX Pregel API

浏览: 2734 2018年06月07日

图本身是递归数据结构，顶点的属性依赖于它们邻居的属性，这些邻居的属性又依赖于自己邻居的属性。所以许多重要的图算法都是迭代的重新计算每个顶点的属性，直到满足某个确定的条件。一系列的图并发(graph-parallel)抽象已经被提出来用来表达这些迭代算法。GraphX公开了一个类似Pregel的...

[阅读全文]

Spark GraphX 图操作符

浏览: 2859 2018年06月06日

图操作符正如RDDs有基本的操作map, filter和reduceByKey一样，属性图也有基本的集合操作，这些操作采用用户自定义的函数并产生包含转换特征和结构的新图。定义在Graph中的核心操作是经过优化的实现。表示为核心操作的组合的便捷操作定义在GraphOps中。然而，因为有Sc...

[阅读全文]

Spark GraphX 属性图

浏览: 2722 2018年06月05日

属性图是一个有向多重图，它带有连接到每个顶点和边的用户定义的对象。有向多重图中多个并行的边共享相同的源和目的顶点。支持并行边的能力简化了建模场景，相同的顶点可能存在多种关系(例如co-worker和friend)。每个顶点用一个唯一的64位长的标识符（VertexID）作为key。Grap...

[阅读全文]

引入Spark和GraphX

浏览: 2799 2018年06月05日

开始的第一步是引入Spark和GraphX到你的项目中，如下面所示import org.apache.spark._import org.apache.spark.graphx._// To make some of the examples work we will also need RDD...

[阅读全文]

GraphX编程指南

浏览: 2786 2018年06月05日

GraphX是一个新的Spark API，它用于图和分布式图(graph-parallel)的计算。GraphX通过引入Resilient Distributed Property Graph：顶点和边均有属性的有向多重图，来扩展Spark RDD。为了支持图计算，GraphX公开一组基本的功...

[阅读全文]

Spark SQL 数据类型

浏览: 3195 2018年06月02日

数字类型ByteType：代表一个字节的整数。范围是-128到127ShortType：代表两个字节的整数。范围是-32768到32767IntegerType：代表4个字节的整数。范围是-2147483648到2147483647LongType：代表8个字节的整数。范围是-922337203...

[阅读全文]

SparkSQL 编写语言集成(Language-Integrated)的相关查询

浏览: 2681 2018年06月02日

语言集成的相关查询是实验性的，现在暂时只支持scala。Spark SQL也支持用领域特定语言编写查询。// sc is an existing SparkContext.val sqlContext = new org.apache.spark.sql.SQLContext(sc)// Imp...

[阅读全文]

Spark SQL Thrift和CLI

浏览: 3042 2018年06月01日

运行Thrift JDBC/ODBC服务器这里实现的Thrift JDBC/ODBC服务器与Hive 0.12中的HiveServer2相一致。你可以用在Spark 或者Hive 0.12附带的beeline脚本测试JDBC服务器。在Spark目录中，运行下面的命令启动JDBC/ODBC服务器。...

[阅读全文]

SparkSQL 性能调优

浏览: 2949 2018年06月01日

性能调优对于某些工作负载，可以在通过在内存中缓存数据或者打开一些实验选项来提高性能。在内存中缓存数据Spark SQL可以通过调用sqlContext.cacheTable("tableName")方法来缓存使用柱状格式的表。然后，Spark将会仅仅浏览需要的列并且自动地压缩数据以减少内存的使用...

[阅读全文]

Spark SQL 数据源Hive表

浏览: 2706 2018年05月31日

Spark SQL也支持从Apache Hive中读出和写入数据。然而，Hive有大量的依赖，所以它不包含在Spark集合中。可以通过-Phive和-Phive-thriftserver参数构建Spark，使其支持Hive。注意这个重新构建的jar包必须存在于所有的worker节点中，因为它们...

[阅读全文]

Spark SQL 数据源JSON数据集

浏览: 2620 2018年05月31日

Spark SQL能够自动推断JSON数据集的模式，加载它为一个SchemaRDD。这种转换可以通过下面两种方法来实现 jsonFile ：从一个包含JSON文件的目录中加载。文件中的每一行是一个JSON对象 jsonRDD ：从存在的RDD加载数据，这些RDD的每个元素是一个包含J...

[阅读全文]

Spark SQL 数据源Parquet文件

浏览: 2486 2018年05月27日

Parquet文件Parquet是一种柱状(columnar)格式，可以被许多其它的数据处理系统支持。Spark SQL提供支持读和写Parquet文件的功能，这些文件可以自动地保留原始数据的模式。加载数据// sqlContext from the previous example is us...

[阅读全文]

Spark SQL 数据源RDDs

浏览: 2514 2018年05月26日

Spark SQL支持通过SchemaRDD接口操作各种数据源。一个SchemaRDD能够作为一个一般的RDD被操作，也可以被注册为一个临时的表。注册一个SchemaRDD为一个表就可以允许你在其数据上运行SQL查询。这节描述了加载数据为SchemaRDD的多种方法。RDDsSpark支持两种...

[阅读全文]

在YARN上运行Spark

独立运行Spark

Spark 提交应用程序

Spark GraphX 例子

Spark GraphX 图算法

Spark GraphX 顶点和边RDDs

Spark GraphX 图构造者

Spark GraphX Pregel API

Spark GraphX 图操作符

Spark GraphX 属性图

引入Spark和GraphX

GraphX编程指南

Spark SQL 数据类型

SparkSQL 编写语言集成(Language-Integrated)的相关查询

Spark SQL Thrift和CLI

SparkSQL 性能调优

Spark SQL 数据源Hive表

Spark SQL 数据源JSON数据集

Spark SQL 数据源Parquet文件

Spark SQL 数据源RDDs

教程分类

关于我们

下载案例demo