浏览: 2725
2018年06月10日
配置大部分为Spark on YARN模式提供的配置与其它部署模式提供的配置相同。下面这些是为Spark on YARN模式提供的配置。Spark属性Property Name默认描述spark.yarn.applicationMaster.waitTries 10ApplicationMast...
浏览: 2657
2018年06月09日
安装Spark独立模式集群安装Spark独立模式,你只需要将Spark的编译版本简单的放到集群的每个节点。你可以获得每个稳定版本的预编译版本,也可以自己编译。手动启动集群你能够通过下面的方式启动独立的master服务器。./sbin/start-master.sh一旦启动,master将会为自己...
浏览: 2675
2018年06月09日
在Spark bin目录下的spark-submit可以用来在集群上启动应用程序。它可以通过统一的接口使用Spark支持的所有集群管理器 ,所有你不必为每一个管理器做相应的配置。用spark-submit启动应用程序bin/spark-submit脚本负责建立包含Spark以及其依赖的类路径(c...
浏览: 2540
2018年06月09日
假定我们想从一些文本文件中构建一个图,限制这个图包含重要的关系和用户,并且在子图上运行page-rank,最后返回与top用户相关的属性。可以通过如下方式实现。// Connect to the Spark clusterval sc = new SparkContext("spark://ma...
浏览: 2874
2018年06月08日
GraphX包括一组图算法来简化分析任务。这些算法包含在org.apache.spark.graphx.lib包中,可以被直接访问。PageRank算法PageRank度量一个图中每个顶点的重要程度,假定从u到v的一条边代表v的重要性标签。例如,一个Twitter用户被许多其它人粉,该用户排名很...
浏览: 2465
2018年06月08日
GraphX暴露保存在图中的顶点和边的RDD。然而,因为GraphX包含的顶点和边拥有优化的数据结构,这些数据结构提供了额外的功能。顶点和边分别返回VertexRDD和EdgeRDD。这一章 我们将学习它们的一些有用的功能。VertexRDDsVertexRDD[A]继承自RDD[(Vertex...
浏览: 2666
2018年06月07日
GraphX提供了几种方式从RDD或者磁盘上的顶点和边集合构造图。默认情况下,没有哪个图构造者为图的边重新分区,而是把边保留在默认的分区中(例如HDFS中它们的原始块)。Graph.groupEdges⇒ED):Graph[VD,ED]) 需要重新分区图,因为它假定相同的边将会被分配到同一个分区...
浏览: 2734
2018年06月07日
图本身是递归数据结构,顶点的属性依赖于它们邻居的属性,这些邻居的属性又依赖于自己邻居的属性。所以许多重要的图算法都是迭代的重新计算每个顶点的属性,直到满足某个确定的条件。 一系列的图并发(graph-parallel)抽象已经被提出来用来表达这些迭代算法。GraphX公开了一个类似Pregel的...
浏览: 2859
2018年06月06日
图操作符 正如RDDs有基本的操作map, filter和reduceByKey一样,属性图也有基本的集合操作,这些操作采用用户自定义的函数并产生包含转换特征和结构的新图。定义在Graph中的 核心操作是经过优化的实现。表示为核心操作的组合的便捷操作定义在GraphOps中。然而, 因为有Sc...
浏览: 2722
2018年06月05日
属性图是一个有向多重图,它带有连接到每个顶点和边的用户定义的对象。 有向多重图中多个并行的边共享相同的源和目的顶点。支持并行边的能力简化了建模场景,相同的顶点可能存在多种关系(例如co-worker和friend)。 每个顶点用一个唯一的64位长的标识符(VertexID)作为key。Grap...
浏览: 2799
2018年06月05日
开始的第一步是引入Spark和GraphX到你的项目中,如下面所示import org.apache.spark._import org.apache.spark.graphx._// To make some of the examples work we will also need RDD...
浏览: 2786
2018年06月05日
GraphX是一个新的Spark API,它用于图和分布式图(graph-parallel)的计算。GraphX通过引入Resilient Distributed Property Graph: 顶点和边均有属性的有向多重图,来扩展Spark RDD。为了支持图计算,GraphX公开一组基本的功...
浏览: 3195
2018年06月02日
数字类型ByteType:代表一个字节的整数。范围是-128到127ShortType:代表两个字节的整数。范围是-32768到32767IntegerType:代表4个字节的整数。范围是-2147483648到2147483647LongType:代表8个字节的整数。范围是-922337203...
浏览: 2681
2018年06月02日
语言集成的相关查询是实验性的,现在暂时只支持scala。Spark SQL也支持用领域特定语言编写查询。// sc is an existing SparkContext.val sqlContext = new org.apache.spark.sql.SQLContext(sc)// Imp...
浏览: 3042
2018年06月01日
运行Thrift JDBC/ODBC服务器这里实现的Thrift JDBC/ODBC服务器与Hive 0.12中的HiveServer2相一致。你可以用在Spark 或者Hive 0.12附带的beeline脚本测试JDBC服务器。在Spark目录中,运行下面的命令启动JDBC/ODBC服务器。...
浏览: 2949
2018年06月01日
性能调优对于某些工作负载,可以在通过在内存中缓存数据或者打开一些实验选项来提高性能。在内存中缓存数据Spark SQL可以通过调用sqlContext.cacheTable("tableName")方法来缓存使用柱状格式的表。然后,Spark将会仅仅浏览需要的列并且自动地压缩数据以减少内存的使用...
浏览: 2706
2018年05月31日
Spark SQL也支持从Apache Hive中读出和写入数据。然而,Hive有大量的依赖,所以它不包含在Spark集合中。可以通过-Phive和-Phive-thriftserver参数构建Spark,使其 支持Hive。注意这个重新构建的jar包必须存在于所有的worker节点中,因为它们...
浏览: 2620
2018年05月31日
Spark SQL能够自动推断JSON数据集的模式,加载它为一个SchemaRDD。这种转换可以通过下面两种方法来实现 jsonFile :从一个包含JSON文件的目录中加载。文件中的每一行是一个JSON对象 jsonRDD :从存在的RDD加载数据,这些RDD的每个元素是一个包含J...
浏览: 2486
2018年05月27日
Parquet文件Parquet是一种柱状(columnar)格式,可以被许多其它的数据处理系统支持。Spark SQL提供支持读和写Parquet文件的功能,这些文件可以自动地保留原始数据的模式。加载数据// sqlContext from the previous example is us...
浏览: 2514
2018年05月26日
Spark SQL支持通过SchemaRDD接口操作各种数据源。一个SchemaRDD能够作为一个一般的RDD被操作,也可以被注册为一个临时的表。注册一个SchemaRDD为一个表就 可以允许你在其数据上运行SQL查询。这节描述了加载数据为SchemaRDD的多种方法。RDDsSpark支持两种...