Spark 核心的概念是 Resilient Distributed Dataset (RDD):一个可并行操作的有容错机制的数据集合。有 2 种方式创建 RDDs:第一种是在你的驱动程序中并行化一个已经存在的集合;另外一种是引用一个外部存储系统的数据集,例如共享的文件系统,HDFS,HBase或其他 Hadoop 数据格式的数据源。
接下来的章节重点介绍知识点如下:
并行集合
外部数据集
RDD 操作
传递函数到 Spark
使用键值对
Transformations
Actions
RDD持久化
此文章本站原创,地址 https://www.vxzsk.com/871.html
转载请注明出处!谢谢!
感觉本站内容不错,读后有收获?小额赞助,鼓励网站分享出更好的教程
上一篇:vue 属性绑定v-bind
下一篇:html教程(第一章):HTML介绍
^