当前位置:北库历史网>文史百科>正文

科普SparkSpark是什么如何使用Spark 科普SparkSpark是什么如何使用Spark

导语:什么是科普SparkSpark,如何使用Spark?以下文字资料由边肖为大家收集出版。让我们快速看一下!科普星火,什么是星火,如何使用星火1.什么算法是1。基于分布式计算的Spark2.2有什么区别。Spark和MapReduce3.为什么3。Spark比Hadoop更灵活4.4有什么局限性。火花5.什么情况下Spark合适什么是火花Spark是一个类似Hadoop map reduce的通用并行

什么是科普SparkSpark,如何使用Spark?以下文字资料由边肖为大家收集出版。让我们快速看一下!

科普星火,什么是星火,如何使用星火

1.什么算法是1。基于分布式计算的Spark

2.2有什么区别。Spark和MapReduce

3.为什么3。Spark比Hadoop更灵活

4.4有什么局限性。火花

5.什么情况下Spark合适

什么是火花

Spark是一个类似Hadoop map reduce的通用并行计算框架,由UC伯克利AMP实验室开放。Spark基于MapReduce算法实现分布式计算,具有Hadoop MapReduce的优势;但是,与地图缩小不同,作业中间输出和结果可以保存在内存中,因此不再需要读写HDFS。因此Spark可以更好的应用到数据挖掘、机器学习等迭代MapReduce算法中。

其架构如下图所示:

Spark与Hadoop的比较

Spark的中间数据放入内存,对于迭代操作更有效率。

Spark更适合迭代运算较多的ML和DM运算。

因为在星火中,有一个抽象的RDD概念。

Spark比Hadoop更通用

Spark提供多种类型的数据集操作,不像Hadoop只提供Map和Reduce操作。

例如映射、筛选、平面映射、示例、按键分组、按键缩减、联合、联接、共组、映射值、排序、partionby等。Spark称这些操作为转换。

同时,它还提供了计数、收集、减少、查找和保存等多种操作。

这些不同的数据集操作类型为开发上层应用的用户提供了方便。

处理节点之间的通信模型不再像Hadoop那样是唯一的数据洗牌模型。

用户可以命名、物化和控制中间结果的存储和分区。

可以说编程模型比Hadoop更灵活。

但是,由于RDD的特点,Spark不适合异步细粒度更新状态的应用,比如web服务的存储或者增量web爬虫和索引。

不适合增量修改的应用模式。

容错

在计算分布式数据集时,容错是通过检查点来实现的,检查点有两种方式,一种是检查点数据,另一种是记录更新。

用户可以控制哪种方式来实现容错。

可用

Spark通过提供丰富的Scala、Java、Python API和交互式Shell来提高可用性。

Spark和Hadoop的结合

Spark可以直接读写数据到HDFS,并且支持Spark on纱。

Spark可以和MapReduce运行在同一个集群中,共享存储资源和计算。数据仓库Shark借用了Hive,和Hive几乎完全兼容。

Spark的适用场景

Spark是一个基于内存的迭代计算框架,适用于需要对特定数据集进行多次操作的应用。

需要重复操作越多,需要读取的数据越大,收益越大。在数据量小但计算强度高的情况下,收益相对较小

由于RDD的特点,Spark不适合异步细粒度更新状态的应用,比如web服务的存储或者增量web爬虫和索引。

不适合增量修改的应用模式。

总的来说,Spark应用广泛,具有普遍性。

运转模

本地模式

独立模式

介子模式

纱线模式

火花生态系统

鲨鱼:鲨鱼基本上在Spark的框架基础上提供了和Hive一样的Hive QL命令接口。为了最大限度地保持与Hive的兼容性,Shark使用Hive的API实现查询解析和逻辑计划生成。在最后的PhysicalPlan执行阶段,Spark取代了Hadoop MapReduce。

通过配置Shark参数,Shark可以在内存中自动缓存特定的RDD,实现数据重用,进而加快特定数据集的检索速度。

同时,Shark通过UDF自定义函数实现了一个具体的数据分析学习算法,使得SQL数据查询和操作分析可以结合在一起,最大限度的重用RDD。

Spark streaming:构建了一个在Spark上处理流数据的框架。基本原理是将Stream数据划分为小时间段,并以类似于批处理的方式处理这一小部分数据。

火花流建立在火花上。一方面,Spark的低延迟执行引擎可以用于实时计算;另一方面,与其他基于记录的处理框架相比,RDD数据集更容易进行高效的容错处理。

此外,小批量处理的方式使其与批量和实时数据处理的逻辑和算法兼容。

方便了一些需要历史数据和实时数据联合分析的具体应用。

百吉饼:星火上的Pregel,可以用于图形计算,是一个非常有用的小项目。

百吉带来了一个实现谷歌PageRank算法的例子。

结束。

免责申明:以上内容属作者个人观点,版权归原作者所有,不代表北库历史网立场!登载此文只为提供信息参考,并不用于任何商业目的。如有侵权或内容不符,请联系我们处理,谢谢合作!
上一篇:真正的女娲娘娘在哪里 真正的女娲娘娘在哪里 世界上真的有女娲娘娘的传说吗下一篇:美国历史《我们的故事》 美国历史《我们的故事》

文章评论