Hive和Spark究竟是凭借什么优势而大获成功?
2019-8-27 20:55 | 查看: 132| 评论: 0
Hive和Spark凭借其在处理大规模ldsports官网是多少方面的优势大获成功,换句话说,它们是做大ldsports官网是多少分析的。本文重点阐述这两种产品的发展史和各种特性,通过对其能力的比较,来说明这两个产品能够解决的各类复杂ldsports官网是多少处理问题。

什么是Hive?

Hive是在Hadoop分布式文件系统上运行的开源分布式ldsports官网是多少仓库ldsports官网是多少库,用于查询和分析大ldsports官网是多少。ldsports官网是多少以表格的形式存储(就像关系ldsports官网是多少库管理系统一样)。ldsports官网是多少操作可以使用名为HiveQL的SQL接口来执行。Hive在Hadoop之上引入了SQL功能,使其成为一个水平可扩展的ldsports官网是多少库,是DWH环境的绝佳选择。

Hive发展史掠影

Hive(即后来的Apache)最初是由Facebook开发的,开发人员发现他们的ldsports官网是多少在几天内出现了从GBs到TBs的指数级增长。当时,Facebook使用Python将ldsports官网是多少加载到RDBMSldsports官网是多少库中。因为RDBMSldsports官网是多少库只能垂直伸缩,很快就面临着性能和伸缩性问题。他们需要一个可以水平伸缩并处理大量ldsports官网是多少的ldsports官网是多少库。Hadoop在当时已经很流行了;不久之后,构建在Hadoop之上的Hive出现了。Hive与RDBMSldsports官网是多少库类似,但不是完整的RDBMS。

为什么选择Hive?

选择Hive的核心原因是它是运行在Hadoop上的SQL接口。此外,它还降低了MapReduce框架的复杂性。Hive帮助企业在HDFS上执行大规模ldsports官网是多少分析,使其成为一个水平可伸缩的ldsports官网是多少库。它的SQL接口HiveQL使具有RDBMS背景的开发人员能够构建和开发性能、使拓展的ldsports官网是多少仓库类型框架。

Hive特性和功能

Hive具有企业级的特性和功能,可以帮助企业构建高效的高端ldsports官网是多少仓库解决方案。

其中一些特性包括:

Hive使用Hadoop作为存储引擎,仅在HDF上运行。 专门为ldsports官网是多少仓库操作而构建的,不适用于OLTP或OLAP。 HiveQL作为SQL引擎,能够帮助为ldsports官网是多少仓库类型操作构建复杂的SQL查询。Hive可以与其他分布式ldsports官网是多少库(如HBase)和NoSQLldsports官网是多少库(如Cassandra)集成。

Hive结构

Hive架构非常简单。它有一个Hive接口,并使用HDFS跨多个服务器存储ldsports官网是多少,用于分布式ldsports官网是多少处理。


用于ldsports官网是多少仓库系统的Hive

Hive是专为ldsports官网是多少仓库操作构建的ldsports官网是多少库,尤其是那些处理万亿字节或千兆字节ldsports官网是多少的ldsports官网是多少库。与RDBMS的ldsports官网是多少库类似,但不完全相同。如前所述,它是一个水平扩展的ldsports官网是多少库,并利用了Hadoop的功能,使其成为一个快速执行的高规模ldsports官网是多少库。它可以在数千个节点上运行,并且可以利用商用硬件。这使得Hive成为一款具有高性能和可扩展性的高性价比产品。

Hive集成功能

由于支持ANSI SQL标准,Hive可以与HBase和Cassandra.等ldsports官网是多少库集成。这些工具对SQL的支持有限,可以帮助应用程序对更大的ldsports官网是多少集执行分析和报告。Hive还可以与Spark、Kafka和Flume等ldsports官网是多少流工具集成。

Hive的局限性

Hive是一个纯ldsports官网是多少仓库ldsports官网是多少库,以表的形式存储ldsports官网是多少。因此,它只能处理使用SQL查询读写的结构化ldsports官网是多少,不能用于非结构化ldsports官网是多少。此外,Hive也不适合OLTP或OLAP操作。

什么是Spark?

Spark是一个分布式大ldsports官网是多少框架,帮助提取和处理大量RDD格式的ldsports官网是多少,以便进行分析。简而言之,它不是一个ldsports官网是多少库,而是一个框架,可以使用RDD(弹性分布式ldsports官网是多少)方法从ldsports官网是多少存储区(如Hive、Hadoop和HBase)访问外部分布式ldsports官网是多少集。由于Spark在内存中执行复杂的分析,所以运行十分迅速。

什么是Spark Streaming?

Spark Streaming是Spark的一个扩展,它可以从Web源实时流式传输实时ldsports官网是多少,以创建各种分析。尽管有其他工具,如Kafka和Flume可以做到这一点,但Spark成为一个很好的选择,执行真正复杂的ldsports官网是多少分析是必要的。Spark有自己的SQL引擎,与Kafka和Flume集成时运行良好。

Spark发展史掠影

Spark是作为MapReduce的替代方案而提出的,MapReduce是一种缓慢且资源密集型的编程模型。因为Spark对内存中的ldsports官网是多少进行分析,所以不必依赖磁盘空间或使用网络带宽。

为什么选择Spark?

Spark的核心优势在于它能够执行复杂的内存分析和高达千兆字节的ldsports官网是多少流大小,使其比MapReduce更高效、更快。Spark可以从Hadoop上运行的任何ldsports官网是多少存储中提取ldsports官网是多少,并在内存中并行执行复杂的分析。此功能减少了磁盘输入/输出和网络争用,将其速度提高了十倍甚至一百倍。另外,Spark中的ldsports官网是多少分析框架还可以使用Java、Scala、Python、R甚至是SQL来构建。

Spark架构

Spark体系结构可以根据需求而变化。通常,Spark体系结构包括Spark流、Spark SQL、机器学习库、图形处理、Spark核心引擎和ldsports官网是多少存储(如HDFS、MongoDB和Cassandra)。


Spark特性和功能

闪电般快速的分析

Spark从Hadoop中提取ldsports官网是多少并在内存中执行分析。ldsports官网是多少被并行地以块的形式拉入内存。然后,将最终ldsports官网是多少集传送到目的地。ldsports官网是多少集也可以驻留在内存中,知道被使用。

Spark Streaming

Spark Streaming是Spark的一个扩展,它可以从大量使用的web源实时传输大量ldsports官网是多少。由于Spark具有执行高级分析的能力,因此与Kafka和Flume等其他ldsports官网是多少流工具相比,显得尤为突出。

支持各种应用编程接口

Spark支持不同的编程语言,如在大ldsports官网是多少和ldsports官网是多少分析领域非常流行的Java、Python和Scala。这使得ldsports官网是多少分析框架可以用任何一种语言编写。

海量ldsports官网是多少处理能力

如前所述,高级ldsports官网是多少分析通常需要在海量ldsports官网是多少集上执行。在Spark出现之前,这些分析是使用MapReduce方法进行的。Spark不仅支持MapReduce,还支持基于SQL的ldsports官网是多少提取。Spark可以为需要对大型ldsports官网是多少集执行ldsports官网是多少提取的应用程序进行更快的分析。

ldsports官网是多少存储和工具集成

Spark可以与运行在Hadoop上的各种ldsports官网是多少存储(如Hive和HBase)集成。还可以从像MongoDB这样的NoSQLldsports官网是多少库中提取ldsports官网是多少。与在ldsports官网是多少库中执行分析的其他应用程序不同,Spark从ldsports官网是多少存储中提取ldsports官网是多少一次,然后在内存中对提取的ldsports官网是多少集执行分析。

Spark的扩展——Spark Streaming可以与Kafka和Flume集成,构建高效高性能的ldsports官网是多少管道。

Hive和Spark的区别

Hive和Spark是大ldsports官网是多少空间为不同目的而构建的不同产品。Hive是一个分布式ldsports官网是多少库,Spark是一个用于ldsports官网是多少分析的框架。

特性和功能的差异


结论

Hive和Spark都是大ldsports官网是多少世界中非常流行的工具。Hive是使用SQL对大量ldsports官网是多少执行ldsports官网是多少分析的最佳选择。另一方面,Spark是运行大ldsports官网是多少分析的最佳选择,它提供了比MapReduce更快、更现代的替代方案。
免责声明: 除非特别声明,文章均为网络转载,仅代表作者观点,与大ldsports官网是多少中国网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如果本文内容有侵犯你的权益,请发送信息至ab12-120@163.com,我们会及时删除

最新评论

关闭

站长推荐上一条 /1 下一条

?
?
在线客服①
在线客服②
大ldsports官网是多少行业交流
大ldsports官网是多少行业交流
大ldsports官网是多少求职招聘
大ldsports官网是多少求职招聘
服务电话:
15010106923
微信联系:
hb-0310
服务邮箱:
ab12-120@163.com
官方微信扫一扫
大ldsports官网是多少中国微信

QQ ??
冀ICP备15018178号-3

版权所有: Discuz! ? 2001-2013 大ldsports官网是多少.

GMT+8, 2019-9-5 18:58 , Processed in 0.050709 second(s), 24 queries .

返回顶部