Apache Hadoop 和Hadoop生态圈-白红宇

Apache Hadoop 和Hadoop生态圈

阅读量：4678 次

发布时间：2019-06-09

本文共 1168 字，大约阅读时间需要 3 分钟。

Apache Hadoop 和Hadoop生态圈

是一个由Apache基金会所开发的基础架构。

用户能够在不了解分布式底层细节的情况下。开发分布式程序。充分利用集群的威力进行快速运算和存储。

Hadoop实现了一个（Hadoop Distributed File System），简称HDFS。

HDFS有高的特点，并且设计用来部署在低廉的（low-cost）硬件上。并且它提供高吞吐量（high throughput）来訪问的数据，适合那些有着超大数据集（large data set）的应用程序。

HDFS放宽了（relax）POSIX的要求。能够以流的形式訪问（streaming access）文件系统中的数据。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。

HDFS为海量的数据提供了存储。则MapReduce为海量的数据提供了计算。

虽然Hadoop因MapReduce及其分布式文件系统HDFS而出名，但Hadoop这个名字也用于一组相关项目的统称，这些相关项目都使用这个基础平台进行分布式计算和海量数据处理。

Hadoop Common：

一组分布式文件系统和通用I/O的组件与接口（序列化，Java RPC 和持久化数据结构）

: Hadoop(Distributed File System) － HDFS (Hadoop Distributed File System)。执行于大型商用机集群

：

分布式数据处理模型和执行环境，执行于大型商用机集群

一个分布式、按列存储数据库。HBase使用HDFS作为底层存储，同一时候支持MapReduce的批量式计算和点查询（随机读取）。

：数据仓库工具。由Facebook贡献。一种分布式、按列存储的数据仓库。

Hive管理HDFS中存储的数据。并提供基于SQL的查询语言（有执行时引擎翻译成MapReduce作业）用以查询数据。

：分布式锁设施，提供类似Google Chubby的功能，由Facebook贡献。

一种分布式、可用性高的协调服务。提供分布式锁之类的基本服务用于构建分布式应用。

：一种支持高效、跨语言的RPC以及永久存储数据的序列化系统。新的数据序列化格式与传输工具，将逐步代替Hadoop原有的IPC机制。

Pig:

大数据分析平台。为用户提供多种接口。

一种数据流语言和执行环境，用以检索很大的数据集。Pig执行在MapReduce和HDFS的集群上。

Ambari：

Hadoop管理工具。能够快捷的监控、部署、管理集群。

Sqoop：

在数据库和HDFS之间高效数据传输的工具。

參考文献：

《Hadoop权威指南》

转载于:https://www.cnblogs.com/wzzkaifa/p/6900180.html

你可能感兴趣的文章