博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Apache Hadoop 和Hadoop生态圈
阅读量:4678 次
发布时间:2019-06-09

本文共 1168 字,大约阅读时间需要 3 分钟。

Apache Hadoop Hadoop生态圈

是一个由Apache基金会所开发的基础架构。

用户能够在不了解分布式底层细节的情况下。开发分布式程序。充分利用集群的威力进行快速运算和存储。

Hadoop实现了一个Hadoop Distributed File System),简称HDFS

HDFS有高的特点,并且设计用来部署在低廉的(low-cost)硬件上。并且它提供高吞吐量(high throughput)来訪问的数据,适合那些有着超大数据集(large data set)的应用程序。

HDFS放宽了(relaxPOSIX的要求。能够以流的形式訪问(streaming access)文件系统中的数据。

Hadoop的框架最核心的设计就是:HDFSMapReduce

HDFS为海量的数据提供了存储。则MapReduce为海量的数据提供了计算。

 

虽然HadoopMapReduce及其分布式文件系统HDFS而出名,但Hadoop这个名字也用于一组相关项目的统称,这些相关项目都使用这个基础平台进行分布式计算和海量数据处理。

Hadoop Common:

一组分布式文件系统和通用I/O的组件与接口(序列化,Java RPC 和持久化数据结构)

 

: Hadoop(Distributed File System) - HDFS (Hadoop Distributed File System)。执行于大型商用机集群

分布式数据处理模型和执行环境,执行于大型商用机集群

一个分布式、按列存储数据库。HBase使用HDFS作为底层存储,同一时候支持MapReduce的批量式计算和点查询(随机读取)。

:数据仓库工具。由Facebook贡献。一种分布式、按列存储的数据仓库。

Hive管理HDFS中存储的数据。并提供基于SQL的查询语言(有执行时引擎翻译成MapReduce作业)用以查询数据。

:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。

一种分布式、可用性高的协调服务。提供分布式锁之类的基本服务用于构建分布式应用。

:一种支持高效、跨语言的RPC以及永久存储数据的序列化系统。新的数据序列化格式与传输工具,将逐步代替Hadoop原有的IPC机制。

Pig: 

大数据分析平台。为用户提供多种接口。

一种数据流语言和执行环境,用以检索很大的数据集。Pig执行在MapReduceHDFS的集群上。

Ambari

Hadoop管理工具。能够快捷的监控、部署、管理集群。

Sqoop

在数据库和HDFS之间高效数据传输的工具。

 

 

參考文献:

 

 

Hadoop权威指南》

转载于:https://www.cnblogs.com/wzzkaifa/p/6900180.html

你可能感兴趣的文章
31、任务三十一——表单联动
查看>>
[ios] IOS文件操作的两种方式:NSFileManager操作和流操作【转】
查看>>
Jenkins之Linux和window配置区别
查看>>
python之hasattr、getattr和setattr函数
查看>>
maven使用阿里镜像配置文件
查看>>
Java之字符流操作-复制文件
查看>>
iOS开发UI篇—实现一个私人通讯录小应用(二)
查看>>
iOS开发UI篇—UITableview控件使用小结
查看>>
lesson1 预备知识
查看>>
Copy code from eclipse to word, save syntax.
查看>>
arguments.callee的作用及替换方案
查看>>
23 Java学习之RandomAccessFile
查看>>
SSH远程会话管理工具 - screen使用教程
查看>>
hibernate validation HV000030: No validator could be found for constraint
查看>>
Telink MESH SDK 如何使用PWM
查看>>
LR SP PC
查看>>
C# 图片识别(支持21种语言)【转】
查看>>
C# 循环语句 for
查看>>
jQuery基础教程
查看>>
python class(1)
查看>>