会员登录|免费注册|忘记密码|管理入口 返回主站||保存桌面|手机浏览|联系方式|购物车
VIP   VIP会员第2年

新书科技  
加关注0

染料与颜料 无机化工 催化剂及助剂 食品和饲料添加剂 石油化工 化学矿 化学试剂 信息化学品

搜索
新闻中心
  • 暂无新闻
商品分类
  • 暂无分类
联系方式


请先 登录注册 后查看


站内搜索
 
荣誉资质
  • 暂未上传
友情链接
  • 暂无链接
首页 > 在线商城 > 精通Hadoop 3
在线商城

精通Hadoop 3

价格 149.00对比
发货 广东东莞市
销量 暂无
评价 已有 0 条评价
人气 已有 1 人关注
数量
+-
库存100
IP属地 广东详细信息

内容简介

本书详细阐述了与Hadoop 3相关的基本解决方案,主括Hadoop 3简介、Hadoop文件系统、YARN资源管理器、MapReduce内部机制、Hadoop中的SQL、实时处理引擎、定义Hadoop中的应用程序、Hadoop中的实时流处理、Hadoop中的机器学习、云端中的Hadoop、Hadoop集群分析、Hadoop中的角色及其执行内容、网络和数据、监测Hadoop等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。

目录

1Hadoop 3简介

1.1 Hadoop起源和时间轴

1.1.1 Hadoop的起源.

1.1.2时间轴

1.2Hadoop 3及其特

1.3Hadoop逻辑视图

1.4Hadoop发行版本

1.4.1 本地版本…

1.4.2云版本

1.5回顾

1.6本章小结

2深入理解Hadoop分布式文件系统……

2.1技术需求

2.2定义HDFS

2.3深入研究HDFS体系结构.

2.3.1 HDFS逻辑结构

2.3.2数据分组的概念

2.3.3HDFS通信体系结构

2.4NameNode 内部机制

2.5数据本地和机架感知

2.6DataNode 内部机制

2.7Quorum Journal Manager (QJM)

2.8Hadoop 3.x中的高可用

2.9数据管理

2.9.1元数据管理

2.9.2 使用二级NameNode 的检查点…

2.9.3数据集成

2.9.4HDFS快照

2.9.5数据平衡机制

2.9.6均衡器的佳应用方案

2.10 HDFS写入、读取操作

2.10.1写入工作流

2.10.2读取工作流

2.10.3短路读取

2.11管理Hadoop 3.x中的磁盘倾斜数据

2.12HDFS中的延迟持久化写入操作.

2.13 Hadoop 3.x中的纠删码

2.13.1纠删码的优点

2.13.2纠删码的缺点

2.14 HDFS公共接口.

2.14.1 HDFS读取操作

2.14.2 HDFS写入操作

2.14.3 HDFSFileSystemWrite.java 文件

2.14.4 HDFS删除操作

2.15 HDFS命令参考

2.15.1文件系统命令

2.15.2分布式

2.15.3管理命令

2.16回顾

2.17本章小结

3YARN资源管理器

3.1 YARN体系结构

3.1.1资源管理器组件

3.1.2节点管理器核心

3.2YARN作业调度机制简介

3.3FIFO调度器

3.4计算能力调度器

3.5公平调度器

3.5.1调度队列

3.5.2配置公平调度器

3.6资源管理器的高可用

3.6.1资源管理器高可用的体系结构

3.6.2配置资源管理器高可用

3.7节点标记

3.8 Hadoop3.x中的YARN时间轴服务器

3.9 Hadoop 3.x中的机会型容器

3.10 YARN中的Docker容器

3.10.1 配置Docker容器

3.10.2 运行Docker镜像

3.10.3运行容器

3.11 YARN REST API

3.11.1资源管理API

3.11.2节点管理器REST API

3.12 YARN命令参考

3.12.1用户命令

3.12.2应用程序命令

3.12.3日志命令

3.12.4管理员命令

3.13本章小结

4MapReduce 内部机制

4.1技术需求

4.2深入了解Hadoop MapReduce框架

4.3YARN MapReduce

4.4Hadoop框架中的MapReduce 工作流

4.5常见的MapReduce模式

4.5.1求和模式

4.5.2过滤模式

4.5.3连接模式

4.5.4复合连接

4.6 MapReduce用例

4.6.1 MovieRatingMapper

4.6.2 MovieRatingReducer

……

13.3.1 Kerberos的优点

13.3.2 Kerberos 验证流

13.4用户权限

13.4.1 Ranger

13.4.2 Sentry.

13.5Hadoop3.0中的特征列表

13.6本章小结

14章网络和数据

14.1Hadoop网络

14.1.1隔离不同类型的网络

14.1.2网络防火墙

14.1.3Hadoop服务的网络边界工具

14.2加密技术

14.2.1传输数据加密

14.2.2静态数据加密

14.3数据屏蔽机制

14.4过滤机制

14.4.1行级别过滤机制

14.4.2列级别过滤机制

14.5本章小结

15章监测Hadoop

15.1通用监测机制

15.1.1 HDFS指标

15.1.2 YARN指标

15.1.3 ZooKeeper 指标

15.1.4 Apache Ambari.

15.2监测机制

15.2.1信息和事件管理

15.2.2SIEM的工作方式

15.2.3入侵检测系统

15.2.4入侵系统

15.3本章小结

摘要与插图

1Hadoop 3简介

Hadoop经历了漫长的发展道路,在开源社区的支持下,Hadoop发布了3个主要的版本。在个版本发布6年之后,Hadoop正式发布了1.0版本。在该版本中,Hadoop平台拥有在Hadoop分布式文件系统(HDFS)的分布式存储上运行MapReduce分布式计算的。除此之外,该版本还对大多数能问题进行了改讲,并对机制提供了的支持。Hadoop1.0版本在Hbase方面也进行了大量的改进。

Hado0p1.0相比,Hadoop2.0版本实现了较大改进,并引入了YARN。这是一个的通用资源管理器和作业调度组件。HDFS高可用、HDFS联邦和HDFS快照则是Hadoop 2.0版本中其他较为突出的特。

Hadoop3Hadoop的本,该版本中涵盖了某些新的特,如HDFS可擦除的编码机制、新的YARN时间轴服务(采用新的架构)、YARN机会型容器和分布式调度机制、支持3NameNode,以及数据节点内的负载平衡器。除上述主要特征外,Hadoop3还改善了能问题,并对之前的bug进行了修复。本书将围绕Hadoop3这一版本展开讨论。

本章将考查Hadoop的历史及其发展过程中的时间轴。随后,我们将讨论Hadoop3的特、Hadoop生态圈的逻辑视图和不同的Hadoop分布。

本章主要涉及以下主题。

Hadoop起源。

Hadoop时间轴。

Hadoop 3及其特。

Hadoop逻辑视图。

Hadoop发行版本。

1.1Hadoop起源和时间轴

Hadoop改变了人们对数据的思考方式。对此,我们需要了解这一创新行为的源头、及其动机、Hadoop之前存在的问题、本是如何解决这些问题的、开发过程中所面临的挑战,以及Hadoop1Hadoop3之间的转换方式。首先讨论Hadoop的起源及Hadoop3之旅。

1.1.1 Hadoop的起源

1997,Hadoop的联合创始人Doug Cutting启动了项目Lucene,这是一个全文本的搜索库。该搜索库采用Java编写并被可视为一个全文本的搜索引擎。其间,搜索库分析文本并在其上建立索引。这里,索引仅表示为文本与位置间的映射,因而可快速生成与特定搜索模式匹配的位置。几年以后,Doug CuttingLucene项目开源,并获得了社区的强烈反响。随后,Lucene成为Apache的基础项目。

Doug Cutting意识到已经有足够多的人手负责Lucene项目时,他便开始专注于Web页面索引机制。随后,Mike Cafarella 也加入这一项目中,并从事Web页面索引研发工作,同时将该项目命名为Apache NutchApache Nutch 同时也是Apache Lucene 的子项目,也是说,Apache Nutch使用了Apache Lucene库索引Web页面内容。在历经了艰苦的开发过程后,项目的整体流程取得了较好的进展,并在单机上部署了Nutch,同时可每秒索引大约100个页面。

当开发应用程序的初始版本时,伸缩往往是人们忽略的问题。DougMike也面临着相同的问题,具体来说,可索引的Web页面数量被限制在1亿这一数字上。为了索

引更多的页面,DougMike增加了机器的数量。然而,由于尚未设置底层集群管理器

执行操作任务,因此增加的节点往往会出现操作问题。对此,DougMike更加关注于

优化问题,进而开发出健壮的Nutch应用程序,同时不必担心可伸缩问题。

DougMike希望终的系含下列特。

容错。系统应能够以隔离的方式自动处理机器的失效问题。这意味着,机器失效不应对应用程序产生影响。

负载平衡。如果某台机器失效,其工作任务应以相对公平的方式自动被分派处于工作状态的机器上。

数据丢失。一旦数据被写入硬盘中,即使一台或两台机器失效,数据也不应丢失。

随后,DougMike着手研发满足上述需求的系统,这一过程持续了数个月。同时,Google 也发布了其Google File 系统,并提供了类似的解决方案。Doug Mike 决定根据所发表的研究论文开发Nutch分布式文件系统(NDFS),并于2004年实现了该系统。

Google文件系统的帮助下,二人解决了之前讨论的可伸缩和容错问题。对此,他们采用了块和等概念。其中,块的创建方式可描述为将每个文件划分为64MB大小的块(块尺可配置),并在默认状态下将每个块3次。如果某台机器无法有效地持有某个块,那么数据仍可通过另一台机器进行操作。这种实现方式帮助他们解决了Apache Nutch 中的操作问题。接下来将讨论MapReduce 的起源。

;