VIP会员第2年

新书科技
加关注0

染料与颜料无机化工催化剂及助剂食品和饲料添加剂石油化工化学矿化学试剂信息化学品

新闻中心

暂无新闻

商品分类

暂无分类

联系方式

请先登录或注册后查看

站内搜索

荣誉资质

暂未上传

友情链接

暂无链接

首页 > 在线商城 > 精通Hadoop 3

在线商城

精通Hadoop 3

价格	￥149.00对比
发货	广东东莞市
销量	暂无
评价	已有 0 条评价
人气	已有 1 人关注
数量	+- 库存100本

IP属地广东详细信息

内容简介

本书详细阐述了与Hadoop 3相关的基本解决方案，主括Hadoop 3简介、Hadoop文件系统、YARN资源管理器、MapReduce内部机制、Hadoop中的SQL、实时处理引擎、定义Hadoop中的应用程序、Hadoop中的实时流处理、Hadoop中的机器学习、云端中的Hadoop、Hadoop集群分析、Hadoop中的角色及其执行内容、网络和数据、监测Hadoop等内容。此外，本书还提供了相应的示例、代码，以帮助读者进一步理解相关方案的实现过程。

摘要与插图

第1章 Hadoop 3简介

Hadoop经历了漫长的发展道路，在开源社区的支持下，Hadoop发布了3个主要的版本。在个版本发布6年之后，Hadoop正式发布了1.0版本。在该版本中，Hadoop平台拥有在Hadoop分布式文件系统（HDFS）的分布式存储上运行MapReduce分布式计算的。除此之外，该版本还对大多数能问题进行了改讲，并对机制提供了的支持。Hadoop1.0版本在Hbase方面也进行了大量的改进。

与Hado0p1.0相比，Hadoop2.0版本实现了较大改进，并引入了YARN。这是一个的通用资源管理器和作业调度组件。HDFS高可用、HDFS联邦和HDFS快照则是Hadoop 2.0版本中其他较为突出的特。

Hadoop3是Hadoop的本，该版本中涵盖了某些新的特，如HDFS可擦除的编码机制、新的YARN时间轴服务（采用新的架构）、YARN机会型容器和分布式调度机制、支持3个NameNode,以及数据节点内的负载平衡器。除上述主要特征外，Hadoop3还改善了能问题，并对之前的bug进行了修复。本书将围绕Hadoop3这一版本展开讨论。

本章将考查Hadoop的历史及其发展过程中的时间轴。随后，我们将讨论Hadoop3的特、Hadoop生态圈的逻辑视图和不同的Hadoop分布。

本章主要涉及以下主题。

Hadoop起源。

Hadoop时间轴。

Hadoop 3及其特。

Hadoop逻辑视图。

Hadoop发行版本。

1.1Hadoop起源和时间轴

Hadoop改变了人们对数据的思考方式。对此，我们需要了解这一创新行为的源头、及其动机、Hadoop之前存在的问题、本是如何解决这些问题的、开发过程中所面临的挑战，以及Hadoop1与Hadoop3之间的转换方式。首先讨论Hadoop的起源及Hadoop3之旅。

1.1.1 Hadoop的起源

1997年,Hadoop的联合创始人Doug Cutting启动了项目Lucene,这是一个全文本的搜索库。该搜索库采用Java编写并被可视为一个全文本的搜索引擎。其间，搜索库分析文本并在其上建立索引。这里，索引仅表示为文本与位置间的映射，因而可快速生成与特定搜索模式匹配的位置。几年以后，Doug Cutting将Lucene项目开源，并获得了社区的强烈反响。随后，Lucene成为Apache的基础项目。

当Doug Cutting意识到已经有足够多的人手负责Lucene项目时，他便开始专注于Web页面索引机制。随后，Mike Cafarella 也加入这一项目中，并从事Web页面索引研发工作，同时将该项目命名为Apache Nutch。Apache Nutch 同时也是Apache Lucene 的子项目，也是说，Apache Nutch使用了Apache Lucene库索引Web页面内容。在历经了艰苦的开发过程后，项目的整体流程取得了较好的进展，并在单机上部署了Nutch，同时可每秒索引大约100个页面。

当开发应用程序的初始版本时，伸缩往往是人们忽略的问题。Doug和Mike也面临着相同的问题，具体来说，可索引的Web页面数量被限制在1亿这一数字上。为了索

引更多的页面，Doug和Mike增加了机器的数量。然而，由于尚未设置底层集群管理器

执行操作任务，因此增加的节点往往会出现操作问题。对此，Doug和Mike更加关注于

优化问题，进而开发出健壮的Nutch应用程序，同时不必担心可伸缩问题。

Doug和Mike希望终的系含下列特。

容错。系统应能够以隔离的方式自动处理机器的失效问题。这意味着，机器失效不应对应用程序产生影响。

负载平衡。如果某台机器失效，其工作任务应以相对公平的方式自动被分派处于工作状态的机器上。

数据丢失。一旦数据被写入硬盘中，即使一台或两台机器失效，数据也不应丢失。

随后，Doug和Mike着手研发满足上述需求的系统，这一过程持续了数个月。同时，Google 也发布了其Google File 系统，并提供了类似的解决方案。Doug 和 Mike 决定根据所发表的研究论文开发Nutch分布式文件系统（NDFS），并于2004年实现了该系统。

在Google文件系统的帮助下，二人解决了之前讨论的可伸缩和容错问题。对此，他们采用了块和等概念。其中，块的创建方式可描述为将每个文件划分为64MB大小的块（块尺可配置），并在默认状态下将每个块3次。如果某台机器无法有效地持有某个块，那么数据仍可通过另一台机器进行操作。这种实现方式帮助他们解决了Apache Nutch 中的操作问题。接下来将讨论MapReduce 的起源。

;

新书科技 加关注0

染料与颜料 无机化工 催化剂及助剂 食品和饲料添加剂 石油化工 化学矿 化学试剂 信息化学品

精通Hadoop 3

内容简介

目录

摘要与插图

新书科技
加关注0

染料与颜料无机化工催化剂及助剂食品和饲料添加剂石油化工化学矿化学试剂信息化学品