Hadoop | 四维致一

Hadoop HAR文件的读取操作

2019年10月28日作者：白42

暂无评论

概述 Hadoop Archive是Hadoop官方提供的解决HDFS上小文件过多的一种方案。可以通过如下命令来执行生成har文件：执行archive命令会提交一个MapReduce任务来生成har文件。在了解har文件结构后也可以考虑本

[阅读更多...]

通过HA访问Hdfs获取ActiveNode

2016年12月16日作者：白42

暂无评论

通过HA访问Hdfs的时候如何获取到活跃节点是一个稍稍有些麻烦的事情。目前使用过两种方案：一是通过webhdfs接口逐一访问测试，找到状态为可用的节点；一是在zookeeper上直接获取当前活跃的节点。简单说下第二种方案。ha的Acti

[阅读更多...]

Yarn架构设计

2015年11月12日作者：白42

暂无评论

yarn一个基本理念就是将JobTracker的两大主要功能——资源管理和作业调度/监控——分割开来成为两个独立的守护进程。在这个方案里，有一个全局的ResourceManager (RM)和对应每个应用的ApplicationMaster

[阅读更多...]

Yarn命令

2015年10月10日作者：白42

暂无评论

概述 yarn命令是调用的bin/yarn脚本。执行yarn命令时如果不带上参数信息则会打印yarn命令的帮助信息。 yarn命令的用法： yarn有一个命令参数解析框架，可以用来解析通用命令参数以及运行类。命令参数及描述如下表： &#82

[阅读更多...]

关于MapReduce6 – 重构WordCount

2015年9月20日作者：白42

暂无评论

这里是一个更完整的WordCount实例。在这个实例中使用了很多前面提到的MapReduce框架的特性。这个实例需要HDFS支持运行，尤其是关于DistributedCache的一些特性。因此，这个实例只能运行于伪分布式或者完全分布式安装

[阅读更多...]

关于MapReduce5 – 一些有用的特性

2015年9月16日作者：白42

暂无评论

提交作业到队列用户将作业提交到队列。队列是作业的集合，允许系统添加特定的功能，比如，队列通过ACL决定哪些用户可以提交作业。通常主要由Hadoop调度器使用队列。 Hadoop的配置信息使用了一个单独的托管队列，被称为“default”。

[阅读更多...]

关于MapReduce4 – 作业的输入输出

2015年9月8日作者：白42

暂无评论

作业的输入 InputFormat InputFormat描述了MapReduce作业的输入规范。 MapReduce框架根据MapReduce作业的InputFormat来做这些事情：校验作业的输入配置；把输入文件切分成多个逻辑上的I

[阅读更多...]

关于MapReduce3 – 作业的配置和执行

2015年9月6日作者：白42

暂无评论

配置一个Job就表示了一个MapReduce的作业配置。 Job是用户向Hadoop框架描述一个MapReduce作业如何执行的最主要的接口。框架会尽力按Job的描述去忠实地执行一个作业，但是：一些配置参数可能会被管理员标记为final

[阅读更多...]

关于MapReduce2 – Job主体

2015年9月4日作者：白42

暂无评论

这一部分内容会适当深入说明用户即将面对的MapReduce框架的各个环节。这有助于用户从一个更细的粒度地去实现、配置、调优作业。我们先看看Mapper和Reducer接口。通常应用程序实现这两个接口需要提供map和reduce方法。然后

[阅读更多...]

关于MapReduce1 – QuickStart

2015年9月2日作者：白42

暂无评论

概述 Hadoop Mapreduce是一个简单易用的框架。基于MapReduce写出来的程序能够运行在由上千台商用机器组成的大型集群上，以一种可靠的容错的方式并行处理T级别的海量数据。一个MapReduce作业通常会把输入的数据集拆分成

[阅读更多...]

Hadoop HAR文件的读取操作

通过HA访问Hdfs获取ActiveNode

Yarn架构设计

Yarn命令

关于MapReduce6 – 重构WordCount

关于MapReduce5 – 一些有用的特性

关于MapReduce4 – 作业的输入输出

关于MapReduce3 – 作业的配置和执行

关于MapReduce2 – Job主体

关于MapReduce1 – QuickStart

我的专题

友情链接

其他操作

我的专题

友情链接

其他操作

标签云