• Yarn架构设计

    yarn一个基本理念就是将JobTracker的两大主要功能——资源管理和作业调度/监控——分割开来成为两个独立的守护进程。在这个方案里,有一个全局的ResourceManager (RM)和对应每个

    [阅读更多...]
  • Yarn命令

    概述 yarn命令是调用的bin/yarn脚本。执行yarn命令时如果不带上参数信息则会打印yarn命令的帮助信息。 yarn命令的用法: yarn有一个命令参数解析框架,可以用来解析通用命令参数以及

    [阅读更多...]
  • 关于MapReduce6 – 重构WordCount

    这里是一个更完整的WordCount实例。在这个实例中使用了很多前面提到的MapReduce框架的特性。 这个实例需要HDFS支持运行,尤其是关于DistributedCache的一些特性。因此,这个

    [阅读更多...]
  • 关于MapReduce5 – 一些有用的特性

    提交作业到队列 用户将作业提交到队列。队列是作业的集合,允许系统添加特定的功能,比如,队列通过ACL决定哪些用户可以提交作业。通常主要由Hadoop调度器使用队列。 Hadoop的配置信息使用了一个单

    [阅读更多...]
  • 关于MapReduce4 – 作业的输入输出

    作业的输入 InputFormat InputFormat描述了MapReduce作业的输入规范。 MapReduce框架根据MapReduce作业的InputFormat来做这些事情: 校验作业的输

    [阅读更多...]
  • 关于MapReduce3 – 作业的配置和执行

    配置 一个Job就表示了一个MapReduce的作业配置。 Job是用户向Hadoop框架描述一个MapReduce作业如何执行的最主要的接口。框架会尽力按Job的描述去忠实地执行一个作业,但是: 一

    [阅读更多...]
  • 关于MapReduce2 – Job主体

    这一部分内容会适当深入说明用户即将面对的MapReduce框架的各个环节。这有助于用户从一个更细的粒度地去实现、配置、调优作业。 我们先看看Mapper和Reducer接口。通常应用程序实现这两个接口

    [阅读更多...]
  • kafka简介

    简介 kafka是一个分布式的、可分区的、可复制的日志提交服务。它提供了消息传递的功能,但是有着独特的设计。 首先,先了解一些基础概念: Kafka将消息源的分类称为topic; 向Kafka的top

    [阅读更多...]
  • 关于MapReduce1 – QuickStart

    概述 Hadoop Mapreduce是一个简单易用的框架。基于MapReduce写出来的程序能够运行在由上千台商用机器组成的大型集群上,以一种可靠的容错的方式并行处理T级别的海量数据。 一个MapR

    [阅读更多...]
  • 使用PyMySQL

    适用环境 python版本 >=2.6或3.3,mysql版本>=4.1。 安装 可以使用pip安装也可以手动下载安装。 使用pip安装,在命令行执行如下命令: 如需要手动安装,请先下载,

    [阅读更多...]
第 10 页,共 11 页« 最新...7891011