笔记：HDFS namenode 快速启动 - Chamber of Fire - ITeye博客

`

Fire_Balrog

浏览: 19606 次
性别:
来自: 广州

最近访客更多访客>>

hqx

zyjustin9

lu2147

coolzhx

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (14)

社区版块

存档分类

最新评论

笔记：HDFS namenode 快速启动

读书 Hadoop 框架 Apache

阅读更多

本文仅仅是个人读书笔记，不一定具参考价值

对于高可用性的Hadoop集群而言，应该尽量提高集群的可服务时间。

但是由于某些不可避免的原因，集群有时候需要进行重启，因此重启的时间成为关键问题。

而其中namenode的重启则是最为耗时的一个环节，namenode需要处理所有datanode的block report，

一旦节点数目变多，这个处理的过程会变得很慢。所以可以在这个部分加以改进。

近日在jira上看到一个issue

https://issues.apache.org/jira/browse/HDFS-1295

这个issue正是用于提高namenode的重启速度的。

安装原文的说法，加上这个patch之后，处理block report的效率提升300%

基本原理：

在原来的namenode的接受heart beat中处理block report时，会对report的block与在namenode中的block map进行一次'diff'的操作，但实际上当namenode重启时，每个report的block必然是不存在与block map中的，因此可以加上一次node.numBlocks()==0的判断，将启动后收到的第一次block report直接加入block map中；

而在addStoredBlock中，又加入计算liveNode的轻量化的方法，进一步提高启动的速度。

后记：这是一个不触动框架的方法，原理也较为简单，值得一试。

分享到：

笔记：Hive交互的过程简述 | Linux的sort问题

2010-09-24 22:45
浏览 899
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Maheshwara Rao G：HDFS NameNode的高可用性研究: 在12月1日“Hadoop生态系统”主题分论坛，华为电信与核心网产品线BigData团队的架构师Uma Maheshwara Rao G，负责HDFS项目整体技术开发。对电信领域有深刻理解，从2010年起从事HDFS开发，是HDFS的核心设计人员。他的...

hbase 启动regionserver日志报错： Wrong FS: hdfs:// .regioninfo, expected: file:///: NULL 博文链接：https://bnmnba.iteye.com/blog/2322332

HDFS namenode主备安装: 最新的hdfs namenode主备安装文档，详细，命令只需要copy执行即可

Hadoop原理与技术hdfs命令行基本操作: （6）移动hdfs文件：hdfs dfs -mv /hdfs路径 /hdfs路径（7）复制hdfs文件：hdfs dfs -cp /hdfs路径 /hdfs路径（8）删除hdfs文件：hdfs dfs -rm /文件名（9）删除hdfs文件夹：hdfs dfs -rm -r /文件夹名

Hadoop学习总结之一：HDFS简介: Hadoop学习总结之一：HDFS简介

第3讲：HDFS海量存储: 第3讲：HDFS海量存储

Hadoop学习总结之二：HDFS读写过程解析: Hadoop学习总结之二：HDFS读写过程解析

04：HDFS分布式文件系统.zip: 04：HDFS分布式文件系统

大数据开发：HDFS数据节点与名称节点的通信机制.docx: 大数据开发：HDFS数据节点与名称节点的通信机制.docx

Hortonworks Data Platform: HDFS Administration Guide: Hortonworks Data Platform: HDFS Administration Guide

大数据平台构建：HDFS架构.pptx: 首先是NameNode，它是HDFS主从架构当中的主节点，其实主要负责接受客户端提交过来的读写请求、以及一些类似管理的工作，比如说，数据存到HDFS当中每个文件都会对应一份元数据信息，这些元数据信息都是存放在NameNode...

利用javaAPI访问HDFS的文件: 阐述了如何利用利用javaAPI访问HDFS的文件

hdfs笔记.txt: 大数据笔记，hdfs 包含：hdfs的安装和一些介绍大数据笔记，hdfs 包含：hdfs的安装和一些介绍

大数据平台构建：HDFS运行原理.pptx: HDFS运行原理 HDFS存储机制 1 Block 2 元数据 3 HDFS读流程 4 HDFS写流程 5 目录一、HDFS存储机制假如目前由一个10G的文件要存储到HDFS中。首先，会在客户端处进行切分，切分成一个个Block块，默认情况下Block块...

大数据平台构建：HDFS的重要概念.pptx: HDFS的重要概念什么是HDFS 1 HDFS优势 2 HDFS劣势 3 目录一、什么是HDFS HDFS是Hadoop非常核心的子项目之一，全程为Hadoop File System。 HDFS是由Doug Cutting基于Google公司2003年10月开源的论文GFS做的开源...

Hadoop学习总结之一：HDFS简介.doc: • HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 • 和普通文件系统相同的是，HDFS中的文件是被分成64M一块的数据块存储的。 • 不同于普通文件系统的是，HDFS中，如果一个文件...

hadoop日记2.1：hdfs设计思想和基础概念: 这是hdfs的基础知识，适合初学者了解hdfs是怎么分布式存储数据和怎么写入、读出的等等

vagrant-hadoop-spark:使用 Hadoop 和 Spark 启动集群虚拟机的 Vagrant 项目: node1 : HDFS NameNode + Spark Master node2 : YARN ResourceManager + JobHistoryServer + ProxyServer node3 : HDFS DataNode + YARN NodeManager + Spark Slave node4 : HDFS DataNode + YARN NodeManager +...

华为大数据认证：HDFS分布式文件系统.pptx: 华为大数据认证，HDFS部分

Global site tag (gtag.js) - Google Analytics