本文仅仅是个人读书笔记,不一定具参考价值
对于高可用性的Hadoop集群而言,应该尽量提高集群的可服务时间。
但是由于某些不可避免的原因,集群有时候需要进行重启,因此重启的时间成为关键问题。
而其中namenode的重启则是最为耗时的一个环节,namenode需要处理所有datanode的block report,
一旦节点数目变多,这个处理的过程会变得很慢。所以可以在这个部分加以改进。
近日在jira上看到一个issue
https://issues.apache.org/jira/browse/HDFS-1295
这个issue正是用于提高namenode的重启速度的。
安装原文的说法,加上这个patch之后,处理block report的效率提升300%
基本原理:
在原来的namenode的接受heart beat中处理block report时,会对report的block与在namenode中的block map进行一次'diff'的操作,但实际上当namenode重启时,每个report的block必然是不存在与block map中的,因此可以加上一次node.numBlocks()==0的判断,将启动后收到的第一次block report直接加入block map中;
而在addStoredBlock中,又加入计算liveNode的轻量化的方法,进一步提高启动的速度。
后记:这是一个不触动框架的方法,原理也较为简单,值得一试。
分享到:
相关推荐
在12月1日“Hadoop生态系统”主题分论坛,华为电信与核心网产品线BigData团队的架构师Uma Maheshwara Rao G,负责HDFS项目整体技术开发。对电信领域有深刻理解,从2010年起从事HDFS开发,是HDFS的核心设计人员。他的...
NULL 博文链接:https://bnmnba.iteye.com/blog/2322332
最新的hdfs namenode主备安装文档,详细,命令只需要copy执行即可
(6)移动hdfs文件:hdfs dfs -mv /hdfs路径 /hdfs路径 (7)复制hdfs文件:hdfs dfs -cp /hdfs路径 /hdfs路径 (8)删除hdfs文件:hdfs dfs -rm /文件名 (9)删除hdfs文件夹:hdfs dfs -rm -r /文件夹名
Hadoop学习总结之一:HDFS简介
第3讲:HDFS海量存储
Hadoop学习总结之二:HDFS读写过程解析
04:HDFS分布式文件系统
大数据开发:HDFS数据节点与名称节点的通信机制.docx
Hortonworks Data Platform: HDFS Administration Guide
首先是NameNode,它是HDFS主从架构当中的主节点,其实主要负责接受客户端提交过来的读写请求、以及一些类似管理的工作,比如说,数据存到HDFS当中每个文件都会对应一份元数据信息,这些元数据信息都是存放在NameNode...
阐述了如何利用利用javaAPI访问HDFS的文件
大数据笔记,hdfs 包含:hdfs的安装和一些介绍 大数据笔记,hdfs 包含:hdfs的安装和一些介绍
HDFS运行原理 HDFS存储机制 1 Block 2 元数据 3 HDFS读流程 4 HDFS写流程 5 目 录 一、HDFS存储机制 假如目前由一个10G的文件要存储到HDFS中。首先,会在客户端处进行切分,切分成一个个Block块,默认情况下Block块...
HDFS的重要概念 什么是HDFS 1 HDFS优势 2 HDFS劣势 3 目 录 一、什么是HDFS HDFS是Hadoop非常核心的子项目之一,全程为Hadoop File System。 HDFS是由Doug Cutting基于Google公司2003年10月开源的论文GFS做的开源...
• HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 • 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。 • 不同于普通文件系统的是,HDFS中,如果一个文件...
这是hdfs的基础知识,适合初学者了解hdfs是怎么分布式存储数据和怎么写入、读出的等等
node1 : HDFS NameNode + Spark Master node2 : YARN ResourceManager + JobHistoryServer + ProxyServer node3 : HDFS DataNode + YARN NodeManager + Spark Slave node4 : HDFS DataNode + YARN NodeManager +...
华为大数据认证,HDFS部分