Hadoop(三)当datanode异常时集群所做的处理

以下内容从网上整理而来,并未经过本人测试。

宕机:

  1. namenode没有接收到来自宕机datanode(dn1)的RPC心跳包
  2. namenode指示一台没有 宕机主机的数据的机器 (dn3)向 存有宕机主机的数据的机器(dn2) 进行数据复制,维持数据block数量
  3. 当宕机主机(dn1)恢复后;dn3主机中dn1的部分除非block数量超出集群上限制或者手动执行start-balance.sh,否则不会被自动删除

下线:

  1. hdfs文件集群快速拷贝下线主机datanode的数据
  2. 每块datanode的更新数据发送给namenode,严重增加集群负载
  3. 下线期间会有很多延迟告警,属于正常情况