[HDFS] DataNode 日志中出现 Input/output error

#HADOOP #HDFS

场景是这样的，有些用户因为某些原因将几个目录的副本从３降为１(一般情况下是不建议这么做的)，后来出现丢块后，在把副本升为２了，后来还是出现文件无法读取这种情况：

****/user/username/fileName-000xx.lzo                                                    
0. BP-1422437282658:blk_1344672165_270983563 len=134217728 repl=2 [host1:50010, host3:50010]
1. BP-1422437282658:blk_1344672816_270984214 len=134217728 repl=1 [host11:50010]
2. BP-1422437282658:blk_1344672898_270984296 len=134217728 repl=2 [host19:50010, host16:50010]

对于NameNode来说，他是感知这个块是正常的，从datanode的日志看出，该datanode一直进行块复制操作，但每次想把这个块复制出去时，却出现了以下异常:

java.io.IOException: Input/output error
at sun.nio.ch.FileChannelImpl.transferTo0(Native Method)
at sun.nio.ch.FileChannelImpl.transferToDirectly(FileChannelImpl.java:433)
at sun.nio.ch.FileChannelImpl.transferTo(FileChannelImpl.java:565)
at org.apache.hadoop.net.SocketOutputStream.transferToFully(SocketOutputStream.java:223)

然后我们通过locate这个块所在的目录，进行了scp操作，还是出现了Input/output error，意味着这个块是无法完整读取的，所以我们进行了fsck了那个磁盘进行修复，因为磁盘问题导致无法读取，所以对这个并无太大影响，毕竟副本为１是风险很大的，所以那个文件是恢复不了了。

另外一个场景是集群有些datanode因为报 block pool BP-1337805335-XXX-1422437282658 is not found ，造成在联邦模式下有些NS显示为live节点，有些NS为dead节点，但是block pool在那个data盘是存在的

2016-01-15 21:30:48,225 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: IOException in offerService
java.io.IOException: block pool BP-1337805335-XXX-1422437282658 is not found
at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsVolumeImpl.getBlockPoolSlice(FsVolumeImpl.java:122)
at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsVolumeImpl.getBlockPoolUsed(FsVolumeImpl.java:92)
at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsVolumeList.getBlockPoolUsed(FsVolumeList.java:74)

这些节点的数据量比较大，因为死了比较久，而且副本为３的情况下，把一个DataNode停止是不会影响集群的，后来进行了fsck的操作，发现一个盘有问题，并修复了，后来启动datanode，节点也再也没有死了,fsck这个命令请在专业的人指导下面操作把，毕竟数据安全为最重要。