데이터노드 추가

추가할 노드 아래 파일에 추가하고 hdfs dfsadmin -refreshNodes 하면 재시작 안 하고 추가 된다네,

<property>
    <name>dfs.hosts</name>
    <value>/home/hadoop/hadoop/conf/include_server</value>
</property>

데이터노드 삭제

hdfs dfsadmin -refreshNodes
- 바로 디컴되는건 아니고 replication factor 만족할 때까지 decommissioning 상태
- replication factor 만큼 복제 완료되면 해당 데이터노드는 dead로 인식됨

데이터노드를 추가한 후, 새로운 데이터노드에 저장된 데이터 용량은 매우 적고 나머지 데이터노드는 상대적으로 많다.
불균형이 발생하면 특정 데이터노드에 블럭이 모여있는 꼴이다.
- 그러면 특정 데이터노드의 부하가 커진다.
- 또한 hdfs 사용량이 많아져 hdfs 용량 임계치(dfs.datanode.du.reserved)에 다다르면, 네임노드가 safemode에 진입하게 된다. (hdfs 쓰기작업 불가해짐)
그러니 용량 balance를 맞춰주기 위해 balancer를 실행한다.

참고) 데이터노드 장애시 데이터 손실 확률

Hadoop 데이터노드 장애와 데이터 손실

하둡을 공부하고 운영해보신 분이라면 데이터를 기본 3개의 64MB 복제본으로 나누어 분산 저장한다는 것을 잘 알고계실 겁니다. 이로인해 호스트나 디스크 장애가 발생할때도 하둡은 나머지 2

devopben.tistory.com

[HDFS] Rack Awareness 란 (911)	2020.07.15
[HDFS] 네임노드 SafeMode 켜지는 경우 (4)	2020.07.14
[YARN] 필수개념 (4)	2019.10.30
HDFS 주요 개념 - 네임노드, 데이터노드 (2)	2019.10.28
[HDFS] 네임노드 개념과 HA(High Availability, 고가용성) 구성 (2)	2019.10.15