본문 바로가기
반응형

BigData 기술38

Apache Iceberg 기본 개념, 테이블 구조 요즘 세미나를 듣거나, 기술 블로그를 보면 Iceberg를 많이 사용하는 것 같다.지금 회사에서도 Iceberg를 도입해서 운영 단계로 넘어온 상태이다. 데이터레이크라고 해서 대규모, 다양한 유형의 데이터를 한 곳에 모아서 사용하게 되면서이에 적합한 테이블 포맷인 Iceberg를 더 많이 사용하게 되는 것 같다.  Apache Iceberg 란?.Iceberg는 넷플릭스에서 개발한 테이블 포맷이다.spark, impala, hive, trino 등 다양한 엔진에서 사용할 수 있다.Iceberg 테이블은 메타데이터를 파일 형태로 관리하기 때문에 좀 더 빠르고 효율적인 쿼리가 가능하다. impala 테이블을 iceberg 포맷으로 만든다고 해보자.sotred as iceberg 구문만 넣어주면 된다.crea.. 2025. 1. 24.
Apache Pinot (아파치 피노) 간단한 소개. 실시간 OLAP Apache Pinot 의 아키텍처와 기능들, 그리고 테스트하면서 알게된 것들을 정리해보려 한다. (얼마만에 쓰는 블로그인가) 우선 피노의 개념을 가볍게 훑어보고 가자. 큰 개념은 다른 분산시스템과 비슷하다. (쪼개서 저장하고, 여러대가 데이터를 처리함) 공식문서 짱! https://pinot.apache.org/ Apache Pinot™: Realtime distributed OLAP datastore | Apache Pinot™Pluggable indexing Pluggable indexing technologies - Sorted Index, Bitmap Index, Inverted Index, StarTree Index, Bloom Filter, Range Index, Text Search Ind.. 2023. 4. 28.
Phoenix 연결방식 차이 (Thick / Thin) phoenix driver에는 크게 2가지 종류가 있다. 1. Thick 클라이언트가 zookeeper를 통해 HBase에 직접 붙는 방식이다. 클라이언트와 아래 컴포넌트 간 통신이 되어야 한다. - zookeeper (2181) - HBase master (16000) - HBase region server (16020) 2. Thin 클라이언트가 phoenix query server를 통해 phoenix에 접속하는 방식이다. phoenix query server를 별도로 구성하여 실행하여야 한다. 클라이언트는 phoenix query server(8765)와 통신만 되면 된다. 참고) python으로 phoenix에 접속하는 경우 query server를 통해 phoenix에 접속하는 python d.. 2021. 11. 19.
HBase Start Process (HBase 2.2) - Region Assign HBase Cluster 시작 과정을 정리하면서 Region 할당이 어떤 과정으로 이루어지는지 알아보고자 한다. HBase Restart시 간헐적으로 발생하는 비정상 현상 원인을 파악하고자 한다. HBase 2.2+ 변경사항 HBase 2.2+ uses a new Procedure form assiging/unassigning/moving Regions. It does not process HBase 2.1 and 2.0’s Unassign/Assign Procedure types. HBase Master 로그를 확인하며 HBase Cluster 시작 과정을 파악하였다. 1. 프로세스 시작 및 Zookeeper 연결 2. WAL 처리 Recover lease on hdfs (MasterProcWALs/7.. 2021. 9. 8.
RDS -> Spark(AWS EMR) -> Neo4jDB 0. 네트워크 구성 (VPC 생성) 탄력적 ip 생성 (public IP) VPC 생성 Subnet (Public, Private) 생성 EMR EC2 보안그룹에서 인바운드 규칙 편집 (노트북에서 EMR EC2에 접속하기 위해 필요함) 1. EMR 구성 소프트웨어 구성 hadoop, spark, zeppeplin, hue, oozie 멀티마스터 구성 멀티마스터 체크 시 알아서 zookeeper 구성될 것임 AWS Glue 데이터 카탈로그 설정 Hive metastore 기반 인스턴스 구성 마스터(NN, RM, ZK, zeppelin), 코어(DN, NM), 태스크(NM) 코어 최소 1개는 필요함. yarn 띄울 때 필요한 라이브러리를 DN에 저장해야 하기 때문임 온디맨드 유형 / 스팟 유형 소프트웨어 설.. 2021. 8. 15.
Hadoop 클러스터 구축 과정 1. Zookeeper 설치 1) 패키지 설치 zookeeper, zookeeper-server 2) 설정파일 배포 - zoo.cfg (myid 설정) 2. Hadoop 설치 1) 네임노드 - 패키지 설치 (hadoop, hadoop-hdfs-namenode) - 네임노드용 디렉토리 생성(dfs_namenode_name_dir) 2) YARN Resource manager - 패키지 설치(hadoop, hadoop-yarn-resourcemanager) 3) Journal Node - 패키지 설치(hadoop-hdfs-journalnode) - 저널노드용 디렉토리 생성 (dfs_journalnode_edits_dir) 4) ZKFC - 패키지 설치(hadoop-hdfs-zkfc) 5) Hadoop 설치 .. 2021. 4. 1.
반응형