본문 바로가기
반응형

BigData 기술/Hive,Presto,Trino7

[Hive] managed table , external table 차이 managed table데이터가 hive.metastore.warehouse.dir 에 저장된다.위의 경로는 CREATE TABLE시 LOCATION 구문으로 변경할 수도 있다.테이블을 DROP하면 데이터도 사라진다.테이블의 라이프사이클을 관리하거나 임시테이블을 만들 때 사용한다.transaction, view 등이 가능하다. (external은 불가) external table원본이 저장된 데이터에 접근할 수 있다. (ex. S3, 다른 HDFS 등) hive입장에서는 메타데이터만 관리한다고 여겨진다.테이블을 DROP해도 데이터는 남아있다.파일이 이미 있거나 원격 위치에 있는 경우 사용한다. -> 1차테이블로 많이 사용하는 듯 -> msck repair 필요 (metadata 갱신) 참고Managed .. 2021. 3. 9.
[Hive] export, import Export hive table의 메타데이터와 데이터를 추출하는 명령어이다. hdfs 경로에 저장이 된다. export table import_tbl_2 to '/user/public/sunnytest/exporttest'; Import export한 테이블을 import 명령어로 가져올 수 있다. 대상 테이블이 이미 있고 파티션이 없는 경우, 데이터가 비워져 있어야 한다. 대상 테이블이 이미 있고 파티션이 있는 경우, 가져올 파티션에 데이터가 비워져 있어야 한다. import table imported_tbl from '/user/public/sunnytest/exporttest'; export한 디렉토리와 파일들은 import를 수행할 클러스터로 복사해야 할 것이다. distcp 같은 툴로 복사하거나.. 2021. 3. 9.
Hive 트랜잭션 테이블 (Hive update, delete) 개요 Hive에서 update 또는 delete 쿼리를 사용하기 위해서는 트랜잭션 설정이 필요하다. Hive 트랜잭션 테이블의 개념과 설정하는 방법을 알아본다. ACID 란? DB 트랜잭션의 주요한 특징이다. Atomicity an operation either succeeds completely or fails, it does not leave partial data 작업은 성공하거나 실패하거나 둘 중 하나이다. Consistency once an application performs an operation the results of that operation are visible to it in every subsequent operation 하나의 작업이 전체 시스템에 반영된다. Isolation .. 2021. 1. 3.
[Presto] Memory Pool / Memory configuration (config.properties) Presto Memory 각 Memory Pool 에서 메모리를 할당한다. 무조건 General Pool에서 먼저 할당한다. 메모리의 종류는 2가지이다. user 메모리 group by, join 등 쿼리에 따른 메모리이다. system 메모리 input/output buffer 등에 대한 메모리이다. Presto Memory Pool headroom 메모리를 제외한 나머지 메모리(General, Reserved)가 Presto Worker가 실제 사용할 수 있는 메모리이다. (1) General Pool 쿼리를 실행하면 General Pool에서 제일 먼저 메모리가 할당된다. jvm 메모리 용량에서 headroom 메모리 용량을 뺀 나머지가 모두 General Pool 에 잡힌다. jvm - Reser.. 2020. 7. 22.
IntelliJ에서 Presto Query 날리기 0. 윈도우 hosts파일 작성 C:\Windows\System32\drivers\etc\hosts 192.168.5.183 dss03.nexr.com 인증서 서명이 dss03.nexr.com 로 되어있기 때문에 클라이언트도 dss03.nexr.com로 요청해야 인증에 성공한다. 1. presto-jdbc 드라이버 다운로드 https://prestodb.io/download.html 2. intelliJ에 presto-jdbc 드라이버 추가 3. 인증서 파일 다운로드 (ndap-truststore.jks) presto server에 있는 인증서를 PC에 다운로드 받았다. 나중에 API로 호출하면 따로 다운로드 받지 않아도 브라우저 통해서 인증서를 받겠지? 4. 코드 작성 (https) package co.. 2020. 5. 14.
hive udf 등록하는 방법 1. 영구적으로 적용하는 방법 udf jar 파일을 클러스터 서버에 배포한다. ansible -i hosts all -m copy -a "src=/tmp/sunnyudf.jar dest=/usr/lib/hive/auxlib/" hive-site.xml 에 배포한 jar 경로를 설정한다. hive.aux.jars.path file:///usr/lib/hive/auxlib/sunnyudf.jar function 등록 vim /etc/hive/conf/.hiverc ++ CREATE TEMPORARY FUNCTION sunnyudf as 'com.test.sunny.SunnyUdf'; hive 재시작 service hive-server2 restart 2. 임시로 적용하는 방법 HDFS에 udf jar 파일 .. 2019. 11. 28.
반응형