일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- kafka connect
- Python
- MongoDB
- SSL
- fluentd
- logstash
- elasticsearch
- kibana
- MariaDB
- elasticearch
- pyspark
- kafka ui
- naverdevelopers
- Kafka
- PrestoDB
- PostgreSQL
- ui for kafka
- Today
- Total
목록Hadoop_Echosystem (2)
Dev_duri

Airflow란 에어비앤비에서 개발한 워크플로우 스케줄링, 모니터링 플랫폼 입니다. 현재 아파치의 탑레벨 프로젝트에 등록 되어 있으며 Hadoop echosystem 에서 특히 python기반으로 개발 되었기 때문에 Pyspark와 함께 많이 사용되는 툴 입니다. 테스트 서버에 구축 이 완료 되었으며 아래와 같은 시나리오로 개발/테스트 하였습니다. 총 3개의 Pyspark job을 사용하여 워크플로우를 구성 하였습니다. 먼저 csv 형식의 파일을 Postgresql DB에 A테이블에 적재 후 해당 작업 종료 후 2번 작업이 실행 되며 적재된 A테이블의 데이터를 Maria DB 의 A테이블로 ETL 한 후 마지막으로 3번째 작업인 Maria DB 의 A테이블을 Hdfs에 orc 확장자로 Append 하며 ..

현재 개발 서버에 Apache Impala & Kudu 구축이 완료 되었습니다. Apache Impala는 Hadoop에서 실행되는 쿼리 엔진 입니다 HDFS에 적재되어 있는 Data를 SQL을 이용해 실시간으로 분석할 수 있는 시스템 이고 MaapReduce프레임워크를 이용하지 않고 분산 질의 엔진을 이용해 분석하기 때문에 빠른 결과를 제공합니다. kudu는 Apache Hadoop Ecosystem 저장소 중 하나로 Columnar Storage 입니다. Columnar 형식으로 HBase와 같이 NoSQL이 아니므로 schema를 가지고 있으며, column별로 파일을 저장 합니다. 임팔라 구동 화면 Kudu 구동 화면 Impala Table 생성 Kudu UI 에서 Impala에 생성된 테이블 확..