일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 데이터엔지니어
- 설치
- Feature Importance
- 개발
- AWS
- Kafka
- python
- airflow
- tmux
- Linux
- S3
- kafkaconnect
- DataPlatform
- 파이썬
- dataengineering
- Today
- Total
목록Data Engineering (5)
GuriLogs.
KAFKA CONNECT 다양한 데이터 소스 시스템에서 발생한 데이터 이벤트를 다른 데이터 타겟 시스템으로 별도의 Kafka Client 코딩 없이 Seamless하게 실시간으로 전달하기 위해 만들어진 Kafka Component. Kafka Connect의 구성요소Connect Cluster - 여러 개의 Connect를 group.id로 묶어서 하나의 Connect Cluster가 됨ConnectConnect가 기동되면 JVM Process가 띄워짐. 이거를 워커가 함그래서 Connect를 띄운다 = 워커 프로세스를 띄운다 (이 부분이 제일 헷갈렸던 부분)Connector - REST API를 통해 Connect 위 기동을 시킬 수 있음. Connect 위에 올라가는 Source와 Sink를 연결하..
About Dags 기본 구조 with DAG( dag_id, default_args, start_date, description, schedule_interval, tags ) as dag: def ~ ~ ~: ~ ~ ~ Operator airflow.operators - Airflow Documentation DummyOperator : 아무 작업도 안함. BashOperator : Bash Shell 스크립트 실행 PythonOperator : Python Code(.py) 실행 Catch Up & Backfill Catch Up Python 코드로 DAG을 작성할 때 사용(DAG 안의 파라미터), default는 False Backfill을 수행할 수 있는 옵션. False이면, start_dat..
1️⃣ Install Airflow pyenv 가상환경 사용 pyenv virtualenv 3.9.15 airflow-env cd ~~ pyenv activate airflow-env # Airflow needs a home. `~/airflow` is the default, but you can put it # somewhere else if you prefer (optional) export AIRFLOW_HOME=~/airflow # Install Airflow using the constraints file AIRFLOW_VERSION=2.4.2 PYTHON_VERSION="$(python --version | cut -d " " -f 2 | cut -d "." -f 1-2)" # For exam..
1. Amazon S3 개요 Amazon S3(Amazon Simple Storage Service)는 업계 최고의 확장성, 데이터 가용성, 보안 및 성능을 제공하는 객체 스토리지 서비스. 데이터 레이크, 웹 사이트, 빅데이터 분석 등 다양한 사용 사례에서 원하는 양의 데이터를 저장하고 보호할 수 있다. 1-1. 특징 많은 사용자가 접속을 해도 이를 감당하기 위해서 시스템적인 작업을 하지 않아도 된다. 저장할 수 있는 파일 수의 제한이 없다. 최소 1바이트에서 최대 5TB의 데이터를 저장하고 서비스할 수 있다. 파일에 인증을 붙여서 무단으로 엑세스 하지 못하도록 할 수 있다. 데이터를 여러 시설에서 중복으로 저장해 데이터의 손실이 발생할 경우, 자동으로 복원한다. 버전관리 기능을 통해 사용자에 의한 실수..
1. AWS Glue 개요 keyword : 간편, 유연하며 비용 효율적인, 완전 관리형, 서버리스, ETL 서비스, 개발자 친화적, Apache Spark 환경, Python과 Scala 코드 지원 AWS Glue는 까다롭고 시간이 많이 소요되는 데이터 검색, 변환, 작업 일정 조정 등과 같은 작업을 간소화 및 자동화하는 종합 관리형 데이터 카탈로그 및 ETL(Extract, Transform, Load) 서비스이다. 데이터 소스를 크롤링하고 CSV, Apache Parquet, JSON 등의 데이터 형식과 데이터 유형에 대해 사전 구축된 분류자를 사용하여 데이터 카탈로그를 생성한다. 💡 데이터 카탈로그 ? https://www.tibco.com/ko/reference-center/what-is-a-d..