일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- airflow
- python
- kafkaconnect
- 개발
- DataPlatform
- AWS
- 데이터엔지니어
- 설치
- Feature Importance
- 파이썬
- S3
- Kafka
- tmux
- dataengineering
- Linux
- Today
- Total
목록GuriLogs. (10)
GuriLogs.

KAFKA CONNECT 다양한 데이터 소스 시스템에서 발생한 데이터 이벤트를 다른 데이터 타겟 시스템으로 별도의 Kafka Client 코딩 없이 Seamless하게 실시간으로 전달하기 위해 만들어진 Kafka Component. Kafka Connect의 구성요소Connect Cluster - 여러 개의 Connect를 group.id로 묶어서 하나의 Connect Cluster가 됨ConnectConnect가 기동되면 JVM Process가 띄워짐. 이거를 워커가 함그래서 Connect를 띄운다 = 워커 프로세스를 띄운다 (이 부분이 제일 헷갈렸던 부분)Connector - REST API를 통해 Connect 위 기동을 시킬 수 있음. Connect 위에 올라가는 Source와 Sink를 연결하..
먼저, Python Package 구조 생성├── custom_python│ ├── __init__.py│ └── functions.py├── README.md└── setup.py패키지 내에서 활용하고 싶은 함수 정의custom_python/functions.py 파일에 정의여기서 functions는 import custom_python.functions 이렇게 활용됨. def info(~): ... return ...def funct(~): ... return ...등등빌드 정보 세팅setup.py 파일을 생성하고 해당 파일 안에 빌드 정보를 입력한다.setup에는 이 외에도 많은 파라미터가 있다.(https://setuptools.pypa.io/en/latest/references/k..

About Dags 기본 구조 with DAG( dag_id, default_args, start_date, description, schedule_interval, tags ) as dag: def ~ ~ ~: ~ ~ ~ Operator airflow.operators - Airflow Documentation DummyOperator : 아무 작업도 안함. BashOperator : Bash Shell 스크립트 실행 PythonOperator : Python Code(.py) 실행 Catch Up & Backfill Catch Up Python 코드로 DAG을 작성할 때 사용(DAG 안의 파라미터), default는 False Backfill을 수행할 수 있는 옵션. False이면, start_dat..

1️⃣ Install Airflow pyenv 가상환경 사용 pyenv virtualenv 3.9.15 airflow-env cd ~~ pyenv activate airflow-env # Airflow needs a home. `~/airflow` is the default, but you can put it # somewhere else if you prefer (optional) export AIRFLOW_HOME=~/airflow # Install Airflow using the constraints file AIRFLOW_VERSION=2.4.2 PYTHON_VERSION="$(python --version | cut -d " " -f 2 | cut -d "." -f 1-2)" # For exam..

tmux(terminal multiplexer)란? 시간이 오래 걸리는 코드를 실행시킬 때, 컴퓨터를 꺼도 계속 실행이 유지되도록 사용하는 프로그램 vi [파일이름].py : .py 생성 esc -> :wq : writequit 저장하고 나간다는 뜻 q : 바꾼 내용이 없을 때 그냥 나간다는 뜻 q! : 강제종료(적었던 내용 다 날라감) 주요 명령어 정리 tmux new -s [사용할 이름] : 새로운 tmux 서버 생성 python [파일이름].py : python으로 [파일이름].py 실행 ** tqdm이나 print문을 넣어서 진행상황 확인하면 편함 → 이러고 나가있으면 저절로 실행되는 마법이 부려진다... 에러가 났는지 tmux에서 확인하는 방법 tmux ls : 현재 존재하는 tmux 서버 리스..

본 내용은 빅데이터를 지탱하는 기술 (니시다 케이스케) 책을 정리한 내용입니다. Chapter 1 빅데이터의 기초 지식 1-1 ~ 1-2 1-1 빅데이터의 정착 “빅데이터”라는 단어를 자주 접하게 된 것은 2011년 후반에서 2012년에 걸쳐 많은 기업들이 데이터 처리에 분산 시스템을 도입하기 시작했을 무렵이다. 빅데이터의 취급이 어려운 이유는 크게 두 가지이다. 1. 데이터의 분석 방법을 모른다 2. 데이터 처리에 수고와 시간이 걸린다. 그러나 이 두 가지를 갖추고 나서야 비로소 가치 있는 정보를 얻을 수 있다. 빅데이터 기술의 요구 - Hadoop, NoSQL 빅데이터의 기술로 가장 먼저 예로 들 수 있는 것이 Hadoop과 NoSQL이다. 웹 서버 등에서 생성된 데이터는 처음에는 RDB와 NoSQL..