일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- dataengineering
- 파이썬
- Linux
- 데이터엔지니어
- airflow
- python
- AWS
- kafkaconnect
- 개발
- 설치
- tmux
- DataPlatform
- Feature Importance
- Kafka
- S3
- Today
- Total
목록전체 글 (10)
GuriLogs.

KAFKA CONNECT 다양한 데이터 소스 시스템에서 발생한 데이터 이벤트를 다른 데이터 타겟 시스템으로 별도의 Kafka Client 코딩 없이 Seamless하게 실시간으로 전달하기 위해 만들어진 Kafka Component. Kafka Connect의 구성요소Connect Cluster - 여러 개의 Connect를 group.id로 묶어서 하나의 Connect Cluster가 됨ConnectConnect가 기동되면 JVM Process가 띄워짐. 이거를 워커가 함그래서 Connect를 띄운다 = 워커 프로세스를 띄운다 (이 부분이 제일 헷갈렸던 부분)Connector - REST API를 통해 Connect 위 기동을 시킬 수 있음. Connect 위에 올라가는 Source와 Sink를 연결하..
먼저, Python Package 구조 생성├── custom_python│ ├── __init__.py│ └── functions.py├── README.md└── setup.py패키지 내에서 활용하고 싶은 함수 정의custom_python/functions.py 파일에 정의여기서 functions는 import custom_python.functions 이렇게 활용됨. def info(~): ... return ...def funct(~): ... return ...등등빌드 정보 세팅setup.py 파일을 생성하고 해당 파일 안에 빌드 정보를 입력한다.setup에는 이 외에도 많은 파라미터가 있다.(https://setuptools.pypa.io/en/latest/references/k..

About Dags 기본 구조 with DAG( dag_id, default_args, start_date, description, schedule_interval, tags ) as dag: def ~ ~ ~: ~ ~ ~ Operator airflow.operators - Airflow Documentation DummyOperator : 아무 작업도 안함. BashOperator : Bash Shell 스크립트 실행 PythonOperator : Python Code(.py) 실행 Catch Up & Backfill Catch Up Python 코드로 DAG을 작성할 때 사용(DAG 안의 파라미터), default는 False Backfill을 수행할 수 있는 옵션. False이면, start_dat..

1️⃣ Install Airflow pyenv 가상환경 사용 pyenv virtualenv 3.9.15 airflow-env cd ~~ pyenv activate airflow-env # Airflow needs a home. `~/airflow` is the default, but you can put it # somewhere else if you prefer (optional) export AIRFLOW_HOME=~/airflow # Install Airflow using the constraints file AIRFLOW_VERSION=2.4.2 PYTHON_VERSION="$(python --version | cut -d " " -f 2 | cut -d "." -f 1-2)" # For exam..

tmux(terminal multiplexer)란? 시간이 오래 걸리는 코드를 실행시킬 때, 컴퓨터를 꺼도 계속 실행이 유지되도록 사용하는 프로그램 vi [파일이름].py : .py 생성 esc -> :wq : writequit 저장하고 나간다는 뜻 q : 바꾼 내용이 없을 때 그냥 나간다는 뜻 q! : 강제종료(적었던 내용 다 날라감) 주요 명령어 정리 tmux new -s [사용할 이름] : 새로운 tmux 서버 생성 python [파일이름].py : python으로 [파일이름].py 실행 ** tqdm이나 print문을 넣어서 진행상황 확인하면 편함 → 이러고 나가있으면 저절로 실행되는 마법이 부려진다... 에러가 났는지 tmux에서 확인하는 방법 tmux ls : 현재 존재하는 tmux 서버 리스..

본 내용은 빅데이터를 지탱하는 기술 (니시다 케이스케) 책을 정리한 내용입니다. Chapter 1 빅데이터의 기초 지식 1-1 ~ 1-2 1-1 빅데이터의 정착 “빅데이터”라는 단어를 자주 접하게 된 것은 2011년 후반에서 2012년에 걸쳐 많은 기업들이 데이터 처리에 분산 시스템을 도입하기 시작했을 무렵이다. 빅데이터의 취급이 어려운 이유는 크게 두 가지이다. 1. 데이터의 분석 방법을 모른다 2. 데이터 처리에 수고와 시간이 걸린다. 그러나 이 두 가지를 갖추고 나서야 비로소 가치 있는 정보를 얻을 수 있다. 빅데이터 기술의 요구 - Hadoop, NoSQL 빅데이터의 기술로 가장 먼저 예로 들 수 있는 것이 Hadoop과 NoSQL이다. 웹 서버 등에서 생성된 데이터는 처음에는 RDB와 NoSQL..