일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- dataengineering
- Feature Importance
- kafkaconnect
- DataPlatform
- Kafka
- Linux
- tmux
- python
- S3
- airflow
- 파이썬
- 데이터엔지니어
- AWS
- 개발
- 설치
- Today
- Total
목록GuriLogs. (10)
GuriLogs.
Deep Residual Learning for Image Recognition 1. Introduction. Deep networks는 일반적으로 low/mid/high 레벨의 피쳐들이 적절하게 추출되고 그러한 피쳐들의 레벨 또한 풍부해질 수 있다. 의문 :그렇다면 더 많은 층을 쌓으면 더 좋은 networks를 학습시킬 수 있는 것일까? 오래 전부터 단순히 층만 깊게 쌓는 것은 많은 문제를 야기할 수 있다고 알려져 왔다. vanishing/exploding gradients 문제 → 가중치 값들을 초기에 적절히 초기화하는 것과 중간 정규화 계층에 의해 해결 본 논문은 층이 깊어짐에 따라 degradation 문제가 발생할 수 있다고 주장한다. 즉 층이 깊으면 accuracy가 무조건 높아지는 것이 아..
8.5 Permutation Feature Importance | Interpretable Machine Learning 이 글은 위 문서를 번역, 요약한 내용입니다. Permutation Feature Importance Permutation Feature Importance (순열 피처 중요도) feature values (실제 결과와 그 feature 사이의 관계를 끊는 (즉, 무작위로 섞어서 관계 없게 만든다는 뜻))를 permuted(바꿔 넣은) 후 모델 예측 error 증가를 측정하여 실제 error와 비교 1. Theory 이론은 간단하다. 피처를 바꿔 넣은 후 모델의 예측 오차의 증감을 계산하여 중요도를 측정한다. 모델이 예측을 위해 피처에 의존했으므로 오차가 증가했을 경우 그 피처는 중요..
1. Amazon S3 개요 Amazon S3(Amazon Simple Storage Service)는 업계 최고의 확장성, 데이터 가용성, 보안 및 성능을 제공하는 객체 스토리지 서비스. 데이터 레이크, 웹 사이트, 빅데이터 분석 등 다양한 사용 사례에서 원하는 양의 데이터를 저장하고 보호할 수 있다. 1-1. 특징 많은 사용자가 접속을 해도 이를 감당하기 위해서 시스템적인 작업을 하지 않아도 된다. 저장할 수 있는 파일 수의 제한이 없다. 최소 1바이트에서 최대 5TB의 데이터를 저장하고 서비스할 수 있다. 파일에 인증을 붙여서 무단으로 엑세스 하지 못하도록 할 수 있다. 데이터를 여러 시설에서 중복으로 저장해 데이터의 손실이 발생할 경우, 자동으로 복원한다. 버전관리 기능을 통해 사용자에 의한 실수..
1. AWS Glue 개요 keyword : 간편, 유연하며 비용 효율적인, 완전 관리형, 서버리스, ETL 서비스, 개발자 친화적, Apache Spark 환경, Python과 Scala 코드 지원 AWS Glue는 까다롭고 시간이 많이 소요되는 데이터 검색, 변환, 작업 일정 조정 등과 같은 작업을 간소화 및 자동화하는 종합 관리형 데이터 카탈로그 및 ETL(Extract, Transform, Load) 서비스이다. 데이터 소스를 크롤링하고 CSV, Apache Parquet, JSON 등의 데이터 형식과 데이터 유형에 대해 사전 구축된 분류자를 사용하여 데이터 카탈로그를 생성한다. 💡 데이터 카탈로그 ? https://www.tibco.com/ko/reference-center/what-is-a-d..