본문 바로가기

🌿 Data Engineering64

[kafka 기초] AWS에 카프카 클러스터(kafka,zookeeper) 구축하기 역시 나는 똒똑하지 않아서 그냥 글로만 보고서 이해할 수 없다. 직접 해봐야한다. 아래의 내용 및 이미지는 [데브원영] 아파치 카프카 for begineers 강의 요약 및 추가 공부한 내용입니다. 감사합니다. Kafka 아키텍쳐 전체적인 kafka 아키텍쳐는 아래와 같다고 한다. 즉, 개념상 브로커 1대일 경우를 표현하는 일반적인 구조랄까 (테스트할때 그냥 개인컴퓨터 1대에서 설치하는 정도?) 그래도 대부분은 앞에서 용어로 들어본 것들이지만, '주키퍼'는 처음 보았다. (개인적으로 이름이 귀여웠다) 그림에서 보는 것 처럼 카프카와 주피커는 서로 별도의 어플리케이션이다. 별도이다. 그래서 카프카 환경을 구축하기 위해서는 카프카도 설치하고, 주키퍼도 설치해야한다. Zookeeper ZooKeeper는 Ka.. 2021. 3. 26.
데이터웨어하우스(Data Warehouse)란? 데이터웨어하우스 정보(data) + 창고(warehouse)가 결합한 의미로 의사결정에 도움을 주기 위해 분석가능한 형태로 변환한 데이터들이 저장되어 있는 중앙저장소 즉, 의사결정에 필요한 데이터가 들어있는 데이터베이스정도가 되겠다. 트랜잭션 시스템, RDB 및 기타 소스의 데이터들이 데이터웨어하우스에 들어간다 어플리케이션이나 운영시스템내부에서 raw data들을 모아두고, 이들 중 분석할 수 있는 데이터들을 창고처럼 쌓아둔 다음에, 이 데이터들을 데이터사이언티스같은 사람들이 BI나 SQL을 이용해서 데이터를 엑세스함 데이터웨어하우스가 왜 필요할까? 쿼리로 그냥DB에 접근헤서 분석하면 되지 않을까? 라는 생각이 들었다. 이런 궁금증을 해소한 자료를 찾았다. 참고출처 : bomwo.cc/posts/Data.. 2021. 3. 16.
데이터파이프라인(datapipeline)이란? 데이터엔지니어의 주요업무 중 하나, 데이터파이프라인 개발특히 이때 데이터는 대용량데이터, 실시간데이터 등등 다양한 데이터이다.데이터파이프라인을 통해 어디에서든지 데이터를 편하게 접근하고, 분석할 수 있게 해준다.  왜, 어디에서, 어떻게 데이터를 수집할 것인가?부터 출발한다데이터를 효과적으로 가져오는것이 data-driven기업의 숙제다. 데이터를 한 지점에서 특정공간까지 가지고 오는데 장애물들이 있기 때문에 이걸 해결하는게 핵심 키.데이터파이프라인 구축 : 데이터의 추출, 변경, 결합, 검증 그리고 적재의 과정을 자동화 하는 것 여러 소프트웨어적인 수동작업들을 제거하고, 데이터가 각 지점을 순조롭게 흐르도록 flow를 만들어 주는 것 심지어 여러 데이터 스트림을 한번에 처리해야하고, 모든종류의 데이터를.. 2021. 3. 10.
데이터엔지니어, 돌고 돌아 다시 확신을 갖게 되다 사실 나는 2017년 어떤 카드사 대외활동을 계기로 데이터관련 분야로 큰 방향은 잡았었다. 처음이였다. 일을 상상하는 것만으로도 가슴이 뛴다고 생각하게 된 것은. 벌써부터 빨리 일 하고 싶다는 마음이 든 것은. 그동안 IT직무에 관해서 늘 회의감이 들기만 했던 나에겐 처음이였다. 바로 이거야! 라고 확신이 든 순간은. 하지만 그때만 해도 내가 알고 있는 데이터분야의 일은 그저 파이썬과 R을 가지고 할 수 있는 '데이터분석' 뿐이였다. 심지어 한창 '빅데이터'가 화두에 오르던 시기였다. 당시 엘리트 경영전공 문과생들의 레벨업 코스였다. 그런데 나는 IT전공이니까 데이터분석보다는 조금 더 데이터관련 전문적인 일을 하고 싶었다. 그때 대외활동으로 직접 카드사의 데이터를 만져볼 기회가 있었는데 정말 신기했다. .. 2021. 3. 10.