본문 바로가기

Book & Lesson61

[책정리]빅데이터를 지탱하는기술 4.3 시계열데이터의 최적화 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터4. 빅데이터의 축적 4-1. 벌크형과 스트리밍형 데이터의 수집 4-2. 메세지 배송의 트레이드 오프 4-3. 시계열데이터의 최적화 4-4. 비구조화 데이터의 분산 스토리지 (Dynamodb/Cassandra/MongoDB/ElasticSearch/Splunk) 스트리밍형 메세지배송에서는 메세지가 도착할떄까지 시간지연이 문제다. 늦게 도달하는 데이터가 집계속도에 어떤 영향을 미칠 것인가 프로세스 시간과 이벤트시간 이벤트시간 : 클라이언트 상에서 메시지가 생성된 시간 프로세스.. 2021. 6. 26.
[책정리] 빅데이터를 지탱하는기술 4.2 메세지 배송의 트레이드 오프 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터4. 빅데이터의 축적 4-1. 벌크형과 스트리밍형 데이터의 수집 4-2. 메세지 배송의 트레이드 오프 4-3. 시계열데이터의 최적화 4-4. 비구조화 데이터의 분산 스토리지 (Dynamodb/Cassandra/MongoDB/ElasticSearch/Splunk) 클라이언트 수가 많아지면 스트리밍형의 메세지배송의 성능과 신뢰성을 둘다 만족시키는 것이 어렵다. 왜? 성능문제 : 메세지브로커 메세지브로커가 없다면? 성능문제 메세지 배송으로 보내진 데이터들을 분산스토리지에 저장할때.. 2021. 6. 26.
[책정리] 빅데이터를 지탱하는 기술 4.1 벌크형/ 스트리밍형 데이터 수집 및 전송 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터4. 빅데이터의 축적 4-1. 벌크형과 스트리밍형 데이터의 수집 4-2. 메세지 배송의 트레이드 오프 4-3. 시계열데이터의 최적화 4-4. 비구조화 데이터의 분산 스토리지 (Dynamodb/Cassandra/MongoDB/ElasticSearch/Splunk) 데이터를 수집하고, 분산 스토리지에 저장하기까지 프로세스 데이터전송에 벌크형과 스트리밍형 도구가 사용된다. 어떻게 분산스토리지에 이 데이터들이 저장되는지 그 흐름. 객체스토리지 빅데이터는 확장성이 높은 분산스토리지에.. 2021. 6. 23.
[책정리] 빅데이터를 지탱하는 기술 3.3 데이터마트의 구축 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터3. 빅데이터의 분산처리 3-1. 대규모 분산처리의 프레임워크 3-2. 쿼리엔진 3-3. 데이터마트의 구축 데이터구조화가 잘 되어 있으면 dw와 같은 개념으로 데이터마트를 구축할 수 있다. 팩트테이블과 디멘전 테이블 준비 -> 결합 및 집계 -> 비정규화테이블 생성 디멘전으로 사용하는 데이터는 스냅샷으로 이력 축적, 디멘전의 카디널리티를 줄임 팩트테이블 팩트테이블이 아주 작으면 메모리에 올리면 되지만, 그렇지 않으면 열지향 스토리지에서 데이터를 압축해야함. 팩트테이블의 작성.. 2021. 6. 23.
[책정리] 빅데이터를 지탱하는 기술 3.2쿼리 엔진 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터3. 빅데이터의 분산처리 3-1. 대규모 분산처리의 프레임워크 3-2. 쿼리엔진 3-3. 데이터마트의 구축 Hive에 의한 구조화데이터의 생성과 Presto에 의한 대화식 쿼리 데이터마트 구축의 파이프라인 Hive와 Presto를 결합한 데이터프라인 비구조화(비정형) 데이터 -> 구조화(정형)데이터 -> 비정규화 데이터 1. 분산스토리지에 저장된 데이터를 구조화한다. (Hive) 2. 열지향 스토리지 형식으로 변환 및 저장 3. 완성한 구조화 데이터를 결합 및 집약하여 비정.. 2021. 6. 22.
[책정리]빅데이터를 지탱하는 기술 3.1 대규모 분산 처리의 프레임워크 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터3. 빅데이터의 분산처리 3-1. 대규모 분산처리의 프레임워크 3-2. 쿼리엔진 3-3. 데이터마트의 구축 데이터 처리를 분산하기 위해서 그 실행을 관리하기 위한 프레임워크, Hadoop과 Spark 구조화 데이터 vs 비구조화 데이터 구조화데이터(정형데이터) : 테이블의 칼럼명, 데이터형, 관계와 같은 스키마가 명확하게 정의된 데이터 비구조화데이터(비정형데이터) : 텍스트, 이미지,동영상 등 스키마가 없는 데이터 스키마리스 데이터(반정형데이터) : CSV,JSON,XML등.. 2021. 6. 22.
[책정리]빅데이터를 지탱하는 기술 2.4 데이터마트의 기본구조 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터2. 빅데이터의 탐색 2-1. 크로스집게계의 기본 2-2. 열지향 스토리지에 의한 고속화 2-3. 애드혹 분석과 시각화 도구(주피터/Redash/Superset/Kibana) 2-4. 데이터마트의 기본구조 BI도구에서 대화형으로 데이터를 참고하려고 하면, 시각화에 필요한 정보만 모든 데이터마트가 필수적이다. 그렇다면 데이터마트를 어떻게 설계하나? 시각화에 적합한 데이터마트 OLAP OLAP개념 추가로 살펴보기 2020.01.17 - OLAP/OLTP/DW/ETL 용어정리 +.. 2021. 6. 19.
[책정리]빅데이터를 지탱하는 기술 2.3 애드혹 분석과 시각화도구 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터2. 빅데이터의 탐색 2-1. 크로스집게계의 기본 2-2. 열지향 스토리지에 의한 고속화 2-3. 애드혹 분석과 시각화 도구(주피터/Redash/Superset/Kibana) 2-4. 데이터마트의 기본구조 이번에는 시각화 도구의 특징 알아보기 Jupyter NoteBook(주피터) 데이터를 찬찬히 수작업으로 살펴보는 애드훅 분석을 한다면? 대화형 실행환경 원하는 데이터가 어디에 있는지도 모르고, 집계시간이 얼마나 걸리는지도 알지 못하는 상황에서 시행착오를 거치며 데이터를 살.. 2021. 6. 19.
[책정리]빅데이터를 지탱하는 기술2-2.열지향 스토리지에 의한 고속화 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터2. 빅데이터의 탐색 2-1. 크로스집게계의 기본 2-2. 열지향 스토리지에 의한 고속화 2-3. 애드혹 분석과 시각화 도구(주피터/Redash/Superset/Kibana) 2-4. 데이터마트의 기본구조 데이터베이스 지연줄이기 데이터 기반 서비스를 운영하려면, 데이터 마트를 구축하여 초 단위로 처리가 이루어져야 한다. 어떻게 데이터를 빨리 처리하게 만들 수 있는가? 데이터 처리응답이 빠르다 = 대기시간이 적다 = 지연이 적다 = 데이터마트를 만들때 필요한 데이터베이스의 조.. 2021. 6. 18.
[책정리]빅데이터를 지탱하는 기술 2-1. 크로스집계의 기본 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터2. 빅데이터의 탐색 2-1. 크로스집계의 기본 2-2. 열지향 스토리지에 의한 고속화 2-3. 애드혹 분석과 시각화 도구(주피터/Redash/Superset/Kibana) 2-4. 데이터마트의 기본구조 크로스집계의 개념 크로스테이블 행과 열이 교차하는 부분에 숫자데이터가 들어가있는 테이블 사람들이 보기 편한 보고서지만, 데이터베이스에서는 다루기 어려운 데이터형식 새로운 행을 추가하긴 쉽지만, 열을 늘리는것이 간단하지 않다. (컬럼과 행으로만 구분) 트랜잭션 테이블 크로스테.. 2021. 6. 18.