Book & Lesson61 [책정리] 빅데이터를 지탱하는 기술 1-4. BI도구와 모니터링 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터1. 빅데이터의 기초지식 1-1. 빅데이터의 정착 1-2. 빅데이터시대의 데이터분석기반 1-3.스크립트 언어에 의한 특별분석과 데이터프레임 1-4. BI도구와 모니터링 현재상황파악 : 스프레드시트 모니터링 모니터링이란 계획적으로 데이터변화를 추적하는것. 현재상황을 파악하기 위한 하나의 도구로 데이터를 사용한다. 데이터의 변화를 모니터링하고, 만약 예상과 다른 움직임이 있다면 행동을 해야한다. 여기에 사람판단이 필요하다. 데이터에 근거한 의사결정 : KPI모니터링 KPI란 프.. 2021. 6. 17. [책정리]빅데이터를 지탱하는 기술 1-3.파이썬에 의한 데이터처리 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터1. 빅데이터의 기초지식 1-1. 빅데이터의 정착 1-2. 빅데이터시대의 데이터분석기반 1-3.스크립트 언어에 의한 특별분석과 데이터프레임 1-4. BI도구와 모니터링 데이터처리와 스크립트 언어(python) 전처리가 필요한 데이터가 있다. api로 부터 데이터를 얻을 경우 원시데이터를 그대로 bi도구에서 읽을 수 없어 전처리가 필요하다. 이떄 많이 쓰는 것이 파이썬이랑 R. R보다 파이썬이 인기있는 이유? 다양한 분야의 라이브러리 쉽게 사용가능 (수치계산용 : numpy(.. 2021. 6. 17. [책정리] 빅데이터를 지탱하는 기술 1-2. 빅데이터시대 데이터분석기반 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다) 목차 챕터1. 빅데이터의 기초지식 1-1. 빅데이터의 정착 1-2. 빅데이터시대의 데이터분석기반 1-3.스크립트 언어에 의한 특별분석과 데이터프레임 1-4. BI도구와 모니터링 빅데이터의 기술 빅데이터의 기술이란 분산시스템을 활용하면서 데이터를 순차적으로 가공해나가는 일련의 구조 빅데이터기술이 기존의 데이터웨어하우스와 다른점은 다수의 분산 시스템을 조합하여 확장성이 뛰어난 데이터 처리구조를 만든다는 점. 데이터파이프라인 차례대로 전달해나가는 데이터로 구성된 시스템 어디에서 데이터를.. 2021. 6. 16. [책정리] 빅데이터를 지탱하는 기술 1-1. 빅데이터의 기초지식(역사) 챕터1. 빅데이터의 기초지식 1-1. 빅데이터의 정착 1-2. 빅데이터시대의 데이터분석기반 1-3.스크립트 언어에 의한 특별분석과 데이터프레임 1-4. BI도구와 모니터링 1장에서는 빅데이터 기술이 태어난 역사적 배경부터 시작해서 기본적인 용어를 정리하는 부분. 빅데이터와 대비해 이전부터 존재하던 스몰데이터 기술에 대한 설명. 파이썬 스크립트에 의한 데이터처리와 디스커버리를 통한 개념 이해 부분. 빅데이터의 역사 '빅데이터'를 접하게 된 것은 2011년 후반에서 2012년에 걸쳐 데이터처리에 분산시스템을 도입하기 시작했을 무렵. 그전에도 데이터 처리는 이뤄졌지만, 빅데이터라고 불리며 데이터를 비즈니스에 활용하자는 움직임 활발해짐. 하지만 여전히 빅데이터기술을 안심하고 사용할 수 있다고 말하긴 어려운 상황.. 2021. 6. 16. [책정리] 빅데이터를 지탱하는 기술 목차 이번달 목표..기술 책 마스터하기 앞으로 남은 이주동안 다 읽어볼 수 있겠지..? 데이터엔지니어가 되기 위하여..!! 목차 챕터1. 빅데이터의 기초지식 1-1. 빅데이터의 정착 1-2. 빅데이터시대의 데이터분석기반 1-3.스크립트 언어에 의한 특별분석과 데이터프레임 1-4. BI도구와 모니터링 챕터2. 빅데이터의 탐색 2-1. 크로스집게계의 기본 2-2. 열지향 스토리지에 의한 고속화 2-3. 애드혹 분석과 시각화 도구(주피터/Redash/Superset/Kibana) 2-4. 데이터마트의 기본구조 챕터3. 빅데이터의 분산처리 3-1. 대규모 분산처리의 프레임워크 3-2. 쿼리엔진 3-3. 데이터마트의 구축 챕터4. 빅데이터의 축적 4-1. 벌크형과 스트리밍형 데이터의 수집 4-2. 메세지 배송의 트레이.. 2021. 6. 16. kafka강의6 | 카프카 버로우(Burrow) 지금까지 강의를 들으며 공부하고 학습해온 내용들 2021.03.22 - kafka강의1 | 아파치 카프카(Apache Kafka)란? 2021.03.22 - kafka강의2 | Topic이란? Pub/Sub 구조 2021.03.24 - kafka강의3 | 브로커, 복제, ISR(in-sync-replication) 2021.03.24 - kafka강의4 | 파티셔너(Partitioner)란? 2021.03.25 - kafka강의5 | 컨슈머 랙(Consumer Lag)이란? 하지만 이렇게 이론만 들어도 사실 잘 뭔가 와닿지 않는다. 대충 아 이런거구나 라고만 생각이 들지 실질적으로 어떻게 동작하는지 눈으로 봐야할것 같다. 그래서 kafka를 가지고 뭔가 만들어보고 싶다. 아래의 내용 및 이미지는 [데브원.. 2021. 3. 25. kafka강의5 | 컨슈머 랙(Consumer Lag)이란? 아래의 내용 및 이미지는 [데브원영] 아카피 카프카 for begineers 강의 요약 및 추가 공부한 내용입니다. 컨슈머 랙이란? 운영 모니터링 지표 중 하나 파티션에 데이터가 하나하나씩 들어가게 되면 각 데이터에 오프셋 이라는 숫자가 붙는다. 파티션이 한개인 토픽에 프로듀셔가 데이터를 넣을경우 0부터 숫자가 붙는다 그런데 프로듀셔가 데이터를 넣어주는 속도보다 컨슈머가 데이터를 가져가는 속도가 더 빠르다면? 1.프로듀서가 넣은 데이터의 오프셋 2.컨슈머가 가져간 데이터의 오프셋 이 둘의 차이가 발생함!!! 이걸 컨슈머 랙 이 렉의 숫자를 통해 해당 토픽에 대한 프로듀셔와 컨슈머의 상태유츄 가능 (주로 컨슈머 상태) 토픽에 여러 파티션이 존재할 경우 lag도 여러개 존재할 수 있음 한개의 토픽와 컨슈머 .. 2021. 3. 25. kafka강의4 | 파티셔너(Partitioner)란? 아래의 내용 및 이미지는 [데브원영] 아카피 카프카 for begineers 강의 요약 및 추가 공부한 내용입니다. 파티셔너란? 프로듀셔가 데이터를 보내면 무조건 파티셔녀를 통해서 브로커로 데이터가 전송된다 데이터를 topic의 어떤 파티션에 저장해야할지 결정하는 부분 레코드에 포함된 메세지 키 또는 메시지 값에 따라서 파티션의 위치 결정 파티셔너 기본값 : UniformStickyPartitioner 메세지 키가 있을떄, 없을떄 다르게 동작 메시지 키가 있는 경우,파티셔너에 의해서 특정한 hash값을 생성 이 hash값을 기준으로 어느 파티션에 들어가야할지 결정하게 된다. 동일한 메시지 키를 가진 레코드는 동일한 hash값을 만들기 떄문에 동일한 파티션에 들어감을 보장한다 즉, 동일한 파티션에 순서를 .. 2021. 3. 24. kafka강의3 | 브로커, 복제, ISR(in-sync-replication) 아래의 내용 및 이미지는 [데브원영] 아파치 카프카 for begineers 강의 요약 및 추가 공부한 내용입니다. 감사합니다. 카프카는 파티션 단위로 분산처리를 수행한다. 이때 분산처리의 핵심은 '복제' -> 카프카의 가용성을 보장하는 가장 좋은 방법 모든브로커에게 데이터를 동일하게 보내는 것이 아니라 master->slave방향으로 데이터를 복제하는 것처럼 수행 브로커(Broker) 카프카가 설치되어 있는 '서버'단위 즉, 브로커1개를 모아서 처리할 수 있는 서버1개라고 볼 수 있을듯하다. 3개이상의 브로커로 클러스터 구성으로 사용하는 것 장 파티션이 1개이고, replication이 1인 topic이 존재하고, 브로커가 3개라면 브로커 3대 중 1대에 해당 topic의 정보(데이터) 저장 repli.. 2021. 3. 24. kafka강의2 | Topic이란? Pub/Sub 구조 아래의 내용 및 이미지는 [데브원영] 아카피 카프카 for begineers 강의 요약 및 추가 공부한 내용입니다. Kafka의 토픽(Topic)이란? 데이터를 최종적으로 저장하는 곳인데, 데이터를 구분하기 위한 저장소라고 보면 된다. 카프카는 데이터를 주고받을떄 지정된 토픽으로 주고받는다. 데이터가 들어갈 수 있는 용량 토픽은 데이터베이스 테이블이나, 파일시스템의 폴더와 유사한 성질 이 토픽에 프로듀서는 데이터를 넣고, 컨슈머가 데이터를 가져간다. 토픽은 목적에 따라 각각의 이름을 가질 수 있는데 무슨 데이터를 담는지에 따라 명확하게 명명 권장 토픽 내부,파티션 메세지의 분류단위로 하나의 토픽은 여러개의 파티션으로 구성 파티션은 저장소안에 분리된 공간으로 데이터를 더 빨리, 더 많이 보내고 처리하기 위.. 2021. 3. 22. 이전 1 ··· 3 4 5 6 7 다음