본문 바로가기

Book & Lesson61

[Spark강의2] Spark의 실시간/배치 아래의 글은 T아카데미 아파치 스파크 입문 강의를 듣고 정리한 내용입니다 1강. Spark의 실시간/배치 1. BigData Processing 배치 프로세싱 : 데이터는 엄청 크지만 latency가 생겨도 되는 경우 (일,월을 기준으로 한번에 처리) 실시간 프로세싱 : 데이터가 온 즉시 바로 처리, 대신 데이터가 바로바로 처리되야해서 데이터가 간단해야함, Micro 배치프로세싱 : 작은 배치사이즈(bath+streaming), 실시간 집계가 필요한 경우 ex : Spark Streaming 2. 스트림 프로세싱 Native Streaming 방식 (Storm, Flik) Source Operator : 데이터 소스가 들어오는 부분, 예를 들면 카프카 Processing Operator : 데이터가 들어.. 2021. 8. 18.
[Spark강의1] Spark의 개념과 활용 아래의 글은 T아카데미 아파치 스파크 입문 강의를 듣고 정리한 내용입니다 1강. Spark의 개념과 활용 1. Apache Hadoop이란? HDFS : 분산파일 시스템 YARN : 다양한 어플리케이션을 돌릴때 클러스터역할을 해주는 관리자 MapReduce : 하둡의 프로그래밍 패러다임 HDFS (Hadoop Distributed File System) 하둡에코시스템에서 분산파일시스템 지원 큰 파일들을 잘 저장하고 잘 처리할 수 있게 지원 여러곳에 분산해서 저장->신뢰성 보장 HDFS 구조 마스터노드 (NameNode) : 메타데이터 managing 슬레이브노드 (DataNode)실제로 데이터를 저장하게 되는 노드 큰 파일들을 블럭단위로 저장(default size : 64) -> 안정적으로 복구하기 위.. 2021. 8. 18.
[데엔스터디2] 데이터엔지니어링을 위한 데이터웨어하우스(RedShift) 데이터엔지니어링 스타터 키트 - 2주차 후기 아래의 내용은 직접 유료강의를 수강하고, 배운점 및 추가로 공부한 내용을 기록한 내용입니다. 프로그래머스에서 진행하는 실리콘밸리에서 날아온 데이터엔지니어링 스타터키트 강의추전! 2주차 내용 1. 데이터엔지니어링 ETL파이프라인 작성 흩어져있는 데이터를 수집해서, 원하는 포맷으로 변형하고, DW에 적재하는 ETL 파이프라인 작성 (코딩필요) 데이터의 크기와 양에 따라서 pandas로 끝나기도 하고, Spark를 사용해서 분산처리를 해야할 수도 있다. ETL파이프라인 관리 초기엔 Crontab으로 관리를 자동화하지만, ETL수가 늘어나면 관리를 편하게 할 수 있는 프레임워크 Airflow를 사용 데이터엔지니어의 일주일 (in 유데미) 월요일 , "sprint 계획.. 2021. 8. 15.
[데엔스터디1] 데이터팀과 데이터엔지니어 데이터엔지니어링 스타터 키트 -1주차 리뷰 아래의 내용은 직접 유료강의를 수강하고, 배운점 및 추가로 공부한 내용을 기록한 내용입니다. 프로그래머스에서 진행하는 실리콘밸리에서 날아온 데이터엔지니어링 스타터키트 강의추전! 1.강의소개 강사 및 수강생 소개 배움의 패턴 공부하는 시간만큼 실력이 늘다가 언젠가 정체기가 온다 -> 그때를 잘 버텨야한다! 어떻게 이겨낼 것인가? 버팀, 적어도 3~6개월 풀타임공부. 내가어디에서 막혔는지 자문하고 질문하기 잘하는 사람 보고 기죽지 않기, 남하고 비교하지 않기 [요즘 나의 생각] 사실 요즘 '질문을 통해서 성장한다' 는 역시나 진리구나.. 를 다시한번 생각하게 되었다. 반전이게도 내가 성장하기보다 타인을 통해서 깨닫고 반성하게 되었다. 다른 교육강의를 들으면서 프로젝.. 2021. 8. 15.
[데엔스터디0] 신청계기와 커리큘럼 그리고 얻고 싶은 것! 데이터엔지니어링 스타터 키트 후기 어떻게 알게 되었는가? 나는 처음부터 데이터엔지니어링에 관심이 많았다. 그래서 데이터엔지니어 채용 / 데이터엔지니어 신입 / 데이터엔지니어 취업 이렇게 자주 검색하고 후기를 찾아본다. 그러던 중에 이분의 후기를 알게 되었다. 데이터엔지니어로 취업하기까지 회고록을 작성하였는데 여기에서 이분이 수강하셨다고 봐서 알게되었다! 그리고 알고보니 실제로 데이터엔지니어 현직자 사이에서도 만족도가 높은걸로 유명한 강의였다! 기대되는 커리큘럼 프로그래머스 데이터엔지니어 스터디 (실리콘밸리에서 날아온 데니어링 스타터 키트) 스터디는 한기용님이 진행해주시고, 비록 6주동안 진행되는거지만 생각보다 구성이 알찬것 같다. 간략하게 커리큘럼을 살펴보면 이렇다. 특히 데이터웨어하우스로는 Redshi.. 2021. 8. 14.
[책정리] 빅데이터를 지탱하는 기술 6.1 Spark를 사용한 트위터분석 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터6. 빅데이터 분석 기반의 구축 6-1. 스키마리스 데이터의 애드훅분석 6-2. 하둡에 의한 데이터파이프라인 6-3. 워크플로 관리도구에 의한 자동화(airflow) 6-4. 클라우드 서비스에 의한 데이터파이프라인 아래의 내용은 실제 AWS의 EC2를 사용하여 Linux환경에서 직접 실습해본 내용입니다. 1.스키마리스 데이터 수집하기 데이터수집 : 스트리밍API를 사용한 트윗 데이터 https://developer.twitter.com/en/docs 트위터에 흘러가는 트윗을.. 2021. 7. 16.
[책정리]빅데이터를 지탱하는 기술 5.3 스트리밍형 데이터플로우 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터5. 빅데이터의 파이프라인 5-1. 워크플로관리 5-2. 배치형의 데이터플로우 5-3. 스트리밍형의 데이터플로우 배치처리 VS 스트림처리 배치처리 도달한 데이터를 분산스토리지에 보관하고, 정기적으로 추출하여 분석할 수 있도록 데이터를 처리한다. 데이터가 영속적으로 보존되기 때문에 몇번이고 재실행가능, 장기적인 데이터분석을 예상하여 집계효율이 높은 열지향 스토리지 구축 가능 다만 데이터가 분석할 수 있게 될때 즉 데이터를 모아서 열지향 스토리지를 구축할때 까지 시간이 걸린다... 2021. 7. 11.
[책정리]빅데이터를 지탱하는 기술 5.2 배치형의 데이터 플로우 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다) 하 면접이랑 코딩테스트를 준비하면서 병행하지 못해 아직도 못 끝내고 있다...얼릉 끝내야하는데.. 목차 챕터5. 빅데이터의 파이프라인 5-1. 워크플로관리 5-2. 배치형의 데이터플로우 5-3. 스트리밍형의 데이터플로우 챕터6. 빅데이터 분석 기반의 구축 6-1. 스키마리스 데이터의 애드훅분석 6-2. 하둡에 의한 데이터파이프라인 6-3. 워크플로 관리도구에 의한 자동화(airflow) 6-4. 클라우드 서비스에 의한 데이터파이프라인 복잡한 텍스트처리나 다단계의 데이터파이프라인을 .. 2021. 7. 11.
[책정리]빅데이터를 지탱하는 기술 5.1 워크플로 관리 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터5. 빅데이터의 파이프라인 5-1. 워크플로관리 5-2. 배치형의 데이터플로우 5-3. 스트리밍형의 데이터플로우 정기적인 데이터관리를 자동화하여 안정된 배치처리를 실행하기 위해 워크플로 관리도구 도입 아, 아무래도 기존 데이터웨어하우스, 데이터마트보다 덜 접해본 개념이다보니 너무나도 생소하고 낯설다.. 그래서 이해가 되지 않는 부분이 꽤나 많았다... 워크플로 관리 워크플로 관리란? 정해진 업무를 원활하게 진행하기 위한 구조 정해진 스케쥴에 따라 자동으로 실행되도록 하는 자.. 2021. 7. 5.
[책정리] 빅데이터를 지탱하는 기술 4.4 비구조화 데이터 분산스토리지 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터4. 빅데이터의 축적 4-1. 벌크형과 스트리밍형 데이터의 수집 4-2. 메세지 배송의 트레이드 오프 4-3. 시계열데이터의 최적화 4-4. 비구조화 데이터의 분산 스토리지 (Dynamodb/Cassandra/MongoDB/ElasticSearch/Splunk) 비구조화데이터 = 비정형데이터 = NoSQL 데이터베이스에 저장하는 데이터들 [NoSQL 데이터베이스의 예] 분산key-value 스토어 : DynamoDB 와이드칼럼 스토어 : Cassandra 도큐먼트 스토어 :.. 2021. 6. 27.