분류 전체보기545 [책정리]빅데이터를 지탱하는 기술 3.1 대규모 분산 처리의 프레임워크 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터3. 빅데이터의 분산처리 3-1. 대규모 분산처리의 프레임워크 3-2. 쿼리엔진 3-3. 데이터마트의 구축 데이터 처리를 분산하기 위해서 그 실행을 관리하기 위한 프레임워크, Hadoop과 Spark 구조화 데이터 vs 비구조화 데이터 구조화데이터(정형데이터) : 테이블의 칼럼명, 데이터형, 관계와 같은 스키마가 명확하게 정의된 데이터 비구조화데이터(비정형데이터) : 텍스트, 이미지,동영상 등 스키마가 없는 데이터 스키마리스 데이터(반정형데이터) : CSV,JSON,XML등.. 2021. 6. 22. [python] String을 식으로 반환해주는 eval() 함수 eval(표현식) 매개변수로 받은 String형식의 expression(식)을 실행결과로 반환하는 함수 즉, 하나이상의 값으로 표현될 수 있는 코드를 바로 값으로 반환해주는 함수이다. 예를 들어 eval("1+2") : 1+2 자체가 expression이지만 그 결과값인 3을 반환한다. eval("abs(-8)") : 절대값을 반환해주는 abs표현식의 결과인 8을 반환한다. 보통 input()처럼 간단한 입출력을 실행할때, 문자열을 식으로 입력해서 해당식의 실행결과값을 반환할때 쓰인다. 표현식이 문자열타입인데도 불구하고 eval()을 사용하면 그대로 연산값을 얻을 수 있는 편리함이 있다. x=eval(input("문자열을 입력하세요")) print(x) //입력한 문자 하지만, 사용자가 마음대로 프로그램.. 2021. 6. 22. [책정리]빅데이터를 지탱하는 기술 2.4 데이터마트의 기본구조 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터2. 빅데이터의 탐색 2-1. 크로스집게계의 기본 2-2. 열지향 스토리지에 의한 고속화 2-3. 애드혹 분석과 시각화 도구(주피터/Redash/Superset/Kibana) 2-4. 데이터마트의 기본구조 BI도구에서 대화형으로 데이터를 참고하려고 하면, 시각화에 필요한 정보만 모든 데이터마트가 필수적이다. 그렇다면 데이터마트를 어떻게 설계하나? 시각화에 적합한 데이터마트 OLAP OLAP개념 추가로 살펴보기 2020.01.17 - OLAP/OLTP/DW/ETL 용어정리 +.. 2021. 6. 19. [책정리]빅데이터를 지탱하는 기술 2.3 애드혹 분석과 시각화도구 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터2. 빅데이터의 탐색 2-1. 크로스집게계의 기본 2-2. 열지향 스토리지에 의한 고속화 2-3. 애드혹 분석과 시각화 도구(주피터/Redash/Superset/Kibana) 2-4. 데이터마트의 기본구조 이번에는 시각화 도구의 특징 알아보기 Jupyter NoteBook(주피터) 데이터를 찬찬히 수작업으로 살펴보는 애드훅 분석을 한다면? 대화형 실행환경 원하는 데이터가 어디에 있는지도 모르고, 집계시간이 얼마나 걸리는지도 알지 못하는 상황에서 시행착오를 거치며 데이터를 살.. 2021. 6. 19. 음악추천챗봇 4.2 DynamoDB 데이터저장 및 1차 테스트 완료 spotify API로 얻는 결과들을 AWS 데이터베이스에 저장하는 단계이다. 이번엔 top track 정보를 dynamodb에 저장해둘 것이다. 아 그리고 잊을뻔했는데 이번 프로젝트의 목표는 데이터파이프라인 구축이다. 그리고 스포티파이 API로 필요한 데이터들을 수집하고, MYSQL, DynamoDB, S3까지 다양한 데이터저장소를 사용해서 저장하고, 사용해보는 것이다. DynamoDB에 데이터 insert 테이블명 : artist_toptracks 파티션키 : track_id 스포티파이API를 통해 읽어온 데이터를 그냥 그대로 통째로 넣어도 되긴 하지만, 나는 뭔가 필요한 데이터들만 뽑아서 쓰고 싶었다. 그러다보니 item이 될 데이터 json형식을 만들고, 그대로 put_item했다. 데이터 ins.. 2021. 6. 19. [책정리]빅데이터를 지탱하는 기술2-2.열지향 스토리지에 의한 고속화 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터2. 빅데이터의 탐색 2-1. 크로스집게계의 기본 2-2. 열지향 스토리지에 의한 고속화 2-3. 애드혹 분석과 시각화 도구(주피터/Redash/Superset/Kibana) 2-4. 데이터마트의 기본구조 데이터베이스 지연줄이기 데이터 기반 서비스를 운영하려면, 데이터 마트를 구축하여 초 단위로 처리가 이루어져야 한다. 어떻게 데이터를 빨리 처리하게 만들 수 있는가? 데이터 처리응답이 빠르다 = 대기시간이 적다 = 지연이 적다 = 데이터마트를 만들때 필요한 데이터베이스의 조.. 2021. 6. 18. [책정리]빅데이터를 지탱하는 기술 2-1. 크로스집계의 기본 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터2. 빅데이터의 탐색 2-1. 크로스집계의 기본 2-2. 열지향 스토리지에 의한 고속화 2-3. 애드혹 분석과 시각화 도구(주피터/Redash/Superset/Kibana) 2-4. 데이터마트의 기본구조 크로스집계의 개념 크로스테이블 행과 열이 교차하는 부분에 숫자데이터가 들어가있는 테이블 사람들이 보기 편한 보고서지만, 데이터베이스에서는 다루기 어려운 데이터형식 새로운 행을 추가하긴 쉽지만, 열을 늘리는것이 간단하지 않다. (컬럼과 행으로만 구분) 트랜잭션 테이블 크로스테.. 2021. 6. 18. ⚡[Athena] S3에 저장된 데이터활용하기 | 데이터파티셔닝과 압축 프로젝트를 진행하던 중 athea로 s3에 적재된 데이터들을(데이터레이크) 쿼리해야하는 일이 생겼다. 사실 boto3로 athena를 처리하지만, 실제로 콘솔에서도 익숙해지기 위해 athena를 파볼예정! 로그를 적재하는 목적으로 사용할 수도 있다 -> 다음엔 웹로그를 적재해봐야지! DB에서 로그를 S3에서 동일하게 가져올때 제약이 있다. 로그를 가져올때 조건을 거는부분, 많은 양의 압축된 로그파일을 로드하고, 압축을 푸는데 시간이 많이 소요. 이러한 문제를 아테나를 통해 해결할 수 있다. AWS Athena란? s3에서 표준 SQL을 사용하여 데이터를 쉽게 바로 분석할 수 있는 대화형쿼리서비스 아테나에 데이터가 저장되어 있는 S3를 설정해두고, 테이블 생성후, 쿼리를 실행하면 -> 데이터를 가져올 수 .. 2021. 6. 17. [책정리] 빅데이터를 지탱하는 기술 1-4. BI도구와 모니터링 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터1. 빅데이터의 기초지식 1-1. 빅데이터의 정착 1-2. 빅데이터시대의 데이터분석기반 1-3.스크립트 언어에 의한 특별분석과 데이터프레임 1-4. BI도구와 모니터링 현재상황파악 : 스프레드시트 모니터링 모니터링이란 계획적으로 데이터변화를 추적하는것. 현재상황을 파악하기 위한 하나의 도구로 데이터를 사용한다. 데이터의 변화를 모니터링하고, 만약 예상과 다른 움직임이 있다면 행동을 해야한다. 여기에 사람판단이 필요하다. 데이터에 근거한 의사결정 : KPI모니터링 KPI란 프.. 2021. 6. 17. [책정리]빅데이터를 지탱하는 기술 1-3.파이썬에 의한 데이터처리 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터1. 빅데이터의 기초지식 1-1. 빅데이터의 정착 1-2. 빅데이터시대의 데이터분석기반 1-3.스크립트 언어에 의한 특별분석과 데이터프레임 1-4. BI도구와 모니터링 데이터처리와 스크립트 언어(python) 전처리가 필요한 데이터가 있다. api로 부터 데이터를 얻을 경우 원시데이터를 그대로 bi도구에서 읽을 수 없어 전처리가 필요하다. 이떄 많이 쓰는 것이 파이썬이랑 R. R보다 파이썬이 인기있는 이유? 다양한 분야의 라이브러리 쉽게 사용가능 (수치계산용 : numpy(.. 2021. 6. 17. 이전 1 ··· 26 27 28 29 30 31 32 ··· 55 다음