본문 바로가기

분류 전체보기545

🌲Parquet(파케이)란? 컬럼기반 포맷 장점/구조/파일생성 및 열기 어떻게 알게 되었나?보통 수집한 데이터들은 정형데이터, 비정형데이터에 따라 RDB나 NoSQL로 저장했다.그런데 데이터레이크를 만들면서 객체스토리지인 s3에 데이터를 저장해야했다. 사실 처음엔 조금 당황했다. 엥? 어떻게 저장해야하는거지? 다른형태로 저장하는건가? 그 기술에는 parquet 데이터 형식이 있었다. Parquet (파케이) 데이터를 저장하는 방식 중 하나로 하둡생태계에서 많이 사용되는 파일 포맷이다. 빅데이터처리는 많은 시간과 비용이 들어가서 빠르게 읽어야하고, 압축률이 좋아야하고, 특정언어에 종속되지 않아야한다. 이러한 특징을 가진 포맷으로 Parquet(파케이), ORC파일, avro(에이브로) 가 있다. 파케이의 역사 실제로 parquet(파케이)는나무조각을 붙여넣은 마룻바닥이라는 .. 2021. 6. 26.

JSONPath 라이브러리와JSON파싱(load/dump/loads/dumps) 어디서 알게 되었나? 프로젝트를 진행하다가 jsonpath라는 라이브러리를 써야해서 추가로 알아보았따. s3로 datalake를 구현하면서 계층구조를 가지고 있는 api데이터를 jsonpath를 사용해서 변형했다. 예를 들면 이런식으로 사용했다. 그땐 이렇구나~라고 넘어갔지만 이제 본격적으로 알아보자. for track in raw['tracks']: # i는 하나의 트랙 #s3에 넣기 위한 flat한 데이터로 변환 top_track = {} for k, v in top_track_keys.items(): value = jsonpath.jsonpath(track, v) # 해당 위치에 데이터가 없으면 False를 리턴(bool type). 이럴 경우 다음 컬럼으로 넘어감 if type(value) == .. 2021. 6. 26.

음악추천챗봇6. Athena 쿼리수행 및 음악 유사도 저장 | 데이터마트 athena를 사용해서 s3에 있는 데이터를 가져온다. 2021.06.25 - [Athena] parquet형식 S3 데이터 가져오기 그런데 이렇게 콘솔로 쿼리를 수행 할 수 있지만, 우리는 그 쿼리의 결과를 가지고 유사도를 계산해야한다. 그래서 boto3를 사용해서 쿼리를 돌리고 그 결과를 가지고 유사도를 계산해볼 것이다. 1. Athena 쿼리수행 boto3로 아테나를 수행하기 위해 몇가지 함수를 쓴다. >> boto3에서 확인하기 start_query_execution : 쿼리를 수행하는 함수 -> if r['ResponseMetadata']['HTTPStatusCode'] == 200: 수행성공 -> r['QueryExecutionId'] : 쿼리id -> 매개변수로 get_query_execut.. 2021. 6. 26.

[Athena] parquet형식 S3 데이터 가져오기 현재상황 s3에 parquet형태의 데이터가 저장되어 있다. 이제 이 데이터를 아테나로 가져와서 sql쿼리를 날려볼 것이다. 2021.06.26 - 🌲Parquet(파케이)란? 컬럼기반 포맷 장점/구조/파일생성 및 열기 1. 데이터베이스 생성 앗, 데이터베이스를 생성하기 전에 S3쿼리 쿼리 결과의 출력 위치를 지정해야한다. Amazon S3에서 쿼리 결과 버킷의 위치를 지정하는 경우는 위에 "set up a query result location in Amazon S3" 간다. 그렇지 않으면 아래와 같은 오류가 생긴다.. >>구글링 athena로 처리한 결과를 저장할 폴더를 s3에 따로 생성해두고, 그 위치를 지정한다. 2. 테이블생성 이미 s3에는 dt라는 날짜기준으로 파티셔닝을 해둔 상태. 그래서.. 2021. 6. 25.

[Setting] [VScode] git 터미널 연결하기 (기본 터미널 변경) 1. 터미널에서 Select Default Profile 선택 2. 기본터미널을 GIT bash로 변경 (원래 기존 디폴트는 powershell) 3. 터미널 변경 확인 2021. 6. 24.

[Tool] Typora: 마크다운(markdown)편집기 typora(타이포라) 무료 마크다운 편집기 프로그램 마크다운 문법에 맞춰 작성하면 바로 서식이 적용되서 표시할 수 있음 설치 https://typora.io/ Typora — a markdown editor, markdown reader. Readable & Writable Typora gives you a seamless experience as both a reader and a writer. It removes the preview window, mode switcher, syntax symbols of markdown source code, and all other unnecessary distractions. Instead, it provides a real live preview typora.. 2021. 6. 24.

[책정리] 빅데이터를 지탱하는 기술 4.1 벌크형/ 스트리밍형 데이터 수집 및 전송 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터4. 빅데이터의 축적 4-1. 벌크형과 스트리밍형 데이터의 수집 4-2. 메세지 배송의 트레이드 오프 4-3. 시계열데이터의 최적화 4-4. 비구조화 데이터의 분산 스토리지 (Dynamodb/Cassandra/MongoDB/ElasticSearch/Splunk) 데이터를 수집하고, 분산 스토리지에 저장하기까지 프로세스 데이터전송에 벌크형과 스트리밍형 도구가 사용된다. 어떻게 분산스토리지에 이 데이터들이 저장되는지 그 흐름. 객체스토리지 빅데이터는 확장성이 높은 분산스토리지에.. 2021. 6. 23.

[책정리] 빅데이터를 지탱하는 기술 3.3 데이터마트의 구축 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터3. 빅데이터의 분산처리 3-1. 대규모 분산처리의 프레임워크 3-2. 쿼리엔진 3-3. 데이터마트의 구축 데이터구조화가 잘 되어 있으면 dw와 같은 개념으로 데이터마트를 구축할 수 있다. 팩트테이블과 디멘전 테이블 준비 -> 결합 및 집계 -> 비정규화테이블 생성 디멘전으로 사용하는 데이터는 스냅샷으로 이력 축적, 디멘전의 카디널리티를 줄임 팩트테이블 팩트테이블이 아주 작으면 메모리에 올리면 되지만, 그렇지 않으면 열지향 스토리지에서 데이터를 압축해야함. 팩트테이블의 작성.. 2021. 6. 23.

음악추천챗봇 5.S3에 parquet 형태로 데이터저장 | 데이터레이크 구성 지금까지 스포티파이API를 통해 수집한 데이터들을 RDB(AWS RDS) 와 NoSQL(AWS DynamoDB)에 저장했다. 이번엔 AWS의 Obejct스토리지인 S3에 저장해볼 것이다. 엄밀히 말하면 DataLake를 구현하는 것이다. 모든 정형,비정형데이터들을 그대로 저장하는 것이다. aws에서 S3를 이용해 DataLake를 구축하는 것은 aws공식블로그를 참고했다. 그리고 데이터레이크에 저장된 데이터들로 유사도를 계산해 음악을 추천하는 기능을 구현할 것이다. 유사도를 계산하는 방식은 이곳을 참고했다. 아티스트별 인기 트랙들(top_tracks)의 음원 정보(audio_features)를 이용하여 아티스트간 거리를 계산하고, 사용자가 입력한 아티스트와 유사도가 큰 (=거리가 가까운) 아티스트의 음악.. 2021. 6. 23.

[책정리] 빅데이터를 지탱하는 기술 3.2쿼리 엔진 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터3. 빅데이터의 분산처리 3-1. 대규모 분산처리의 프레임워크 3-2. 쿼리엔진 3-3. 데이터마트의 구축 Hive에 의한 구조화데이터의 생성과 Presto에 의한 대화식 쿼리 데이터마트 구축의 파이프라인 Hive와 Presto를 결합한 데이터프라인 비구조화(비정형) 데이터 -> 구조화(정형)데이터 -> 비정규화 데이터 1. 분산스토리지에 저장된 데이터를 구조화한다. (Hive) 2. 열지향 스토리지 형식으로 변환 및 저장 3. 완성한 구조화 데이터를 결합 및 집약하여 비정.. 2021. 6. 22.

이전 1 ··· 25 26 27 28 29 30 31 ··· 55 다음

티스토리툴바