본문 바로가기

🌿 Data Engineering64

[Pandas 데이터전처리] 3-1.Dataframe 조작함수1. value_counts(), 정렬 DataFrame으로 데이터를 조작하기 위한 여러가지 함수의 사용방법 데이터엔지니어링/데이터사이언티스트 교육을 통해 배운내용을 복습하고, 추가로 공부한 내용을 정리하였습니다. 아래의 주피터내용은 여기 깃허브에서 확인할 수 있습니다. 1. 데이터개수세기 : count() NaN값은 세지 않는다. 2. 카테고리값 세기 : value_counts() 각각의 값이 나온 횟수를 센다. 파라미터 normalize=True 를 사용하면 각 값 및 범주형 데이터의 비율을 계산 - 시리즈에서 카테고리값 세기 - 범주형 데이터에서 카테고리값 세기 - 데이터프레임에서 카테고리값 세기 3. 데이터정렬 - 시리즈에서 데이터 정렬 sort_index() : 인덱스를 기준으로 정렬 sort_value() : 데이터 값을 기준으로 .. 2021. 7. 15.

[Pandas 데이터전처리] 2-2.Pandas 데이터구조(Dataframe 인덱싱) pandas의 기본적인 데이터구조인 Series와 DataFrame 데이터엔지니어링/데이터사이언티스트 교육을 통해 배운내용을 복습하고, 추가로 공부한 내용을 정리하였습니다. 아래의 주피터내용은 여기 깃허브에서 확인할 수 있습니다. 데이터프레임 인덱싱방법 1. 열기준 인덱싱 2. 인덱서를 사용하지 않는 행기준 인덱싱 3. 인덱서를 사용하는 행기준 인덱싱 1. 열기준인덱싱 1) 하나의 열추출 하나의 열을 가지고 오는 방법 : df[컬럼명] -> 그 결과는 시리즈 타입을 가지고 있다. 2) 2개이상의 열추출 데이터프레임으로 리턴받고자 하면 : df[[컬럼명]] -> [컬럼명]을 리스트형태로 사용한다. 컬럼명이 문자열일 경우, 수치인덱스를 사용할 수 없다. 위치인덱싱(index번호로 찾는것) 을 사용할 수 없어.. 2021. 7. 15.

[Pandas 데이터전처리] 2-2.Pandas 데이터구조 (DataFrame) pandas의 기본적인 데이터구조인 Series와 DataFrame 데이터엔지니어링/데이터사이언티스트 교육을 통해 배운내용을 복습하고, 추가로 공부한 내용을 정리하였습니다. 아래의 주피터내용은 여기 깃허브에서 확인할 수 있습니다. pandas를 사용하기에 앞서 numpy와 pandas 패키지를 모두 import해야한다. import numpy as np import pandas as pd DataFrame (데이터 프레임) 엑셀의 스프레드시트와 같은 개념으로, 2차원 행렬 데이터에 인덱스를 붙인 구조 (행과 열로 만들어진 2차원 배열) 데이터프레임의 각 열은 시리즈로 구성되어 있다. 1. 데이터프레임 생성 : pd.DataFrame() 데이터프레임을 생성하는 방법은 아래와 같이 4가지 경우 1) 리스트로.. 2021. 7. 15.

[Pandas 데이터전처리]] 2-1.Pandas 데이터구조(Series) pandas의 기본적인 데이터구조인 Series와 DataFrame 데이터엔지니어링/데이터사이언티스트 교육을 통해 배운내용을 복습하고, 추가로 공부한 내용을 정리하였습니다. 아래의 주피터내용은 여기 깃허브에서 확인할 수 있습니다. pandas를 사용하기에 앞서 numpy와 pandas 패키지를 모두 import해야한다. import numpy as np import pandas as pd Series(시리즈) 1차원 배열의 값에 대응되는 인덱스를 부여할 수 있는 구조 1. 시리즈 정의 : pd.Series() python의 list나 numpy가 array인자로 입력된다. 시리즈의 결과는 왼쪽에 index값, 오른쪽에 value가 동시에 확인된다. 왼쪽결과는 일반적인 series를 정의한 경우이고, 오른.. 2021. 7. 15.

[Pandas 데이터전처리] 1. Numpy,Pandas 라이브러리 알아보기 데이터의 가공과 처리에 유용한 python의 라이브러리 데이터엔지니어링/데이터사이언티스트 교육을 통해 배운내용을 복습하고, 추가로 공부한 내용을 정리하였습니다. 파이썬 라이브러리를 활용한 데이터분석의 책 내용과 비슷한 것 같다. Numpy(넘파이) 과학연산을 위한 라이브러리, 리스트, 배열, 매트릭스 연산 등을 빠르게 만들어주는 라이브러리 일반적으로 대규모데이터의 리스트는 중첩된 자료를 처리하는게 느리고 복잡하지만 numpy 라이브러리를 써서 처리 속도를 30~40배 빠르게 할 수 있다! import numpy as np 넘파이 라이브러리를 통해 배열에 접근하는 함수는 다음과 같다. numpy로 1차원 배열접근 numpy로 2차원 배열접근 numpy를 사용해서 array에 접근하면 모든원소에 대해서 조건.. 2021. 7. 15.

[ELK] Flask 웹로그 분석해보기2-Flask 로그남기기 이렇게 docker로 간단하게 elk를 구성했다. 이제 내가 만든 웹서버를 켜서 로그를 보내려고한다. 그러니까 내가 만든 웹서버안에 로그를 남겨두면 된다. 아 그전에 EC2의 스펙을 늘렸다. 이전에 왠지모르게 ELK설치 후 계속 인스턴스가 버벅거렸다. 알고보니 docker로 ELK세팅을 할 경우 메모리가 최소2기가 이상 필요했다. 메모리가 2기가인 t2.small도 버벅거렸다. 그래서 결국 t2.medium 타입으로 인스턴스 스펙을 올렸다. >> elk구성시 물리적인 스펙에 관련해서 여기를 참고했다. Flask 추가설정 일단 테스트페이지에 대한 로그를 남겨두도록 Flask에서 추가로 설정했다. ( 이분 블로그참고) -app.py 수정 : 로그를 가져올 메인py(my_test.py) 를 라우트등록 -log.. 2021. 7. 9.

[ELK] Flask 웹로그 분석해보기1-Docker로 ELK Stack 설치 elk stack에 대해서 간단하게 알아봤으니, 직접 해보려고 한다. 수집할 웹은 이전에 개발했던 뉴스레터 구독서비스를 사용하기로 했다. 큰 로그는 없을것 같긴하지만, 일단 Flask로 개발한 웹서비스가 있으니 일단 해보자! Docker로 ELK Stack설치 ELK Stack 일일이 설치해도 되지만, 두렵고 엄두가 나지 않는다. (세상에서 제일 골치아픈 config..) 그래서 대부분 docker로 설치하는 듯하다. Elastic Search, Logstash, Kibana를 한번에 설치 할 수 있다! 훨씬 설치가 간단하고, 삭제도 깔끔하다. docker를 이용할 수 있는 모든 플랫폼에서 동일한 방식으로 적용이 가능한 이점이 있다 물론 docker말고 직접 레이어별로 설치를 해보면서 구성해볼 수도 있다.. 2021. 7. 6.

📊ELK Stack이란? Elastic Search, Logstash, Kibana ELK를 왜 쓰는가? 로그분석이 왜 필요한가? 사실 내가 진행한 상에선 굳이 로그분석을 할 필요는 없다. 참고한 프로젝트의 키바나 대시보드가 부러웠기에 초기 기획단계에서부터 해보고 싶었던 부분이였다. 뭔가 내가 말하고 상상하던걸 바로 이뤄내는 기분이라 왠지모를 성취감과 뿌듯함이 든다. 그렇다면 ELK를 사용해보고 싶어서 적용하는거긴한데, 실무적으로 왜 로그분석이 필요하고 ELK를 사용해야하는지 먼저 알아보았다. 일반적인 로그는 이렇게 TXT파일로 떨궈서 살펴보기도 한다. 나는 람다를 자주 사용해서 그런지 lambda cloudwatch에 찍히는 로그를 살펴봤지 이렇게 text파일론 보지 못했다. 그런데 이렇게 로그를 따로 관리하지 않고 이렇게 파일에 쌓아두게 되면 아래와 같은 문제점이 생긴다. 로그레벨 .. 2021. 7. 5.

[예정] 객체스토리지와 NoSQL스토리지의 차이점 /CAP정리 ACID특성 트랜잭션 처리에 요구되는 4가지 성질 원시성(Automicity) 일관성(Consistency) 독립성(Isolation) 내구성(Durability) 일반적인 RDB는 ACID특성을 충족하고 있어 신뢰성 있는 트랜잭션 처리를 실현한다. 하지만 ACID특성을 만족하면서 분산시스템을 구축하는 것은 어렵다. 그래서 이러한 한계를 고려해서 다시 만들어진 것이 CAP정리. CAP정리 일관성(Consistency) 가용성(Availabilty) 분단내성(Partition-tolerance) 일반적인 분산시스템에서는 CAP정리를 동시에 충족시킬 수 없어 어느하나가 희생될 수 있다. NoSQL에서는 RDB처럼 반드시 신뢰성 있는 트랜잭션 처리를 수행할 수 있다고는 할 수 없다. NoSQL데이터베이스의 일.. 2021. 6. 27.

🌲Parquet(파케이)란? 컬럼기반 포맷 장점/구조/파일생성 및 열기 어떻게 알게 되었나?보통 수집한 데이터들은 정형데이터, 비정형데이터에 따라 RDB나 NoSQL로 저장했다.그런데 데이터레이크를 만들면서 객체스토리지인 s3에 데이터를 저장해야했다. 사실 처음엔 조금 당황했다. 엥? 어떻게 저장해야하는거지? 다른형태로 저장하는건가? 그 기술에는 parquet 데이터 형식이 있었다. Parquet (파케이) 데이터를 저장하는 방식 중 하나로 하둡생태계에서 많이 사용되는 파일 포맷이다. 빅데이터처리는 많은 시간과 비용이 들어가서 빠르게 읽어야하고, 압축률이 좋아야하고, 특정언어에 종속되지 않아야한다. 이러한 특징을 가진 포맷으로 Parquet(파케이), ORC파일, avro(에이브로) 가 있다. 파케이의 역사 실제로 parquet(파케이)는나무조각을 붙여넣은 마룻바닥이라는 .. 2021. 6. 26.

이전 1 2 3 4 5 6 7 다음

티스토리툴바