본문 바로가기

분류 전체보기545

kafka강의4 | 파티셔너(Partitioner)란? 아래의 내용 및 이미지는 [데브원영] 아카피 카프카 for begineers 강의 요약 및 추가 공부한 내용입니다. 파티셔너란? 프로듀셔가 데이터를 보내면 무조건 파티셔녀를 통해서 브로커로 데이터가 전송된다 데이터를 topic의 어떤 파티션에 저장해야할지 결정하는 부분 레코드에 포함된 메세지 키 또는 메시지 값에 따라서 파티션의 위치 결정 파티셔너 기본값 : UniformStickyPartitioner 메세지 키가 있을떄, 없을떄 다르게 동작 메시지 키가 있는 경우,파티셔너에 의해서 특정한 hash값을 생성 이 hash값을 기준으로 어느 파티션에 들어가야할지 결정하게 된다. 동일한 메시지 키를 가진 레코드는 동일한 hash값을 만들기 떄문에 동일한 파티션에 들어감을 보장한다 즉, 동일한 파티션에 순서를 .. 2021. 3. 24.
kafka강의3 | 브로커, 복제, ISR(in-sync-replication) 아래의 내용 및 이미지는 [데브원영] 아파치 카프카 for begineers 강의 요약 및 추가 공부한 내용입니다. 감사합니다. 카프카는 파티션 단위로 분산처리를 수행한다. 이때 분산처리의 핵심은 '복제' -> 카프카의 가용성을 보장하는 가장 좋은 방법 모든브로커에게 데이터를 동일하게 보내는 것이 아니라 master->slave방향으로 데이터를 복제하는 것처럼 수행 브로커(Broker) 카프카가 설치되어 있는 '서버'단위 즉, 브로커1개를 모아서 처리할 수 있는 서버1개라고 볼 수 있을듯하다. 3개이상의 브로커로 클러스터 구성으로 사용하는 것 장 파티션이 1개이고, replication이 1인 topic이 존재하고, 브로커가 3개라면 브로커 3대 중 1대에 해당 topic의 정보(데이터) 저장 repli.. 2021. 3. 24.
kafka강의2 | Topic이란? Pub/Sub 구조 아래의 내용 및 이미지는 [데브원영] 아카피 카프카 for begineers 강의 요약 및 추가 공부한 내용입니다. Kafka의 토픽(Topic)이란? 데이터를 최종적으로 저장하는 곳인데, 데이터를 구분하기 위한 저장소라고 보면 된다. 카프카는 데이터를 주고받을떄 지정된 토픽으로 주고받는다. 데이터가 들어갈 수 있는 용량 토픽은 데이터베이스 테이블이나, 파일시스템의 폴더와 유사한 성질 이 토픽에 프로듀서는 데이터를 넣고, 컨슈머가 데이터를 가져간다. 토픽은 목적에 따라 각각의 이름을 가질 수 있는데 무슨 데이터를 담는지에 따라 명확하게 명명 권장 토픽 내부,파티션 메세지의 분류단위로 하나의 토픽은 여러개의 파티션으로 구성 파티션은 저장소안에 분리된 공간으로 데이터를 더 빨리, 더 많이 보내고 처리하기 위.. 2021. 3. 22.
kafka강의1 | 아파치 카프카(Apache Kafka)란? 나는 개발보다 빅데이터플랫폼,데이터파이프라인 이런 데이터엔지니어쪽을 공부하고 싶다. 하지만 막상 너무 막연해서 매번 무료강의임에도 미뤄뒀는데 갑자기 어느순간 배우고 싶어서 강의를 들었다. 오늘이라도 가끔 시간날때마다 한번씩 보려고 한다... 한번 들어본거랑 아예 모르는거랑은 다르니까.....한번이라도 들어두면 나중에 볼때 다르겠지.. 아래의 내용 및 이미지는 [데브원영] 아파치 카프카 for begineers 강의 요약 및 추가 공부한 내용입니다. 자세한 강의는 위의 연관링크 참고부탁드립니다. 감사합니다. 정의 | 아파치 카프카(Apache Kafka)란? 대용량, 대규모 메시지 데이터를 빠르게 처리하도록 개발된 분산 메시징 플랫폼 즉, 카프카는 어플리케이션간에 메세지를 교환하기 위해 사용되는 메세징 시.. 2021. 3. 22.
[AWS비용] AWS FreeTier 어디까지 무료인가?| 프리티어 사용량 AWS에서 가장 뭐니뭐니해도 중요한건 뭐다? 요 To the 금 프리티어라고해서 그냥 1년내내 모든게 다 무료가 아니라는 사실! 쓰기제한 3. CloudFront 최종 사용자에게 짧은 지연 시간과 빠른 데이터 전송 속도로 콘텐츠를 배포하는 웹 서비스 데이터 송신 50GB까지 무료 HTTP 또는 HTTPS 요청 2,000,000건 4. Glacier 안전하고 안정적인 장기 객체 스토리지 월별 10GB의 Amazon Glacier 데이터 검색이 무료 5.EFS 간편성과 확장성을 갖춘 Amazon EC2 인스턴스용 공유 파일 스토리지 서비스 스토리지 5GB 무료까지 무료 데이터베이스 서비스 1. RDS MySQL, PostgreSQL, MariaDB, Oracle BYOL 또는 SQL Server를 위한 관리.. 2021. 3. 21.
[AWS 계정이동] AWS인프라를 다른계정으로 옮길때 | 이미지 권한수정 새출발 새로시작하는 마음으로 (사실 프티티어 기간만료..로) AWS계정을 또 새로 팠다. 사실 이미 A 계정에서 프로젝트(?)로 사용했던 EC2 이미지들을 보관용으로 매달 3천원씩 나가고 있었다... 그래서 오늘은 나중에 또 찾아볼꺼 같아서 AWS인프라 계정이동에 대해서 정리해볼까한다. 다른계정에 같은 인프라를 쓰고 싶을때!! (EC2한정) 1. 일단 현재 A계정에 있는 AMI들이다. 이걸 B계정으로 옮기려고 한다. (참고로 A계정에는 EC2를 가지고 생성한 AMI만 있는 상황) 2. A계정 이미지권한수정 각 AMI마다 권한을 수정한다. 이미지->각 이미지 우클릭 ->이미지권한수정->AWS번호입력 즉, 이 AMI에 접근할 수 있는 AWS계정번호를 추가하는 것! 이때 옮기고자 하는(목적지?)계정 번호 입력.. 2021. 3. 21.
데이터웨어하우스(Data Warehouse)란? 데이터웨어하우스 정보(data) + 창고(warehouse)가 결합한 의미로 의사결정에 도움을 주기 위해 분석가능한 형태로 변환한 데이터들이 저장되어 있는 중앙저장소 즉, 의사결정에 필요한 데이터가 들어있는 데이터베이스정도가 되겠다. 트랜잭션 시스템, RDB 및 기타 소스의 데이터들이 데이터웨어하우스에 들어간다 어플리케이션이나 운영시스템내부에서 raw data들을 모아두고, 이들 중 분석할 수 있는 데이터들을 창고처럼 쌓아둔 다음에, 이 데이터들을 데이터사이언티스같은 사람들이 BI나 SQL을 이용해서 데이터를 엑세스함 데이터웨어하우스가 왜 필요할까? 쿼리로 그냥DB에 접근헤서 분석하면 되지 않을까? 라는 생각이 들었다. 이런 궁금증을 해소한 자료를 찾았다. 참고출처 : bomwo.cc/posts/Data.. 2021. 3. 16.
데이터파이프라인(datapipeline)이란? 데이터엔지니어의 주요업무 중 하나, 데이터파이프라인 개발특히 이때 데이터는 대용량데이터, 실시간데이터 등등 다양한 데이터이다.데이터파이프라인을 통해 어디에서든지 데이터를 편하게 접근하고, 분석할 수 있게 해준다.  왜, 어디에서, 어떻게 데이터를 수집할 것인가?부터 출발한다데이터를 효과적으로 가져오는것이 data-driven기업의 숙제다. 데이터를 한 지점에서 특정공간까지 가지고 오는데 장애물들이 있기 때문에 이걸 해결하는게 핵심 키.데이터파이프라인 구축 : 데이터의 추출, 변경, 결합, 검증 그리고 적재의 과정을 자동화 하는 것 여러 소프트웨어적인 수동작업들을 제거하고, 데이터가 각 지점을 순조롭게 흐르도록 flow를 만들어 주는 것 심지어 여러 데이터 스트림을 한번에 처리해야하고, 모든종류의 데이터를.. 2021. 3. 10.
데이터엔지니어, 돌고 돌아 다시 확신을 갖게 되다 사실 나는 2017년 어떤 카드사 대외활동을 계기로 데이터관련 분야로 큰 방향은 잡았었다. 처음이였다. 일을 상상하는 것만으로도 가슴이 뛴다고 생각하게 된 것은. 벌써부터 빨리 일 하고 싶다는 마음이 든 것은. 그동안 IT직무에 관해서 늘 회의감이 들기만 했던 나에겐 처음이였다. 바로 이거야! 라고 확신이 든 순간은. 하지만 그때만 해도 내가 알고 있는 데이터분야의 일은 그저 파이썬과 R을 가지고 할 수 있는 '데이터분석' 뿐이였다. 심지어 한창 '빅데이터'가 화두에 오르던 시기였다. 당시 엘리트 경영전공 문과생들의 레벨업 코스였다. 그런데 나는 IT전공이니까 데이터분석보다는 조금 더 데이터관련 전문적인 일을 하고 싶었다. 그때 대외활동으로 직접 카드사의 데이터를 만져볼 기회가 있었는데 정말 신기했다. .. 2021. 3. 10.
Python 주식 자동매매5 - 주식거래 자동화 프로그램 테스트 및 개선사항 1. 테스트 단타종목선정 : 아직도 종목을 선정하지 못해서 실제로 돌려보지 못했다.. 변동성 k 설정 작업스케쥴이 아닌 직접 코드를 수행하는 방식 -> cron방식으로 변경하기? 2. 개선사항 1) 켜놔야하는 윈도우 PC대신 AWS의 lightsail 사용하도록 2) 윈도우 작업스케쥴러 대신 cron이나 eventBridge로 동작하도록 3) 매번 관리자권한으로 실행하는 증권api 접속을 줄이기 위해서 RDBMS에 저장하도록 excelsior-cjh.tistory.com/106?category=975542 3. 주식 데이터를 PostgreSQL에 저장하기 주식 데이터를 PostgreSQL에 저장하기 이전에 포스팅한 2. 주식 분석 개발환경 설정 - 파이썬 환경 설정 및 실행에서 설정한 주식 분석 환경을 .. 2021. 2. 15.