분류 전체보기545 [Docker]빅데이터 분석환경 구성4-Zeppelin0.9 설치 2021.07.27 - [Docker] 빅데이터 분석환경 구성1-Ubuntu&Java설치 2021.07.27 - [Docker] 빅데이터 분석환경구성2-Hadoop 2.7.7 2021.07.27 - [Docker] 빅데이터 분석환경구성3-Spark 3.0설치 2021.07.27 - [Docker]빅데이터 분석환경 구성4-Zeppelin0.9 설치 4.Zeppelin 이어서 spark가 설치된 이미지를 사용해서 컨테이너를 생성한다. 1. 컨테이너 생성 (zeppelin) docker run -it --name 컨테이너이름 image이름 2. zeppelin 설치 2-1. zeppelin 다운 및 압축해제 여기 에서 zeppelin버전을 선택해서 다운받을 링크를 복사한다. wget https://downlo.. 2021. 7. 27. [Docker] 빅데이터 분석환경구성3-Spark 3.0설치 3.Spark 이어서 java,hadoop이 설치된 이미지를 사용해서 컨테이너를 생성한다. 1. 컨테이너 생성 (spark) docker run -it --name 컨테이너이름 image이름 2. spark 설치 및 환경설정 2-1. spark다운 및 압축해제 여기 에서 spark버전을 선택해서 다운받을 링크를 복사한다. wget http://apache.mirror.cdnetworks.com/spark/spark-3.0.3/spark-3.0.3-bin-hadoop2.7.tgz tar xvfz spark-3.0.3.tgz 2-2. 파일이동 및 심볼링크(spark) 등록 압축을 푼 폴더를 홈디렉토리로 이동한다 mv spark-3.0.3-bin-hadoop2.7 /root 그리고 그 경로를 spark라고 심.. 2021. 7. 27. [Docker] 빅데이터 분석환경구성2-Hadoop 2.7.7 이어서 java가 설치된 Ubuntu컨테이너안에 hadoop을 설치해본다. 2. Hadoop 이전에 java까지 설치한 컨테이너에 접속하여 아래의 내용을 진행한다. 1. hadoop설치 및 환경설정 1-1. hadoop 다운 및 압축해제 wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz 1-2. 심볼링크(hadoop) 등록 압축을 푼 폴더를 홈디렉토리로 이동한다 linux폴더이동 mv hadoop-2.7.7/ ~ (root에 저장) 그리고 그 경로를 java라고 심볼링크를 등록한다 1-3.환경변수설정 이제 환경변수를 등록한다 환경변수등록 파일 열기 vi ~/.bashrc vi ~/.bashrc에서 아래와 .. 2021. 7. 27. [Docker] 빅데이터 분석환경 구성1-Ubuntu&Java설치 실행환경을 어디서든지 가능하도록 docker로 이미지만들고, docker허브에 배포하기까지 각각의 이미지를 commit해서 쌓아가는 식. docker를 실행하는 OS는 linux 사전에 아래와 같은 명령어로 docker가 설치되어 있어야한다 sudo yum -y upgrade sudo yum -y install docker docker -v 1. OS(Ubuntu) & JAVA 1-1. ubuntu이미지 받아옴 docker pull ubuntu:18.04 1-2. unbunt접속 docker run --it --name hadoop ubuntu:18.04 컨테이너이름 hadoop 사용한 이미지 ubuntu:18.04 아래와 같은 필요한 패키지 설치 apt-get install net-tools : ifc.. 2021. 7. 27. [Setting] [Intellj] pyspark 환경구성 하기 주피터를 안쓰고, 그냥 intellj에서 바로 spark를 쓸 수 있지 않을까 해서 찾아봤다. 일단 로컬에 spark가 설치되어 있어야한다. intellj에서 경로추가(Project Structure) Add Content Root로 스파크를 설치했을때 지정했던 경로를 추가한다. 참고로, 스파크 실행과 실행경로 설정은 아래에서 확인할 수 있다. 2021.04.22 - Apache Spark 실행하기 | Spark설치와 pyspark사용 (궁금증미해결) Apache Spark 실행하기 | Spark설치와 pyspark사용 (궁금증미해결) 와 이제 본격적으로 spark를 설치해서 해볼 준비가 되었다. 오늘의 목표는 Spark설치하고, RDD 자료구조 파악하기 * pyspark와 spark차이점은? * pys.. 2021. 7. 26. [Spark] Docker로 jupyter에서 spark 환경 만들기 도커확인 docker --version 참고로, 윈도우에서 docker Desktop을 이용했습니다. 주피터 이미지 가져오기 주피터의 이미지는 라이브러리에 따라서 여러개 있다. >> 도커이미지 라인업 확인 jupyter/base-notebook jupyter/minimal-notebook jupyter/r-notebook jupyter/scipy-notebook jupyter/tensorflow-notebook jupyter/datascience-notebook jupyter/pyspark-notebook jupyter/all-spark-notebook 나는 혹시 몰라서 all-spark-notebook 이미지를 사용하기로 했다 docker run -p 8888:8888 -e JUPYTER_ENABLE_.. 2021. 7. 26. [책정리] 빅데이터를 지탱하는 기술 6.1 Spark를 사용한 트위터분석 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터6. 빅데이터 분석 기반의 구축 6-1. 스키마리스 데이터의 애드훅분석 6-2. 하둡에 의한 데이터파이프라인 6-3. 워크플로 관리도구에 의한 자동화(airflow) 6-4. 클라우드 서비스에 의한 데이터파이프라인 아래의 내용은 실제 AWS의 EC2를 사용하여 Linux환경에서 직접 실습해본 내용입니다. 1.스키마리스 데이터 수집하기 데이터수집 : 스트리밍API를 사용한 트윗 데이터 https://developer.twitter.com/en/docs 트위터에 흘러가는 트윗을.. 2021. 7. 16. [Pandas 데이터전처리] 3-2.Dataframe 조작함수2 apply,cut,set_index DataFrame으로 데이터를 조작하기 위한 여러가지 함수의 사용방법 데이터엔지니어링/데이터사이언티스트 교육을 통해 배운내용을 복습하고, 추가로 공부한 내용을 정리하였습니다. 아래의 주피터내용은 여기 깃허브에서 확인할 수 있습니다. 6. 동일한 연산반복 : apply() 동일한 연산을 모든열에 혹은 모든 행에 반복 적용하고자 할때 사용 apply(반복적용할 함수, axis=0/1) : 열마다(0), 행마다(1), 생략시 기본값0 집계함수는 행/단위 백터화연산을 수행하기 때문에 굳이 apply()를 쓸 필요가 없다. lambda 함수나 사용자 정의 함수를 각 열 또는 행에 일괄 적용시키기 위해 사용 7. 데이터변형(관측데이터->범주형데이터) : cut(), 카테고리객체 값의 크기를 기준으로하여 카테고리 값.. 2021. 7. 15. [Pandas 데이터전처리] 3-1.Dataframe 조작함수1. value_counts(), 정렬 DataFrame으로 데이터를 조작하기 위한 여러가지 함수의 사용방법 데이터엔지니어링/데이터사이언티스트 교육을 통해 배운내용을 복습하고, 추가로 공부한 내용을 정리하였습니다. 아래의 주피터내용은 여기 깃허브에서 확인할 수 있습니다. 1. 데이터개수세기 : count() NaN값은 세지 않는다. 2. 카테고리값 세기 : value_counts() 각각의 값이 나온 횟수를 센다. 파라미터 normalize=True 를 사용하면 각 값 및 범주형 데이터의 비율을 계산 - 시리즈에서 카테고리값 세기 - 범주형 데이터에서 카테고리값 세기 - 데이터프레임에서 카테고리값 세기 3. 데이터정렬 - 시리즈에서 데이터 정렬 sort_index() : 인덱스를 기준으로 정렬 sort_value() : 데이터 값을 기준으로 .. 2021. 7. 15. [Pandas 데이터전처리] 2-2.Pandas 데이터구조(Dataframe 인덱싱) pandas의 기본적인 데이터구조인 Series와 DataFrame 데이터엔지니어링/데이터사이언티스트 교육을 통해 배운내용을 복습하고, 추가로 공부한 내용을 정리하였습니다. 아래의 주피터내용은 여기 깃허브에서 확인할 수 있습니다. 데이터프레임 인덱싱방법 1. 열기준 인덱싱 2. 인덱서를 사용하지 않는 행기준 인덱싱 3. 인덱서를 사용하는 행기준 인덱싱 1. 열기준인덱싱 1) 하나의 열추출 하나의 열을 가지고 오는 방법 : df[컬럼명] -> 그 결과는 시리즈 타입을 가지고 있다. 2) 2개이상의 열추출 데이터프레임으로 리턴받고자 하면 : df[[컬럼명]] -> [컬럼명]을 리스트형태로 사용한다. 컬럼명이 문자열일 경우, 수치인덱스를 사용할 수 없다. 위치인덱싱(index번호로 찾는것) 을 사용할 수 없어.. 2021. 7. 15. 이전 1 ··· 21 22 23 24 25 26 27 ··· 55 다음