Global Knowledge

Cloudera

교육개요

본 과정은 Cloudera Data Science Workbench(CDSW) 에서 Apache Spark을 사용하여 엔터프라이즈 데이터 과학 및 기계 학습에 대해 학습합니다. Spark SQL을 사용하여 데이터 로드, 탐색, 정리, 결합, 분석하고 Spark MLlib를 사용하여 기계 학습 파이프 라인을 지정, 교육, 평가, 조정, 배치합니다. 또한 Spark가 HDFS, YARN, Hive, Impala, Hue 등의 Cloudera 플랫폼의 주요 구성 요소와 Python 또는 R 패키지와 어떻게 통합되는지에 대해서도 학습합니다.
본 교육과정 참가자는 가상의 기술 회사에 대한 현실적인 시나리오 및 데이터 세트를 기반으로 하는 엔드 투 엔드 데이터 과학 및 기계 학습 워크 플로를 학습합니다. 이 자료는 일련의 간단한 강의, 대화 형 데모, 광범위한 실습 및 활발한 토론을 통해 제공됩니다. 데모 및 실습은 Cloudera Data Science Workbench (CDSW)를 사용하여 Python (PySpark 포함)으로 수행됩니다. R (sparklyr 포함)을 사용하는 추가 예제가 제공됩니다.

교육목표

본 과정을 수료하면 아래의 교육 목적을 달성할 수 있습니다.
• Apache Spark를 사용하여 대규모 데이터 사이언스와 머신러닝 워크 플로를 실행하는 방법
• Spark SQL 및 DataFrames를 사용하여 구조화된 데이터로 작업하는 방법
• Spark의 머신러닝 라이브러리인 MLlib 사용 방법
• Spark의 Python API 인 PySpark를 사용하는 방법
• Spark에 대한 dplyr 호환 R 인터페이스 인 sparklyr를 사용하는 방법
• Cloudera Data Science Workbench (CDSW) 사용 방법
• HDFS, Hive 등 다른 Cloudera 플랫폼 구성 요소를 사용하는 방법
• Impala 및 Hue

수강대상

- Python 또는 R을 사용하여 데이터 과학 및 머신 러닝 워크 플로우를 분산 클러스터의 대규모 데이터 세트로 확장 해야하는 데이터 과학자
- 데이터 과학자와 협업하는 데이터 엔지니어, 데이터 분석가, 개발자 및 솔루션 설계자

강의내용

1.데이터 과학 개요
-데이터 과학자가 하는 일
-데이터 과학자가 사용하는 프로세스
-데이터 과학자가 사용하는 도구

2.Cloudera Data Science Workbench (CDSW)
-Cloudera 데이터 소개

3.Science Workbench
-How Cloudera Data Science

4.Workbench Works
- Cloudera Data Science를 사용하는 방법

5.Workbench
-코드 입력
-Getting Help
-Linux 명령 줄 액세스
-Python 패키지 작업
-세션 출력 포맷

6.사례 연구
-DuoCar
-DuoCar 작동 원리
-DuoCar Datasets
-DuoCar 비즈니스 목표
-DuoCar 데이터 사이언스 플랫폼
-DuoCar Cloudera EDH 클러스터
-HDFS
-Apache Spark
-Apache Hive
-Apache Impala
-Hue
-YARN
-DuoCar 클러스터 아키텍처

7.Apache Spark
-Apache Spark
-Spark 작동 방식
-Spark 스택
-Spark SQL
-DataFrames
-Apache Spark의 파일 형식
-텍스트 파일 형식
-Parquet 파일 형식

8.DataFrame 요약 및 그룹화
-집계로 데이터 요약
-Functions
-데이터 그룹화
-데이터 피벗

9.Window Functions
- Window Functions 소개
- Window Specification 생성
- Window Specification에 대한 집계

10. DataFrame 탐색
-빅 데이터에 대한 가능한 워크 플로
-단일 변수
-Categorical 변수
-Continuous 변수
-한 쌍의 변수
- Categorical-Categorical 쌍
- Categorical- Continuous 쌍
- Continuous-Continuous 쌍

11.Apache Spark Job 실행
-DataFrame 오퍼레이션
-입력 분할
-Narrow 오퍼레이션
-Wide 오퍼레이션
-Stages 및 Tasks
-Shuffle

12.텍스트 처리 및 학습 및 Topic Models 평가
- Topic Models 소개
-시나리오
-추출 및 변형 기능
-텍스트 데이터 파싱
-일반적인 (Stop) 단어 제거
-단어의 빈도 세기
- Topic Model 지정
-LDA (Latent Dirichlet Allocation)를 사용하여 주제 모델 학습
- Topic Model 적합 평가
- Topic Model 검토
- Topic Model 적용

13.추천 모델 학습 및 평가
-추천 모델 소개
-시나리오
-추천 모델을위한 데이터 준비
-추천 모델 지정
-Spark 인터페이스 언어
-PySpark
-PySpark를 사용한 데이터 과학
-sparklyr
-dplyr 및 sparklyr
-PySpark와 sparklyr의 비교
-sparklyr가 dplyr과 작동하는 방법
-sparklyr DataFrame 및 MLlib Functions
-PySpark 및 sparklyr를 사용하는 경우

14.CDSW에서 Spark 애플리케이션 실행
-개요
-Spark 애플리케이션 시작
-Spark SQL 데이터 프레임으로 데이터 읽기
-데이터 프레임의 스키마 조사
-DataFrame의 행 및 열 수 계산
-DataFrame의 행 검사
-Spark 애플리케이션 중지

15.Spark SQL DataFrame 검사
-개요
-DataFrame 검사
-DataFrame 열 검사
-프라이머리 키 변수 검사
-Categorical 변수 검사
-Numerical 변수 검사
-날짜 및 시간 변수 검사

16.DataFrames 변환
-Spark SQL DataFrames
-열 작업
-열 선택
-열 삭제
-열 지정
-열 추가
-열 이름 변경
-열 유형 변경

17.Spark 애플리케이션 모니터링, 튜닝 및 구성
-Spark 애플리케이션 모니터링
-DataFrames 유지
-DataFrames 분할
-Spark 환경 구성

18.머신러닝 개요
-머신러닝
-Underfitting 및 Overfitting
-모델 검증
-하이퍼 파라미터
-Supervised 및 Unsupervised 학습
-머신러닝 알고리즘
-머신러닝 라이브러리
-Apache Spark MLlib

19.회귀 모델 훈련 및 평가
-회귀 모델 소개
-시나리오
-회귀 데이터 준비
-특징 벡터 조립
-훈련 및 테스트 세트 생성
-선형 회귀 모델 지정
-선형 회귀 모델 훈련
-모델 매개 변수 검토
-다양한 모델 성능 측정 검토
-다양한 모델 진단 검토
-테스트 데이터에 선형 회귀 모델 적용
-테스트 데이터에 대한 선형 회귀 모델 평가
-선형 회귀 모델 플로팅
-Alternating Least Squuares 사용하여 추천 모델 훈련
-추천 모델 검토
-추천 모델 적용
-추천 모델 평가
-권장 사항 생성

20.머신러닝 파이프 라인 작업
-파이프 라인 스테이지 지정
-파이프 라인 지정
-파이프 라인 모델 훈련
-파이프 라인 모델 쿼리
-파이프 라인 모델 적용

21.러신러닝 파이프 라인 배포
-Python으로 파이프 라인 및 파이프 라인 모델 저장 및 로딩
-Scala로 파이프 라인 및 파이프 라인 모델 로딩
-행 작업
-행 정렬
-고정된 수의 행 선택
-고유한 행 선택
-행 필터링
-행 샘플링
-Missing Values 작업

22.DataFrame 열 변환
-Spark SQL 데이터 유형
-숫자 열 작업
-문자열 열 작업
-날짜 및 타임 스탬프 열 작업
-Boolean 열 작업

23.복잡한 유형
-복잡한 컬렉션 데이터 유형
-Arrays
-Maps
-Structs

24.사용자 정의 함수
-사용자 정의 함수
-Python 함수 정의
-Python 함수를 사용자 정의 함수로 등록
-사용자 정의 함수 적용

25.데이터 읽기 및 쓰기
-데이터 읽기 및 쓰기
-구분된 텍스트 파일 작업
-텍스트 파일 작업
-Parquet 파일 작업
-Hive 테이블 작업
-Object Stores 작업
-Pandas DataFrames 작업

26.데이터 프레임 결합 및 분할
-DataFrame 결합(Joining)
-교차 조인
-내부 조인
-왼쪽 세미 조인
-왼쪽 안티 조인
-왼쪽 외부 조인
-오른쪽 외부 조인
-전체 외부 조인
-DataFrames에 Set Operations 적용
-DataFrame 분할

27.Classification 모델 훈련 및 평가
-Classification 모델 소개
-시나리오
-모델링 데이터 전처리
-라벨 생성
-기능 추출, 변환 및 선택
-훈련 및 테스트 세트 생성
-로지스틱 회귀 모델 지정
-로지스틱 회귀 모델 훈련
-로지스틱 회귀 모델 조사
-테스트 세트에서 모델 성능 평가

28.Grid Search를 사용한 튜닝 알고리즘 하이퍼파라미터
-하이퍼파라미터 튜닝을 위한 요구 사항
-Estimator 지정
-하이퍼파라미터 그리드 지정
-Evaluator 지정
-Holdout 교차 검증을 사용하여 하이퍼파라미터 튜닝
- K-fold 크로스 검증을 사용하여 하이퍼파라미터 튜닝

29.클러스터링 모델 훈련 및 평가
-클러스터링 소개
-시나리오
-데이터 전처리
-특징 추출, 변형 및 선택
-Gaussian 혼합 모델 지정
-Gaussian 혼합 모델 훈련
-Gaussian 혼합 모델 검사
-클러스터 플로팅
-클러스터 프로필 탐색
-Gaussian 혼합 모델 저장 및 로딩

30.sparklyr 개요
-Spark에 연결
-데이터 읽기
-데이터 검사
-dplyr 동사를 사용하여 데이터 변환
-SQL 쿼리 사용
-Spark DataFrames 함수
-Spark에서 데이터 시각화
-MLlib를 사용한 기계 학습

31.추가적인 CDSW 기능소개
-Collaboration
-Jobs
-Experiments
-Models
-Applications

Global Vendors Training

Cloudera

Cloudera Data Scientist Training

교육개요

교육목표

수강대상

강의내용