Global Knowledge

Cloudera

교육개요

본 실습 교육 과정은 개발자가 Apache Spark를 사용하여 고성능 병렬 애플리케이션을 개발하는 데 필요한 핵심 개념과 전문 지식을 제공합니다. 참가자는 Spark SQL을 사용하여 구조화된 데이터를 쿼리하고 Spark Streaming을 사용하여 다양한 소스의 스트리밍 데이터에 대해 실시간 처리를 수행하는 방법을 배웁니다. 또한 개발자는 핵심 Spark를 사용하여 ETL 처리 및 반복 알고리즘을 수행하는 애플리케이션 작성을 연습합니다. 이 과정은 분산 파일 시스템에 저장된 "빅데이터"를 사용하는 방법을 다루고, Hadoop 클러스터에서 Spark 애플리케이션을 실행하는 방법을 다룹니다. 교육 수강 후 참가자는 현업의 실제 과제에 참여할 수 있고, 다양한 사용 사례, 아키텍처 및 산업에 적용되는 빠르고 더 나은 의사 결정 및 대화형 분석을 실행하는 애플리케이션을 구축 할 수 있습니다

교육목표

- Apache Hadoop 에코 시스템이 데이터 처리 라이프사이클에 어떻게 부합하는지
- Hadoop 클러스터에서 데이터를 배포, 저장 및 처리하는 방법
- Hadoop 클러스터에서 Apache Spark 애플리케이션을 작성, 구성 및 배포하는 방법
- Spark 쉘 및 Spark 애플리케이션을 사용하여 분산 데이터를 탐색, 처리 및 분석하는 방법
- Spark SQL, DataFrames 및 Dataset을 사용하여 데이터를 쿼리하는 방법
- Spark Streaming을 사용하여 라이브 데이터 스트림을 처리하는 방법

수강대상

- 프로그래밍 경험이 있는 개발자 및 엔지니어

선수과목

- Scala 또는 Python 프로그래밍 필요
- 리눅스 명령어 기본
- SQL에 대한 기본 지식이 있으면 도움됨

강의내용

1.소개

2.Apache Hadoop 및 Hadoop 에코 시스템 소개
-Apache Hadoop 개요
-데이터 처리
-실습 소개

3.Apache Hadoop 파일 스토리지
-Apache Hadoop 클러스터 구성 요소
-HDFS 아키텍처
-HDFS 사용

4.Apache Hadoop 클러스터의 분산 처리
-YARN 아키텍처
-YARN 작업

5.Apache Spark 기초
-Apache Spark란?
-Spark Shell 시작
-Spark Shell 사용
-데이터 세트 및 데이터 프레임 시작하기
-DataFrame 오퍼레이션

6.DataFrame 및 스키마 작업
-데이터 소스에서 DataFrame 생성
-데이터 소스에 데이터 프레임 저장
-DataFrame 스키마
-Eager 및 Lazy 실행

7.DataFrame 쿼리로 데이터 분석
-Column Expressions을 사용하여 DataFrame 쿼리
-Grouping 및 Aggregation 쿼리
-Joining DataFrames

8.RDD 개요
-RDD 개요
-RDD 데이터 소스
-RDD 생성 및 저장
-RDD 오퍼레이션

9.RDD로 데이터 변환
-변환 함수 작성 및 전달
-변환 실행
-RDD와 DataFrames간 변환

10.쌍 RDD로 데이터 집계
-키-값 쌍 RDD
-Map-Reduce
- 기타 쌍 RDD 오퍼레이션

11.SQL을 사용하여 테이블 및 뷰 쿼리
-SQL을 사용하여 Spark에서 테이블 쿼리
-파일 및 뷰 쿼리
-카탈로그 API

12.Scala에서 Datasets 작업
-Datasets 및 DataFrames
-Datasets 생성
-Datasets 로드 및 저장
-Datasets 오퍼레이션

13.Spark 애플리케이션 작성, 구성 및 실행
-Spark 애플리케이션 작성
-응용 프로그램 빌드 및 실행
-응용 프로그램 배포 모드
-Spark 애플리케이션 웹 UI
-응용 프로그램 속성 구성

14.Spark 분산 처리
-검토 : 클러스터의 Apache Spark
-RDD 파티션
-예 : 쿼리 분할
- Stages 및 Tasks
-작업 실행 계획
-예 : Catalyst 실행 계획
-예 : RDD 실행 계획

15.분산 데이터 지속성
-DataFrame 및 Datasets 지속성
-영구 스토리지 레벨
-Persisted RDD 보기

16.Spark 데이터 처리의 일반적인 패턴
-일반적인 Apache Spark 사용 사례
-Apache Spark의 반복 알고리즘
-기계 학습
-예 : k-means

17.구조적 스트리밍 소개
-Apache Spark 스트리밍 개요
-스트리밍 DataFrames 생성
-DataFrames 변환
-스트리밍 쿼리 실행

18.Apache Kafka를 사용한 구조적 스트리밍
-개요
-Kafka 메시지 수신
-Kafka 메시지 보내기

19.스트리밍 DataFrmes 집계 및 결합
-스트리밍 집계
-스트리밍 DataFrmes 결합

20.결론

21.Apache Kafka를 사용한 메시지 처리
-Apache Kafka란?
-Apache Kafka 개요
-Apache Kafka 확장
-Apache Kafka 클러스터 아키텍처
-Apache Kafka 명령줄 도구