강의 계획서

Hadoop과 Spark를 사용한 빅데이터 분산 처리

목 표 :

본 과목을 통해 수강생들은 빅 데이터의 전반적인 기술의 이해와 이와 관련된 기술에 대해서 배우게 된다. 대부분의 수업이 이론과 실습위주로 진행된다. 본 과목은 Virtual box를 통해 Hadoop와 Spark를 중심으로 빅데이타베이스를 저장 및 처리, 분석 기술등을 두룬다. 또한, 빅데이타의 시각화와 인공지능 기법인 러닝 머신도 다루게 된다.

이를 위해 본 과목의 목표는 다음과 같다.

– 빅데이타 개요

– 빅데이타베이스 저장 설치 및 운영 기술

– Hadoop, Spark 설치 및 운영 기술

– Hadoop 기반의 인공지능(러닝 머신등)

주교재 : “하둡과 스파크를 활용한 실용 데이터 과학”,

• 저 자 : 이춘호 옮김

• 출판사 및 발행년도 : 길벗, 2017년

• 참고도서 :

1. “빅데이타 컴퓨팅 기술 ”, 한빛미디어, 박두순외 5명, 2014년

2. “실무로 배우는빅 데이터 기술”, 워키북스, 김강원. 2017년

주간 강의 내용

시간강의 내용이론 / 실습
1주1강의 소개이론
2빅데이터 개요이론
3엑셀을 통한 공공 데이타 분석 – 1이론
4엑셀을 통한 공공 데이타 분석 – 2실습
2주5네이버 통한 빅데이터 분석 – 1실습
6네이버 통한 빅데이터 분석 – 2실습
7구글을 통한 빅데이터 분석 실습
8네이버 API를 이용한 빅데이터 분석실습
3주9빅데이타 처리 과정이론
10빅데이타 수집 기술 이론
11Flume 설치 및 데이터 수집 -1이론 및 실습
12Flume 설치 및 데이터 수집 – 2실습
4주13파이썬을 이용한 크롤링 – 1실습
14파이썬을 이용한 크롤링 – 2실습
15분산 파일 시스템 개요실습
16분산 파일 시스템 설치 이론
5주17분산 파일 시스템 운영이론 및 실습
18최근 빅 데이터 저장 기술이론
19Cassandra 설치 이론 및 실습
20Cassandra 운영 – 1실습
6주21Cassandra 운영 – 2실습
22Hadoop 설치 실습
23HDFS 실습 – 1실습
24HDFS 실습 – 2실습
7주25HDFS 실습 – 3실습
26HDFS 실습 – 4실습
27MapReduce 실습 – 1실습
28MapReduce 실습 – 2실습
8주29Spark 설치실습
30Spark 실습 – 1실습
31Spark 실습 – 2실습
32Spark 실습 – 3실습
9주33Spark 실습 – 4이론
34데이터의 시각화실습
35R을 활용한 빅데이타 시각화실습
36Hadoop을 활용한 시각화 – 1이론
10주37Hadoop을 활용한 시각화 – 2실습
38Hadoop을 활용한 시각화 – 3실습
39머신 러닝 / 딥러닝 소개이론
40Hadoop을 활용한 머신 러닝 – 1이론 및 실습
11주41Hadoop을 활용한 머신 러닝 – 2실습
42빅 데이터 예측 모델링이론 및 실습
43분류 vs. 회귀 모델 평가이론 및 실습
44군집화이론 및 실습
12주45Hadoop을 활용한 군집화 – 1이론 및 실습
46Hadoop을 활용한 군집화 – 2실습
47Hadoop을 활용한 이상 탐지이론 및 실습
48평가  

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다