관리 메뉴

TEAM EDA

[나는 리뷰어다] 스파크를 활용한 실시간 처리 본문

개인 공간/리뷰

[나는 리뷰어다] 스파크를 활용한 실시간 처리

김현우 2021. 5. 23. 12:11

본 포스터는 한빛미디어에서 [나는 리뷰어다]를 통해 책을 지원받아 작성한 리뷰 포스터입니다. 먼저 저는 대학원생이고 스파크의 경우 아예 처음이었습니다. 

 

1. 소개

Apach Spark는 SQL, 머신러닝 등을 위한 대규모 데이터 처리 분석 엔진입니다. 한마디로 빅데이터를 분석하기 위한 언어입니다. 보통 Hadoop과 스파크 둘 중 하나의 언어를 사용하는데, 구글 클라우드 잼의 글에서는 아래와 같이 비교를 한다고 합니다. 

Hadoop은 주로 디스크 사용량이 많고 맵리듀스 패러다임을 사용하는 작업에 사용됩니다. Spark는 더 유연하지만 대체로 더 많은 비용이 드는 인메모리 처리 아키텍처입니다. 각 기능을 이해하고 있으면 언제 어떤 것을 구현할지 결정하는 데 도움이 됩니다.

출처 : https://cloud.google.com/learn/what-is-apache-spark?hl=ko

책의 구성은 아래와 같이 5개의 부로 구성되어있습니다. 

  • 1부 : 스트림 처리의 기본 개념, 스트리밍을 구현하는 아키텍처의 청사진, 스파크의 내용 
  • 2부 : 구조적 스트리밍, 프로그래밍 모델, 비상태 변환에서 고급 상태 작업에 이르는 스트리밍 애플리케이션 
  • 3부 : 스파크 스트리밍. 구조적 스트리밍과 비슷한 조직에서 스트리밍 애플리 케이션을 생성하는 방법 
  • 4부 : 고급 스트리밍 기술에 대한 개념. 스트림 처리 문제를 해결하고 스파크 스트리밍을 통한 온라인 머신러닝의 제한된 공간을 조사하기 위해 확률적 데이터 구조와 근사 기법의 사용 
  • 5부 : 아파치 스파크 이외의 스트리밍 방식 

책의 언어는 자바의 함수형 언어인 스칼라로 구성되어있습니다. 

2. 후기

결론부터 말하면 아쉬움이 남는 책이었습니다. 제가 스칼라도 모르고 스파크도 모르기에 공부하는데 어려움이 컸습니다. 아는 게 없어서인지 글 자체가 아예 안 읽히는 느낌이었습니다.