바로가기 메뉴
메인 메뉴로 바로가기
본문으로 바로가기

프로그램 TRACK

DAY 2 09.30 (화) TRACK 1 세션 2 11:00 ~ 11:45

Vectorized Processing in a Nutshell

데이터베이스 시스템 및 대용량 데이터 처리 분야에서 크게 관심을 받고 있는 Vectorized Processing의 개념, 동기 및 내부 동작 원리를 설명하고 Apache Tajo에서의 Vectorized Processing 구현 계획과 프로토타입에 대해 소개합니다. 발표 배경으로 Modern CPU 구조와 특징 (CPU cache, SIMD, CPU pipelining 등) 및 성능과 성능에 미치는 영향을 간단한 코드와 함께 설명합니다. 그리고 데이터베이스 처리 모델이 90년대 기술부터 현재까지 어떻게 CPU를 잘 활용할 수 있도록 진보하였는지 데이터베이스 처리 모듈의 샘플 코드 예제와 함께 설명합니다. 최신 처리 모델인 Vectorized Processing의 개념을 설명하고 코드 샘플을 통해 어떻게 이 모델이 Modern CPU에서 어떻게 성능향상을 가져오는지 설명합니다. 마지막으로 Apache Tajo에서 계획하고 있는 Vectorization 엔진을 특징과 차별점을 소개하고 겪어온 challenge와 해결책을 소개합니다. 이 발표는 Amazon의 Redshift, HP Vetica와 같은 신흥 DBMS와 Hive, Tajo등에서 채택한 최신 데이터 처리기술 트렌드를 소개하고 일반 사용자들에게 기술을 쉽게 이해시키는 것을 주 목적으로 합니다.

발표자 소개 김형준 그루터
2006년부터 Hadoop 기반의 분산 컴퓨팅 및 빅데이터 처리 플랫폼을 연구 및 개발하고 있으며 Hadoop 기반 NoSQL 솔루션인 Neptune을 개발하였으며, 최근에는 Tajo 프로젝트를 기업에 적용하는 과제를 진행하고 있으며 Apache Tajo 프로젝트의 커미터로 활동하고 있다. 삼성SDS, NHN을 거쳐 현재에는 Gruter에 근무하고 있으며 Hadoop 기반 다양한 프로젝트를 수행하고 있다.
강연 대상
데이터베이스 시스템 개발자, 저수준 시스템 개발자, 빅데이터 관심자, SQL-on-Hadoop 관심자
발표 자료
동영상