바로가기 메뉴
메인 메뉴로 바로가기
본문으로 바로가기

프로그램 TRACK

DAY 2 09.30 (화) TRACK 3 세션 1 10:00 ~ 10:45

Apache Pig를 위한 Tez 연산 엔진 개발하기

Apache Pig는 petabyte 스케일의 대용량 데이터를 분석할 수 있게 해주는 프로그래밍 언어이자 연산 툴입니다. 최근 하둡 생태계에서 나타난 괄목할만한 변화로 Apache Tez의 등장을 꼽을 수 있는데, Tez는 MapReduce를 대체하는 연산 엔진으로 MapReduce보다 나은 성능과 보다 유연한 DAG (directed acyclic graph) 연산 모델을 제공합니다. Pig-on-Tez 프로젝트는 Pig의 backend 연산 엔진을 Tez로 대체함으로써 피그의 성능을 개선하는 것을 목표로 시작된 커뮤니티 프로젝트로서, 넷플릭스, 링크드인, 야후, 호튼웍스 소속의 5명의 피그 개발자의 협업을 통해 진행되었습니다.

발표자 소개 박철수 Netflix
현재 Apache Pig 프로젝트의 PMC 의장이자, Netflix의 소프트웨어 엔지니어입니다. Netflix에서는 Hadoop, Hive, Pig 등의 오픈 소스 프로젝트를 이용해 클라우드 기반의 빅데이터 분석 플랫폼을 개발하는 일을 하고 있습니다. 캐나다의 워털루 대학에서 Computer Science를 공부했고, 대용량 데이터 프로세싱, 분산 시스템, 클라우드 컴퓨팅 등에 관심이 많습니다.
강연 대상
Apache Pig와 Tez에 대해 배우고자 하는 개발자
발표 자료
동영상