바로가기 메뉴
메인 메뉴로 바로가기
본문으로 바로가기

프로그램

  • DAY 2(SDEC)
    10.15(화)
  • TRACK 2
    빅데이터
  • 세션 4
    14:00 ~ 14:45

전체 시간표 보기

임시이미지

Julien Le Dem
Twitter

Parquet: open columnar storage for Hadoop 북마크

We would like to introduce Parquet, a columnar file format for Hadoop.
Performance and compression benefits of using columnar storage formats for storing and processing large amounts of data are well documented in academic literature as well as several commercial analytical databases.
Parquet supports deeply nested structures, efficient encoding and column compression schemes, and is designed to be compatible with a variety of higher-level type systems. It is available as a standalone library, allowing any Hadoop framework or tool to build support for it with minimal dependencies. As of this release, Parquet is supported by Apache Pig, plain Hadoop Map-Reduce, and Cloudera’s Impala, and is being put into production at Twitter.
We will discuss Parquet’s design and share performance numbers.

하둡을 위한 컬럼저장 포맷인 Parquet (파케이)을 소개한다.

대규모 데이터 저장과 처리 용도에서의 컬럼 저장 방식의 성능과 압축효율성의 장점은 이미 사용 분석 데이터베이스는 물론 학술 논문을 통해서도 잘 알려져 있다.Parquet는 깊숙한 nested 구조, 효율적인 인코딩, 컬럼 압축 방식들을 지원하고, 다양한 상위 애플리케이션/시스템들과 호환될 수 있도록 설계되어 있다. 독립적인 라이브러리로 쓸 수도 있으며, 다른 하둡 프레임워크나 툴에서 최소한의 의존성을 가지고 파케이를 활용할 수 있도록 되어있다. 최신 릴리스에서 파케이은 아파치 피그, 기본 하둡 map-reduce, Cloudera의 임팔라에서의 작동을 지원하며, 현재 Twitter 내에서 사용되고 있다. 이 세션에서는 Paruqet의 설계와 성능 지표를 소개한다.

발표자 소개
Julien is the lead for Parquet's java implementation. He also leads Data tools development at Twitter and is the Apache Pig PMC Chair. Previously he was a Principal Engineer at Yahoo. His French accent makes his talks attractive.

파케이의 자바 개발의 리더이다. 트위터에서 Data 툴 개발을 리딩했으며, 아파치 Pig의 PMC Chair로 있다. 이전에는 야후의 수석 엔지니어였다. 발표에서는 그의 매력적인 프렌치 억양을 들을 수 있을 것이다.
강의대상