바로가기 메뉴
메인 메뉴로 바로가기
본문으로 바로가기

트랙별 보기

전체 시간표 보기
  1. 세션 110:00 ~ 10:45


    Why Every NoSQL Deployment Should be Paired with Hadoop 북마크

    Frequently the terms NoSQL and Big Data are conflated – many view them as synonyms. It’s understandable – both technologies involve the relational data model and spread data across clusters of servers, versus relational database technology which favors centralized computing. But the “problems” these technologies address are quite different. Hadoop, the Big Data poster child, is focused on data analysis – gleaning insights from large volumes of data. NoSQL databases are transactional systems – delivering high-performance, cost-effective data management for modern real-time web and mobile applications; this is the Big User problem. Of course, if you have a lot of users, you are probably going to generate a lot of data. In this session, we will explore why every NoSQL deployment should be paired with a Big Data analytics solution.

    In this session you will learn:
    • Why NoSQL and Big Data are similar, but different
    • The categories of NoSQL systems, and the types of applications for which they are best suited
    • Explore real-world use cases where NoSQL and Hadoop technologies work together

    빅데이터와와 NoSQL이라는 단어는 혼재되어 쓰인다. 많은 사람들이 그것을 비슷한 말로 생각하고 사용한다. 그것은 이해할만한 하다. 이 두 가지 기술은 중앙 집중식 컴퓨팅(centralized computing)을 선호하는 기존의 관계형 데이터베이스와 상반되는 개념으로, 서버 클러스터들에 데이터를 분산시키는 관계형 데이터 모델과 관련이 있기 때문이다.

    그러나 이 두 기술이 실제로 해결하려고 하는 문제는 사뭇 다르다. 빅데이터 기술을 대표하는 하둡은 데이터 분석에 집중되어 있다. 대규모의 데이터에서 인사이트를 얻어내는 것이 목적이다. 반면 NoSQL은 transactional 시스템이다. 최근에 등장한 실시간 웹/모바일 애플리케이션에서 저렴한 비용에 고성능으로 데이터를 관리할 수 있는 방법을 제공한다. 이것은 Big User의 문제다.

    물론, 서비스를 사용하는 유저가 많다면 당연히 많은 데이터가 생성될 것이다. 이 세션에서는 왜 빅 데이터 분석 시스템에 항상 NoSQL이 동반되어 사용되어야 하는지에 대해 알아본다.

    이 세션에서는 다음과 같은 것들을 배우게 될 것이다.

    • 왜 NoSQL과 빅 데이터가 비슷하면서도 다른지
    • NoSQL 시스템의 종류와 애플리케이션의 타입에 따른 최적의 시스템 선택 방법
    • NoSQL과 Hadoop이 함께 사용되고 있는 실제 use case

    Tugdual Couchbase

  2. 세션 211:00 ~ 11:45


    Rise of the (Wimpy) Machines — Datacenter Efficiency with ARM-based Servers 북마크

    The debate of "wimpy" versus "brawny" CPU cores in the datacenter has been on the rise over the last few years. Fueled in part by advancements in mobile device processors, energy-efficient CPU architectures – such as ARM – are seeping into the server market. But what performance can you expect from these servers? And what applications are best suited for these processors? This session will provide an overview of the ARM processor landscape with details into benchmark performance of Calxeda's current and upcoming SOCs. We will also take a look at where these processors excel in real-world applications both today and in the near future.

    최근 몇년간 데이터 센터에서 골리앗과 다윗 (x86 vs. ARM-based)의 CPU core 논쟁은 점점 더 가열되고 있다. 에너지 효율이 좋은 CPU 구조로 모바일 기기에 많이 쓰이는 ARM 같은 프로세서가 서버 시장으로 들어오기 시작하면서 더욱 그렇다. 그렇다면 이러한 서버들에서 어떤 수준의 성능을 기대할 수 있을까? 이런 CPU에 맞는 workload는 어떤 것들이 있을까? 본 세션에서는 ARM 프로세서 진영을 소개하고, 더불어 Calxeda (칼제다)의 현재와 발표될 SOC(system-on-chip) 들의 성능을 자세히 알아본다. 그리고 이런 프로세서들이 현재와 가까운 미래에 실제로 어떤 workload/서비스에서 최고의 성능을 보이며, 어디에 쓰여야 적합한지 살펴볼 것이다.

    John MaoCalxeda

  3. 세션 313:00 ~ 13:45


    How Cloudera Impala has Pushed HDFS in New Ways 북마크

    Cloudera Impala is the first system written on top of HDFS which is capable of providing responses to interactive queries over large data sets in real time. Consequently, the performance characteristics and aspirations of Impala are naturally quite different than those of traditional Map/Reduce workloads which have been running on top of HDFS for years. This has prompted several new developments in HDFS to allow Impala to take full advantage of the hardware resources of a cluster. This talk will provide an introduction to Impala and describe some of the HDFS advancements that we have implemented which were directly motivated by Impala.

    클라우데라 임팔라는 HDFS 위에서 최초로 대규모 데이테 셋에서 실시간의 인터랙티브한 질의가 가능하게 한시스템이다. 따라서, HDFS를 사용하는 기존의 Map/Reduce 시스템과는 상당히 다른 성능 특징과 목적을 가진다. 이런 방향이 서버 클러스터내의 하드웨어들을 최대 가용하기 위한 몇 가지 새로운 기술 실험들을 촉진시켰다. 이 세션은 임팔라를 소개하고, 임팔라의 개발을 통해 구현한 HDFS에서의 진보를 소개한다.

    Aaron T. MyersCloudera

  4. 세션 414:00 ~ 14:45


    Parquet: open columnar storage for Hadoop 북마크

    We would like to introduce Parquet, a columnar file format for Hadoop.
    Performance and compression benefits of using columnar storage formats for storing and processing large amounts of data are well documented in academic literature as well as several commercial analytical databases.
    Parquet supports deeply nested structures, efficient encoding and column compression schemes, and is designed to be compatible with a variety of higher-level type systems. It is available as a standalone library, allowing any Hadoop framework or tool to build support for it with minimal dependencies. As of this release, Parquet is supported by Apache Pig, plain Hadoop Map-Reduce, and Cloudera’s Impala, and is being put into production at Twitter.
    We will discuss Parquet’s design and share performance numbers.

    하둡을 위한 컬럼저장 포맷인 Parquet (파케이)을 소개한다.

    대규모 데이터 저장과 처리 용도에서의 컬럼 저장 방식의 성능과 압축효율성의 장점은 이미 사용 분석 데이터베이스는 물론 학술 논문을 통해서도 잘 알려져 있다.Parquet는 깊숙한 nested 구조, 효율적인 인코딩, 컬럼 압축 방식들을 지원하고, 다양한 상위 애플리케이션/시스템들과 호환될 수 있도록 설계되어 있다. 독립적인 라이브러리로 쓸 수도 있으며, 다른 하둡 프레임워크나 툴에서 최소한의 의존성을 가지고 파케이를 활용할 수 있도록 되어있다. 최신 릴리스에서 파케이은 아파치 피그, 기본 하둡 map-reduce, Cloudera의 임팔라에서의 작동을 지원하며, 현재 Twitter 내에서 사용되고 있다. 이 세션에서는 Paruqet의 설계와 성능 지표를 소개한다.

    Julien Le DemTwitter

  5. 세션 515:00 ~ 15:45


    Cool ideas from RAMCloud, scalable high-performance storage 북마크

    RAMCloud is a scalable, high-performance, general-purpose storage system which keeps all data in DRAM at all times. Our goal is to make it easy for developers to harness the full performance potential of large-scale DRAM storage. RAMCloud fetches data in 5-10 microseconds, it's durable and available, and it's designed to scale to thousands of servers. If successful, RAMCloud will enable new applications that manipulate large-scale datasets much more intensively than has ever been possible before.

    This talk will give an overview of RAMCloud and its most unique research ideas:
    * It structures its memory and backups as a log, enabling fast write performance, high memory utilization, and durability.
    * It recovers failed servers in 1-2s and does so using cheap disks rather than expensive DRAM-based replication.
    * Its name server relies on a new consensus algorithm called Raft, which is equivalent to Paxos but designed for understandability.

    Diego OngaroStanford Univ. PhD

  6. 세션 616:15 ~ 17:00


    Ceph: massively scalable distributed storage 북마크

    Ceph is a massively scalable, open source, distributed storage system. It is comprised of an object store, block store, and a POSIX-compliant distributed file system. The platform is capable of auto-scaling to the exabyte level and beyond, runs on commodity hardware, is self-healing and self-managing, and has no single point of failure. Ceph is in the Linux Kernel and is integrated with many cloud platforms including OpenStack and CloudStack.
    This talk will provide an intro into the Ceph architecture, how it unifies object and block storage for the cloud, a brief overview of the Ceph community, and what to expect from the future of storage.

    쎄프(Ceph): 대규모 분산저장소

    쎄프는 대규모 확장가능한 오픈소스 분산저장소이다. 쎄프는 오브젝트 저장소(key/value store), 블록 저장소(파일시스템 backend storage), 그리고 POSIX를 준수하는 분산파일시스템 모두 사용가능하다. 쎄프는 엑사바이트 레벨 이상으로 자동 확장 및 상용 서버에서 사용이 가능하고, 자동 복구 및 자동 운영 기능이 있으며 SPOF (single point of failure: 한 노드가 죽었을때 시스템 전체가 죽는)가 없다. 쎄프는 리눅스커널에 들어 있으며 오픈스택, 클라우드스택 같은 클라우드 플랫폼에서 지원한다.
    이 세션에서는 쎄프의 구조를 설명하고 쎼프가 어떻게 클라우드 오브젝트저장소와 블록저장소를 일원화시켰는 지를 배울수 있으며, 쎄프 개발자 커뮤니티에 대한 간단한 소개와 미래의 저장소가 가야할 방향을 제시한다.

    Patrick McGarryInktank

  7. 세션 717:15 ~ 18:00


    Haeinsa - HBase 트랜잭션 라이브러리 북마크

    대부분의 NoSQL들은 트렌젝션이나 인덱스 같은 중요한 기능을 제공하지 않아 일반적인 서비스 구현에 어려움을 겪는 경우가 많습니다. 메세지 중심의 서비스이기 때문에 트렌젝션이 굉장히 많이 일어나고 유연한 확장성이 중요했던 비트윈에서는 이 문제를 해결하기 위해 여러가지 노력을 하였고,결국 HBase에서 트렌젝션을 제공해주는 라이브러리인 Haeinsa를 구현하여 실제 서비스에 성공적으로 적용하여 사용하고 있습니다.
    오픈소스로 공개될 예정인 Haeinsa 라이브러리의 동작과 성능에 대해 소개합니다.