SDEC 2011
하루 반 동안은 정식 컨퍼런스를 진행하며 정식 컨퍼런스 후에는 Code camp형식의 자율적인 토론이 진행됩니다. 외국인 스피커의 세션은 참석자들의 편의를 위해 동시통역이 제공됩니다.
주제 | 발표자 | |
---|---|---|
09:00am | 등록 및 입장 | |
09:45am | Keynote | 송창현 (NHN) |
10:00am | TBD | Simone Brunozzi (Amazon) |
10:45am | nStore - A new approach for data distribution and scalability | 김효 (NBP) |
11:30am | 휴식 | |
11:50am | NoSQL Data Modelling: Concepts and Cases | Shashank Tiwari (Treasury of Ideas) |
12:35pm | 점심 (점심제공) | |
1:20pm | Arcus - NHN memcached cloud | 박준현 (NHN) |
2:05pm | Replacing Legacy Telco DB/DW to Hadoop and Hive | 조준호 (NexR) |
2:50pm | 휴식 | |
3:10pm | Going by TACC: beyond key-value to fault-tolerant stores with easily customizable semantics | Henk Goosen (OptumSoft) |
3:55pm | Big Engineer vs. Small Entrepreneur | 조지훈 (Waplestore) |
4:40pm | 휴식 | |
5:00pm | S/W 기반 대용량 파일 고속 전송 플랫폼 "래피던트" | 송성학 (삼성SDS) |
5:45pm | Implementing me2day friend suggestion | 강호성 (NHN) |
6:30pm | 저녁 | |
7:00pm ~ | BOF
|
주제 | 발표자 | |
---|---|---|
09:00am | 등록 및 입장 | |
10:00am | Realtime Big Data at Facebook with Hadoop and HBase | Jonathan Gray (Facebook) |
10:45am | GLORY-FS(Scalable Distributed Filesystem) - Development and Service Experiences | 진기성 (ETRI) 이대우 (KTH) |
11:30am | 휴식 | |
11:50am | Using Couchbase for Social Game Scaling and Speed | Chiyoung Seo & Matt Ingenthron (CouchBase) |
12:35pm | 점심 | |
01:20pm | Introducing Doozer - a consistent, fault-tolerant data store | Keith Rarick (Heroku) |
02:05pm | Major use cases of Mahout | Robin Anil (Apache Committer) |
2:50pm | 휴식 | |
3:10pm | Data In, Data Out: Creating Large scale data products at LinkedIn | Richard Park (LinkedIn) |
3:55pm | 경품추첨 | |
4:00pm ~ 5:00pm | BOF
|
Session details
소셜 게임은 일반적으로 많은 동시 사용자들을 수용해야 하고 좋은 성능을 항상 제공해야 하는
요구사항들을 가지고 있다. 소셜 게임은 항상 사용자들과의 상호 작용을 통해서 운영이 되기 때문에 사용자들의 게임 관련 정보를
데이터베이스로부터 빠르게 읽고 쓰는 것이 게임 개발자들이 해결해야 할 가장 중요한 직면 과제들 중의 하나가 되고 있다.
Tribal Crossing 게임 회사 개발자들 또한 Animal Party 라는 페이스북 게임을 개발하고 사용자들의 수가 급속히
증가하면서 이러한 문제들에 직면하게 되었다. 더구나 기존 관계형 데이터베이스 시스템의 유지 보수 비용 또한 사용자의 증가로
꾸준히 증가하면서 비용 절감의 문제도 해결해야 하는 상황이 발생 하였다. 이러한 문제들을 해결하기 위하여 Tribal
Crossing 회사는 여러 NoSQL 제품들을 성능 평가하였고 Couchbase 회사의 오픈 소스 NoSQL 데이터베이스 Membase가
그들의 요구 조건들의 대부분을 만족하다는 사실을 알게 되었다. Couchbase의 Membase 제품은 우선 설치하고 사용하기가
매우 쉬어서 Tribal Crossing 개발자들이 소셜 게임 개발에만 집중할 수 있게 하여서 게임 출시 시기를 앞당길 수 있게
하였다. 또한, Membase의 고성능 read/write 기능은 Tribal Crossing 회사가 그들의 게임 사용자들에게
짧은 응답시간을 제공할 수 있게 하였다. 마지막으로, 실시간에 새로운 서버들을 Membase 클러스터에 추가하는 기능은
Tribal Crossing 게임들의 확장성을 보장하는 역활을 하였다. 위에서 열거한 Couchbase에서 제공하는 NoSQL
솔루션을 통해서 Tribal Crossing 소셜게임 회사는 좀 더 빠르고 쉽게 그들의 메인 게임 Animal Party 를 휠씬
적은 비용으로 성공적으로 출시를 하게 되었다.
개인화된 웹 환경(PWE, personalized web environment)과 SNS(social networking service)가 성장함에 따라, NHN은 네이버미(NAVER.me)
라는 SNS 서비스를 개발하였습니다. 네이버미는 이메일 알림과 메시지 및 네이버의 모든 소셜 기반 서비스(블로그, 카페)에서
생산된 덧글 같은 사용자 데이터를 수집하여 한 화면에 모든 내용을 사용자 친화적인 방식으로 보여주는 서비스입니다. 이러한 개인화된
서비스는 거대한 데이터를 다루기 때문에 확장성과 높은 수준의 가용성이 요구됩니다. 뿐만 아니라 연결된 어플리케이션에 존재하는
legacy 코드에 대한 지원을 유지하고, RDBMS를 사용하는 백엔드 처리 시스템을 위한 호환된 인터페이스도 제공해야 합니다.
이러한 요구사항을 만족시키기 위해 NHN은 RDBMS와 NoSQL의 장점을 모두 갖춘 nStore라는 새로운 분산 저장 시스템을
개발하였습니다. nStore는 다음과 같은 특징을 지닙니다.
- 부하 분산 작업 동안, Container 그룹이라 불리는 단위로 데이터가 분산됩니다.
- 전통적인 RDBMS보다 빠르지만, Memcached나 Arcus 등의 순수한 메모리 캐시 시스템보다는 느립니다.
- 영속적인 저장 공간으로서 무제한의 용량이 제공됩니다.
- 기반 저장 엔진으로 RDBMS를 사용하기 때문에 nSQL이라는 SQL-like language를 지원합니다.
Arcus는 메모리 기반 Key-Value 저장소인 Memcached를 기반으로, NHN 서비스들의 요구 사항들을 반영하여 개발한 data caching cloud입니다. Arcus는 ZooKeeper를
사용하여 클라이언트와 서버사이에 추가적인 network latency를 제거하면서도 caching server들의 추가 및
삭제가 유연한 cloud architecture를 가집니다. 또한, 최근 여러 서비스들에서 요구되고 있는 data
collection의 저장 및 연산 기능을 지원하기 위하여 list, set, b+tree 구조를 제공합니다.
TACC is a language, compiler, and run-time environment
that expedites the development of scalable, fault-tolerant distributed
applications that require high and predictable performance. The TACC
programming model separates state from logic: state is stored in a
collection of distributed in-memory database instances, while logic is
performed by distributed agents that react asynchronously to changes in
objects stored in the database instances. Agents can selectively
subscribe to updates using a fine-grain hierarchical directory system to
mount objects into a local namespace. TACC provides performance
comparable to hand-coded C while reducing the actual source code size to
a fraction of that. We describe the implementation and performance of a
scalable and fault tolerant key-value store using TACC, pointing out
the benefits realized by using TACC's strong, user-defined types and
triggering/notification.
Facebook has one of the largest Apache Hadoop data warehouses in the world, primarily queried through Apache Hive
for offline data processing and analytics. However, the need for
realtime analytics and end-user access has led to the development of
several new systems built using Apache HBase.
This talk will cover specific use cases and the work done at Facebook around building large scale, low latency and high throughput realtime services with Hadoop and HBase.
This includes several significant contributions to existing projects as well as the release of new open source projects.
This talk will cover specific use cases and the work done at Facebook around building large scale, low latency and high throughput realtime services with Hadoop and HBase.
This includes several significant contributions to existing projects as well as the release of new open source projects.
SNS 분야에서 친구추천 알고리즘과 몇몇 SNA 알고리즘들의 응답속도는 친구관계수의 제곱에
비례하여 증가한다. 게다가 사용자들의 친구관계수의 증가속도는 점점 가속이 붙고 있다. 이에 반해 기존 관계형 데이터베이스의
사용패턴대로는 성능저하 문제를 피하기 어렵다. 성능과 확장성을 보장하기 위해서 친구추천 & SNA 알고리즘의 구현을 하면서
다음과 같은 방안들을 적용하였다.
- Relation Pruning using intimacy value
- No Join & Keeping all Data in-Memory Strategy
- Distributed Graph Structure
NoSQL provides the flexibility of relaxed schemas and
horizontal scalability but it doesn't always provide an easy way to
model the data and its inter-relationships. This talk brings out a few
concepts that relate to NoSQL data modeling. The session covers these
concepts with the help of many real-life use cases, which span across a
variety of domains.
클라우드 기술이 발전하면서 네트워크를 통해 전달되는 데이터 및 파일의 크기가 기하급수적으로
증가하고 있다. 또한 대용량 데이터 처리의 경우, 현재까지는 데이터의 처리능력 및 분산 스토리지 등 네트워크 외적인 부분에 많은
관심을 쏟고 있다 하지만 이러한 대용량 데이터 에 따른 네트워크 트래픽의 증가속도에 비해 망 및 하드웨어의 투자가 비용의
문제등으로 인해 따르지 못하고 있고 따라서 대용량 데이터의 전송 측면에서는 병목에 따른 전송속도 저하는 피할수 없는 실정이다.
또한 현재의 TCP 프로토콜은 원거리 지역의 파일전송시 급격히 전송속도가 떨어져 대역폭을 이용하는 효율이 떨어지는 단점도
존재한다. 이러한 배경을 가지고 탄생한 플랫폼이 S/W기반의 대용량 파일 고속전송 플랫폼 래피던트 이다. S/W 기반으로 기존
전송 프로토콜을 이용하면서 네트워크를 효율적으로 쓰는 플랫폼을 통해 하드웨어가 투자에 따른 비용상승을 줄일 수 있고 대용량 데이터
처리에 수반하는 데이터의 고속전송을 가능하게 해준다. 래피던트가 어떤 플랫폼인지 소개하고 실제 S/W 기반 고속전송이 사용되고
있는 케이스들을 소개한다.
Currently telecom companies store their data in
database or data warehouse, treating them through ETL process and
working on statistics and analysis by using OLAP tools or data mining
engines. However, due to the data explosion along with the spread of
Smart Phones traditional data storages like DB and DW aren’t sufficient
to cope with these “Big Data”. As an alternative the method of storing
data in Hadoop and performing ETL process and Ad-hoc Query with Hive is
being introduced, and China Mobile is being mentioned as the most
representative example. But, they are adopted mainly by new projects,
which have low barriers in applying the new Hive data model and HQL. On
the other hand, it is extremely difficult to replace the existing
database with the combination of Hadoop and Hive if there are already a
number of tables and SQL queries. NexR is migrating the telecom
company’s data from Oracle DB to Hadoop, and converting a lot of
existing Oracle SQL queries to Hive HQL queries. Though HQL supports a
similar syntax to ANSI-SQL, it lacks a large portion of basic functions
and hardly supports Oracle analytic functions like rank() which are
utilized mainly in statistical analysis. Furthermore, the difference of
data types like null value is also blocking the application of it. In
this presentation, we will share the experience converting Oracle SQL to
Hive HQL and developing additional functions with MapReduce. Also, we
will introduce several ideas and trials to improve Hive performance.
사용자 중심의 인터넷 서비스 시장이 급성장 함에 따라 매일 수십GB~TB 이상의 데이터가 새롭게
저장되고 있지만, 기존 파일시스템은 비용 및 확장성 측면에서 한계를 가지고 있다. GLORY-FS는 이러한 문제점을 해결하기 위해
개발되었으며 다수의 Commodity 서버들을 네트워크로 연결하여 수PB 이상의 단일 저장 공간을 제공할 뿐만 아니라, 서비스
중단 없는 스토리지 증설, 높은 수준의 데이터 가용성 보장, POSIX API 를 통한 기존 응용 서비스와의 손쉬운 통합,
지능적인 자원 모니터링 및 장애 상황에서의 자가 치유 기능 등을 제공한다. 한편, 실제 적용 사례로서 KTH Paran 에서
다수의 서비스들에 GLORY-FS를 도입하여 기존 스토리지 환경에서 나타나던 문제를 풀어낸 방법과 운영 사례 등을 공유하고자
한다.
Doozer is a consistent, fault-tolerant distributed
data store, implemented using the Paxos distributed consensus algorithm.
Its design is intended to be simple and general, with hierarchical
key-value storage and change notices. This session will provide an
introduction to doozer, describe its architecture and its interface, and
show some examples of use. You should leave with enough information to
decide if doozer is worth trying out as a new tool in your toolbox.
대용량 데이터를 다루는 서비스를 내 손으로 직접 설계하고 개발하는 것을 최고의 행복으로 믿고
살아온 한 평범한 엔지니어에게, 창업이란 새로운 열정은 예고없이 찾아왔고, 엔지니어(Engineer)는 일순간에
기업가(Entrepreneur)로의 삶에 도전하게 되었습니다.
많은 사람들이 하나의 서비스를 위해 협업하고 또 시스템의 지원을 받을 수 있었던 NHN이라는 큰 울타리를 떠나서, 서버 구입에서 세팅, 운영까지 한 두 명의 개발자가 맡아 진행해야 하는 작은 모바일 기업의 기반을 마련하는 일은 참 많이 달랐습니다.
트래픽을 미리 예측하기 어려운 모바일 서비스의 특성과 모든 문제를 스스로 해결해야만 하는 작은 기업이라는 환경적 제약 속에서, 지난 1년간 경험한 여러 시행착오들, 그리고 그러한 문제들을 극복하기 위해 내렸던 기술적 선택과 그 결과들을 공유드리려고 합니다.
많은 사람들이 하나의 서비스를 위해 협업하고 또 시스템의 지원을 받을 수 있었던 NHN이라는 큰 울타리를 떠나서, 서버 구입에서 세팅, 운영까지 한 두 명의 개발자가 맡아 진행해야 하는 작은 모바일 기업의 기반을 마련하는 일은 참 많이 달랐습니다.
트래픽을 미리 예측하기 어려운 모바일 서비스의 특성과 모든 문제를 스스로 해결해야만 하는 작은 기업이라는 환경적 제약 속에서, 지난 1년간 경험한 여러 시행착오들, 그리고 그러한 문제들을 극복하기 위해 내렸던 기술적 선택과 그 결과들을 공유드리려고 합니다.
Mahout is an open source machine learning library from
Apache. From its humble beginnings at Apache Lucene, the project has
grown into a active community of developers, machine learning experts
and enthusiasts. With v0.5 released recently, the project has been
focussing full steam on developing stable APIs with an eye on our major
milestone of v1.0. The speaker has been with Mahout from his days in
college as a computer science student. The talk will focus on the major
use cases of Mahout. The design decisions, things that worked, things
that didn't, and things to expect in the future releases.
Hadoop enables LinkedIn to process large amounts of
data that powers many of our data products. However, several challenges
exist when using Hadoop at larger scale. How do we get massive amounts
of data into HDFS? How do we minimize the difficulty in writing
map-reduce jobs and maximize their re-use? How do we deploy the large
amounts of data created on Hadoop frequently and reliably?
This talk will cover how LinkedIn uses open-source projects such as
Kafka, Pig, Hive, Azkaban and Voldemort to solve some of these
challenges.
http://www.joon.pe.kr/blog/trackback/341
<p align="center"><a href="http://kimpofyt.com" target="_blank">김포공항주차요금</a> -김포공항주차요금</p>
<p align="center"><a href="http://fytparking.com" target="_blank">김포공항주차대행</a> -김포공항주차대행</p>
<p align="center"><a href="http://fytparking.com" target="_blank">김포공항주차요금</a> -김포공항주차요금</p>
<p align="center"><a href="https://yeo.mytfyt.com" target="_blank">여성전용마사지</a> -여성전용마사지</p>
<p align="center"><a href="https://ans.mytfyt.com" target="_blank">안산출장타이마사지</a> -안산출장타이마사지</p>
<p align="center"><a href="https://gan.mytfyt.com" target="_blank">강남역마사지</a> -강남역마사지</p>
<p align="center"><a href="https://pyo.mytfyt.com" target="_blank">평촌마사지</a> -평촌마사지</p>
<p align="center"><a href="https://suu.mytfyt.com" target="_blank">수요비</a> -수요비</p>
<p><a href="https://lgeshop.net" target="_blank">LG정수기</a> -LG정수기</p>
<p><a href="https://lgeshop.net" target="_blank">엘지정수기</a> -엘지정수기</p>
<p><a href="https://lgeshop.net" target="_blank">LG공기청정기</a> -LG공기청정기</p>
<p><a href="https://lgeshop.net" target="_blank">엘지공기청정기</a> -엘지공기청정기</p>
<p><a href="https://lgeshop.net" target="_blank">LG전기레인지</a> -LG전기레인지</p>
<p><a href="https://lgeshop.net" target="_blank">LG인덕션</a> -LG인덕션</p>
<p align="center"><a href="https://lgeshop.net/" target="_blank">LG공기청정기</a> -LG공기청정기</p>
<p align="center"><a href="https://lgeshop.net/" target="_blank">엘지공기청정기</a> -엘지공기청정기</p>
<p align="center"><a href="https://lgeshop.net/" target="_blank">LG전기레인지</a> -LG전기레인지</p>
<p align="center"><a href="https://lgeshop.net/" target="_blank">엘지전기레인지</a> -엘지전기레인지</p>
<p align="center"><a href="https://lgeshop.net/" target="_blank">LG인덕션</a> -LG인덕션</p>
<p align="center"><a href="https://lgeshop.net/" target="_blank">엘지인덕션</a> -엘지인덕션</p>
<a href="http://etm77.com" target="_blank">카지노사이트</a><br>
<a href="http://aoa93.com" target="_blank">바카라사이트</a><br>
<a href="http://ii.etm77.com" target="_blank">슬롯머신사이트</a><br>
<a href="http://cc.etm77.com" target="_blank">블랙잭사이트</a><br>
<a href="http://etm77.com" target="_blank">카지노사이트</a><br>
<a href="http://cc.etm77.com" target="_blank">블랙잭사이트</a><br>
<a href="http://dd.etm77.com" target="_blank">엠카지노</a><br>
<a href="http://cc.etm77.com" target="_blank">블랙잭사이트</a><br>
<a href="http://clc40.com" target="_blank">카지노주소</a><br>
<a href="http://cc.etm77.com" target="_blank">블랙잭사이트</a><br>
<a href="http://dd.etm77.com" target="_blank">엠카지노</a><br>
</div>