분류없음

SDEC 2011

하루 반 동안은 정식 컨퍼런스를 진행하며 정식 컨퍼런스 후에는 Code camp형식의 자율적인 토론이 진행됩니다. 외국인 스피커의 세션은 참석자들의 편의를 위해 동시통역이 제공됩니다.

6월 27일 (월)
  주제 발표자
09:00am 등록 및 입장  
09:45am Keynote 송창현
(NHN)
10:00am TBD Simone Brunozzi
(Amazon)
10:45am nStore - A new approach for data distribution and scalability 김효
(NBP)
11:30am 휴식  
11:50am NoSQL Data Modelling: Concepts and Cases Shashank Tiwari
(Treasury of Ideas)
12:35pm 점심 (점심제공)  
1:20pm Arcus - NHN memcached cloud 박준현
(NHN)
2:05pm Replacing Legacy Telco DB/DW to Hadoop and Hive 조준호
(NexR)
2:50pm 휴식  
3:10pm Going by TACC: beyond key-value to fault-tolerant stores with easily customizable semantics Henk Goosen
(OptumSoft)
3:55pm Big Engineer vs. Small Entrepreneur 조지훈
(Waplestore)
4:40pm 휴식  
5:00pm S/W 기반 대용량 파일 고속 전송 플랫폼 "래피던트" 송성학
(삼성SDS)
5:45pm Implementing me2day friend suggestion 강호성
(NHN)
6:30pm 저녁  
7:00pm ~ BOF
  • The Go programming language (introduction and concurrency patterns in Go)
     : Keith Rarick (Heroku)
6월 28일 (화)
  주제 발표자
09:00am 등록 및 입장  
10:00am Realtime Big Data at Facebook with Hadoop and HBase Jonathan Gray
(Facebook)
10:45am GLORY-FS(Scalable Distributed Filesystem) - Development and Service Experiences 진기성 (ETRI)
이대우 (KTH)
11:30am 휴식  
11:50am Using Couchbase for Social Game Scaling and Speed Chiyoung Seo &
Matt Ingenthron
(CouchBase)
12:35pm 점심  
01:20pm Introducing Doozer - a consistent, fault-tolerant data store Keith Rarick
(Heroku)
02:05pm Major use cases of Mahout Robin Anil
(Apache Committer)
2:50pm 휴식  
3:10pm Data In, Data Out: Creating Large scale data products at LinkedIn Richard Park
(LinkedIn)
3:55pm 경품추첨  
4:00pm ~ 5:00pm BOF
Session details
소셜 게임은 일반적으로 많은 동시 사용자들을 수용해야 하고 좋은 성능을 항상 제공해야 하는 요구사항들을 가지고 있다. 소셜 게임은 항상 사용자들과의 상호 작용을 통해서 운영이 되기 때문에 사용자들의 게임 관련 정보를 데이터베이스로부터 빠르게 읽고 쓰는 것이 게임 개발자들이 해결해야 할 가장 중요한 직면 과제들 중의 하나가 되고 있다. Tribal Crossing 게임 회사 개발자들 또한 Animal Party 라는 페이스북 게임을 개발하고 사용자들의 수가 급속히 증가하면서 이러한 문제들에 직면하게 되었다. 더구나 기존 관계형 데이터베이스 시스템의 유지 보수 비용 또한 사용자의 증가로 꾸준히 증가하면서 비용 절감의 문제도 해결해야 하는 상황이 발생 하였다. 이러한 문제들을 해결하기 위하여 Tribal Crossing 회사는 여러 NoSQL 제품들을 성능 평가하였고 Couchbase 회사의 오픈 소스 NoSQL 데이터베이스 Membase가 그들의 요구 조건들의 대부분을 만족하다는 사실을 알게 되었다. Couchbase의 Membase 제품은 우선 설치하고 사용하기가 매우 쉬어서 Tribal Crossing 개발자들이 소셜 게임 개발에만 집중할 수 있게 하여서 게임 출시 시기를 앞당길 수 있게 하였다. 또한, Membase의 고성능 read/write 기능은 Tribal Crossing 회사가 그들의 게임 사용자들에게 짧은 응답시간을 제공할 수 있게 하였다. 마지막으로, 실시간에 새로운 서버들을 Membase 클러스터에 추가하는 기능은 Tribal Crossing 게임들의 확장성을 보장하는 역활을 하였다. 위에서 열거한 Couchbase에서 제공하는 NoSQL 솔루션을 통해서 Tribal Crossing 소셜게임 회사는 좀 더 빠르고 쉽게 그들의 메인 게임 Animal Party 를 휠씬 적은 비용으로 성공적으로 출시를 하게 되었다.
개인화된 웹 환경(PWE, personalized web environment)과 SNS(social networking service)가 성장함에 따라, NHN은 네이버미(NAVER.me) 라는 SNS 서비스를 개발하였습니다. 네이버미는 이메일 알림과 메시지 및 네이버의 모든 소셜 기반 서비스(블로그, 카페)에서 생산된 덧글 같은 사용자 데이터를 수집하여 한 화면에 모든 내용을 사용자 친화적인 방식으로 보여주는 서비스입니다. 이러한 개인화된 서비스는 거대한 데이터를 다루기 때문에 확장성과 높은 수준의 가용성이 요구됩니다. 뿐만 아니라 연결된 어플리케이션에 존재하는 legacy 코드에 대한 지원을 유지하고, RDBMS를 사용하는 백엔드 처리 시스템을 위한 호환된 인터페이스도 제공해야 합니다. 이러한 요구사항을 만족시키기 위해 NHN은 RDBMS와 NoSQL의 장점을 모두 갖춘 nStore라는 새로운 분산 저장 시스템을 개발하였습니다. nStore는 다음과 같은 특징을 지닙니다.
  • 부하 분산 작업 동안, Container 그룹이라 불리는 단위로 데이터가 분산됩니다.
  • 전통적인 RDBMS보다 빠르지만, Memcached나 Arcus 등의 순수한 메모리 캐시 시스템보다는 느립니다.
  • 영속적인 저장 공간으로서 무제한의 용량이 제공됩니다.
  • 기반 저장 엔진으로 RDBMS를 사용하기 때문에 nSQL이라는 SQL-like language를 지원합니다.
nStore는 네이버 개발자 센터(http://dev.naver.com/)에서 오픈 소스로 릴리즈될 예정입니다.
Arcus는 메모리 기반 Key-Value 저장소인 Memcached를 기반으로, NHN 서비스들의 요구 사항들을 반영하여 개발한 data caching cloud입니다. Arcus는 ZooKeeper를 사용하여 클라이언트와 서버사이에 추가적인 network latency를 제거하면서도 caching server들의 추가 및 삭제가 유연한 cloud architecture를 가집니다. 또한, 최근 여러 서비스들에서 요구되고 있는 data collection의 저장 및 연산 기능을 지원하기 위하여 list, set, b+tree 구조를 제공합니다.
TACC is a language, compiler, and run-time environment that expedites the development of scalable, fault-tolerant distributed applications that require high and predictable performance. The TACC programming model separates state from logic: state is stored in a collection of distributed in-memory database instances, while logic is performed by distributed agents that react asynchronously to changes in objects stored in the database instances. Agents can selectively subscribe to updates using a fine-grain hierarchical directory system to mount objects into a local namespace. TACC provides performance comparable to hand-coded C while reducing the actual source code size to a fraction of that. We describe the implementation and performance of a scalable and fault tolerant key-value store using TACC, pointing out the benefits realized by using TACC's strong, user-defined types and triggering/notification.
Facebook has one of the largest Apache Hadoop data warehouses in the world, primarily queried through Apache Hive for offline data processing and analytics. However, the need for realtime analytics and end-user access has led to the development of several new systems built using Apache HBase.
This talk will cover specific use cases and the work done at Facebook around building large scale, low latency and high throughput realtime services with Hadoop and HBase.
This includes several significant contributions to existing projects as well as the release of new open source projects.
SNS 분야에서 친구추천 알고리즘과 몇몇 SNA 알고리즘들의 응답속도는 친구관계수의 제곱에 비례하여 증가한다. 게다가 사용자들의 친구관계수의 증가속도는 점점 가속이 붙고 있다. 이에 반해 기존 관계형 데이터베이스의 사용패턴대로는 성능저하 문제를 피하기 어렵다. 성능과 확장성을 보장하기 위해서 친구추천 & SNA 알고리즘의 구현을 하면서 다음과 같은 방안들을 적용하였다.
  • Relation Pruning using intimacy value
  • No Join & Keeping all Data in-Memory Strategy
  • Distributed Graph Structure
NoSQL provides the flexibility of relaxed schemas and horizontal scalability but it doesn't always provide an easy way to model the data and its inter-relationships. This talk brings out a few concepts that relate to NoSQL data modeling. The session covers these concepts with the help of many real-life use cases, which span across a variety of domains.
클라우드 기술이 발전하면서 네트워크를 통해 전달되는 데이터 및 파일의 크기가 기하급수적으로 증가하고 있다. 또한 대용량 데이터 처리의 경우, 현재까지는 데이터의 처리능력 및 분산 스토리지 등 네트워크 외적인 부분에 많은 관심을 쏟고 있다 하지만 이러한 대용량 데이터 에 따른 네트워크 트래픽의 증가속도에 비해 망 및 하드웨어의 투자가 비용의 문제등으로 인해 따르지 못하고 있고 따라서 대용량 데이터의 전송 측면에서는 병목에 따른 전송속도 저하는 피할수 없는 실정이다. 또한 현재의 TCP 프로토콜은 원거리 지역의 파일전송시 급격히 전송속도가 떨어져 대역폭을 이용하는 효율이 떨어지는 단점도 존재한다. 이러한 배경을 가지고 탄생한 플랫폼이 S/W기반의 대용량 파일 고속전송 플랫폼 래피던트 이다. S/W 기반으로 기존 전송 프로토콜을 이용하면서 네트워크를 효율적으로 쓰는 플랫폼을 통해 하드웨어가 투자에 따른 비용상승을 줄일 수 있고 대용량 데이터 처리에 수반하는 데이터의 고속전송을 가능하게 해준다. 래피던트가 어떤 플랫폼인지 소개하고 실제 S/W 기반 고속전송이 사용되고 있는 케이스들을 소개한다.
Currently telecom companies store their data in database or data warehouse, treating them through ETL process and working on statistics and analysis by using OLAP tools or data mining engines. However, due to the data explosion along with the spread of Smart Phones traditional data storages like DB and DW aren’t sufficient to cope with these “Big Data”. As an alternative the method of storing data in Hadoop and performing ETL process and Ad-hoc Query with Hive is being introduced, and China Mobile is being mentioned as the most representative example. But, they are adopted mainly by new projects, which have low barriers in applying the new Hive data model and HQL. On the other hand, it is extremely difficult to replace the existing database with the combination of Hadoop and Hive if there are already a number of tables and SQL queries. NexR is migrating the telecom company’s data from Oracle DB to Hadoop, and converting a lot of existing Oracle SQL queries to Hive HQL queries. Though HQL supports a similar syntax to ANSI-SQL, it lacks a large portion of basic functions and hardly supports Oracle analytic functions like rank() which are utilized mainly in statistical analysis. Furthermore, the difference of data types like null value is also blocking the application of it. In this presentation, we will share the experience converting Oracle SQL to Hive HQL and developing additional functions with MapReduce. Also, we will introduce several ideas and trials to improve Hive performance.
사용자 중심의 인터넷 서비스 시장이 급성장 함에 따라 매일 수십GB~TB 이상의 데이터가 새롭게 저장되고 있지만, 기존 파일시스템은 비용 및 확장성 측면에서 한계를 가지고 있다. GLORY-FS는 이러한 문제점을 해결하기 위해 개발되었으며 다수의 Commodity 서버들을 네트워크로 연결하여 수PB 이상의 단일 저장 공간을 제공할 뿐만 아니라, 서비스 중단 없는 스토리지 증설, 높은 수준의 데이터 가용성 보장, POSIX API 를 통한 기존 응용 서비스와의 손쉬운 통합, 지능적인 자원 모니터링 및 장애 상황에서의 자가 치유 기능 등을 제공한다. 한편, 실제 적용 사례로서 KTH Paran 에서 다수의 서비스들에 GLORY-FS를 도입하여 기존 스토리지 환경에서 나타나던 문제를 풀어낸 방법과 운영 사례 등을 공유하고자 한다.
Doozer is a consistent, fault-tolerant distributed data store, implemented using the Paxos distributed consensus algorithm. Its design is intended to be simple and general, with hierarchical key-value storage and change notices. This session will provide an introduction to doozer, describe its architecture and its interface, and show some examples of use. You should leave with enough information to decide if doozer is worth trying out as a new tool in your toolbox.
대용량 데이터를 다루는 서비스를 내 손으로 직접 설계하고 개발하는 것을 최고의 행복으로 믿고 살아온 한 평범한 엔지니어에게, 창업이란 새로운 열정은 예고없이 찾아왔고, 엔지니어(Engineer)는 일순간에 기업가(Entrepreneur)로의 삶에 도전하게 되었습니다.
많은 사람들이 하나의 서비스를 위해 협업하고 또 시스템의 지원을 받을 수 있었던 NHN이라는 큰 울타리를 떠나서, 서버 구입에서 세팅, 운영까지 한 두 명의 개발자가 맡아 진행해야 하는 작은 모바일 기업의 기반을 마련하는 일은 참 많이 달랐습니다.
트래픽을 미리 예측하기 어려운 모바일 서비스의 특성과 모든 문제를 스스로 해결해야만 하는 작은 기업이라는 환경적 제약 속에서, 지난 1년간 경험한 여러 시행착오들, 그리고 그러한 문제들을 극복하기 위해 내렸던 기술적 선택과 그 결과들을 공유드리려고 합니다.
Mahout is an open source machine learning library from Apache. From its humble beginnings at Apache Lucene, the project has grown into a active community of developers, machine learning experts and enthusiasts. With v0.5 released recently, the project has been focussing full steam on developing stable APIs with an eye on our major milestone of v1.0. The speaker has been with Mahout from his days in college as a computer science student. The talk will focus on the major use cases of Mahout. The design decisions, things that worked, things that didn't, and things to expect in the future releases.
Hadoop enables LinkedIn to process large amounts of data that powers many of our data products. However, several challenges exist when using Hadoop at larger scale. How do we get massive amounts of data into HDFS? How do we minimize the difficulty in writing map-reduce jobs and maximize their re-use? How do we deploy the large amounts of data created on Hadoop frequently and reliably? This talk will cover how LinkedIn uses open-source projects such as Kafka, Pig, Hive, Azkaban and Voldemort to solve some of these challenges.
이올린에 북마크하기(0) 이올린에 추천하기(0)
top


http://www.joon.pe.kr/blog/trackback/341
Commented by 미콘캐시가즈아 at 2018/12/07 12:01  Reply|Edit|Delete
<p align="center"><a href="http://kimpofyt.com" target="_blank">김포공항주차대행</a> -김포공항주차대행</p>
<p align="center"><a href="http://kimpofyt.com" target="_blank">김포공항주차요금</a> -김포공항주차요금</p>
<p align="center"><a href="http://fytparking.com" target="_blank">김포공항주차대행</a> -김포공항주차대행</p>
<p align="center"><a href="http://fytparking.com" target="_blank">김포공항주차요금</a> -김포공항주차요금</p>


<< Prev   1   ... 6   7   8   9   10   11   12   13   14   ... 336   Next >>