0dc2fae4.g

だいぶ日がたってしまったのですが、先週木曜の11月7日、Cloudera World Tokyo 2013に行ってきました。
写真はお土産のClouderaカステラ。

僕が聞いてきたセッションは以下です。(全セッションはこちら。講演資料も一部リンクあるようです)
  • CDH最新情報
  • Hadoopデータプラットフォーム
  • SQLで実現するバッチ処理とストリーム処理
  • Hadoopの運用
  • Hadoop コミュニティと YARN の現状
とまぁ、Clouderaの中の人のセッションを半分以上選びました。
というのもCDH5がどうなるのかなぁというのがすごく気になっていたので。

一つ一つのセッション書くのはつらいのでざっくりと。

CDH 5はHadoop 2.2も出たということで、やっとYARNが「製品レベル」 になりました。
(製品レベルになる前になんでCDH 4に入っていたんだろうって感じではあるんですが)
Resouce ManagerのHAはもちろん大注目なんですが、ImpalaもResouce Manager上で管理できるようになったりと、Cloudera自体もかなりYARNに本腰入れてきた感じがします。

一応職場の環境でもImpalaは利用しているんですが、ちょっとはしゃいだ感じのクエリを投げるとMapReduceなタスクとリソース食い合って、監視しているGangliaが真っ赤に染まってこっちの顔は真っ青になるなんてことがあったんですが、これが解消されるだろうというのはとても大きいです。

今のところCDH 5はβ1ということなんですが、早めに開発環境の方でアップデートの手順を整えてもいいかななんてチームでは話しておりまして、採用する気満々な感じです。

また、Clouderaさん一推しのCloudera Managerなんですが、これは話を聞けば聞くほど使ってみたい感じがしますね。ちなみに無料版のStandardがあるので、試しに開発環境で使ってみたことあるんですが、確かに構築がめちゃくちゃ簡単です。
Cloudera Managerを使うと基本的にすべての運用がManager経由になって、設定ファイルの場所が通常と違うパスに置かれて管理されるみたいでManager外から他のツールを組み合わせて運用しようとするとちょっとつらくなるかなという感想です。もともと日頃の運用はpuppetやcapistranoなんかで構築済みだったため、Standardであれば、今の環境でもいいかなぁということで、お試しで終わった感じです。

ただ、Enterprise版だと話は違って、Clouderaのノウハウがぐっと詰まった感じで、これさえ入れればOKな感じがやばいです。一発でアップデート、一発で前のバージョンにロールバックとかパないですね。 あと監査機能とか、リソース制限の管理も大変便利そうです。
おいくらするのか気になります。

ちなみに去年は参加していないので、去年がどういう空気感だったかわからないんですが、今年のセッションを聞いていて思ったのは、一部の分析担当、ログ担当だけが、構築されたクラスタのデータにさわるのではなく、多くの人がデータに触れて、活用していくかにものすごいスポットがあたっていたような気がしました。
(嶋内さんの第二セッションの話がまさにそんなかんじでしたが)

tagomoris氏のNorikraとか見てるとSQLを通じて、みんながデータに触れられるようにするプラットフォームを構築するような話でしたし、Impala推しな感じとかもそういうことなんでしょうね。スポンサーコーナーでちょっとみせてもらったTableauも、SQLではないですが、アプローチとしては同じような感じでしょうか。
そして、データを安全にさわれるようにリソース管理や認証、監査の強化があると(SentryとかHueとか、そしてCloudera Manager)。
参加したセッションの裏で、Yahoo Japanのセッションもそういう話だったみたいですね。

そういえば去年くらいに同僚のやなしーが「経営者もSQL書けないとオワコン」とかそんな感じのこと言ってたなぁなんて言うのを思い出し、本格的に環境整ってきたんだなと改めて思ったり。

一応、社内でもHueからHiveやImpalaさわれるような環境は構築してるんですが、 LDAP認証をつけたくらいで、リソース管理も甘いので、本格的にガンガン使われると落ちるかもというまだまだなステータスなので、運用者としてはみんなが使えるっていうレベルまでまず持って行かないといかんですね。