こんにちは、スチールです。
先日マーケティングテクノロジーの最先端を支える技術を大公開!というイベントに登壇しまして、「フリークアウトにおける大規模データの取り扱いのこれまでとこれから」という発表をしました。
スライドはこちらです
なお、イベントのパーフェクトなメモをhirataraさんのblogにありますのでぜひ御覧ください!
簡単に書いておきますと、
フリークアウトで大規模なデータというと
- オーディエンス情報
- 配信ログ
があります。
オーディエンス情報は50msの中で瞬時に取得できる必要があるので色々な制約がある中増えゆくデータに対してどう対処して、今後どうしていきたいかという話です。
配信ログは、hadoopクラスタを約1年半運用してきてだいぶ安定してきた中で、こちらもどうしていきたいかという話を中心に話しました。
今年の5月にfluentd meetupで話した内容からちょろっとアップデートがあるのでその辺と比較して見ていただけると幸いです。
また、スライド内でも言及してますが、CDHを4から5にアップグレードする際にCloudera Managerを導入する話をアドベントカレンダーに書きましたので、よかったら見てみてください(宣伝)
ちなみに、イベントページだと「歴史と今後」としてましたが、なんかもうちょい柔らかいタイトルにしたくて少し変更しました。
ではでは。