Cloudera on @johtaniの日記 3rd

Cloudera World Tokyo 2013に参加しました！ #cwt2013

Thu, 07 Nov 2013 10:11:00 +0900

Cloudera World Tokyo 2013に参加してきました。

午前中はあいにくの雨でしたが、それでも結構な人数が最初の基調講演から参加されてました。私が参加したセッションは大盛況な感じでした。

おみやげとしてカステラも頂いちゃいました！

また、色々なセッションに現れたこんなメッセージ画像も見つけました！

昨日の写真データの整理をしていたら、こんなものが・・・ @shiumachi さんよ・・・ #cwt2013 pic.twitter.com/S0JsxSYXIx
— Kenichiro HAMANO (@hamaken) November 8, 2013

やっぱり、スーツの人が多いなという印象。

名刺を毎回回収されるのはちょっとつらかったです。なにか、いい方法ないですかねぇ。

以下はいつもの個人メモです。

「ビッグデータプラットフォームとして進化するHadoop」

Cloudera株式会社　代表取締役　ジュセッペ小林氏

Costcoなどの写真を元にビッグデータを可視化

BigDataとHadoopの関係

検索、SQL、機会学習、数理処理、データ管理などにもHadoopの活用されつつある。セキュリティ、データ管理、クラスタ上でのツールの実行なども増えてきてる。

「今日ビッグデータは明日のスモールデータ」

アーキテクチャとしてのビッグデータ

多種多様なデータを一箇所に集約し、生データを直接活用できる。 OSSとしての責任も。

データサイエンス

Opsだけでないデータ解析にも活用

「Clouderaのビッグデータプラットフォーム戦略」（仮）

講師：Cloudera, Inc. CTO Dr.Amr Awadallah

レガシーな情報アーキテクチャ→スケールできない、可視化の限界、硬直したスキーマなどなど。

エンタープライズデータハブとしてのHadoopとか。

ビッグデータの歴史と将来展望

講師：国立情報学研究所　アーキテクチャ科学研究系　教授　佐藤一郎氏

ビッグデータの歴史的経緯とか

最初の事例はアメリカの1880年国勢調査。
「ビッグデータがコンピュータを生み出した」。コンピュータがビッグデータを生み出したんじゃない。
少量データにもHadoopを
- バッチ処理のリアルタイム化とか（一晩から10分へ）
原点は検索データのインデクシング
Hadoopを使うのが目的じゃないんだから、構築には手を掛けないのがいいよね。
プラットフォームと発展している

分散システム研究者から見たHadoop

分散ししテムの難しさを、処理範囲を限定することで巧みに回避
データの近くで処理
研究レベルではリアルタイム化や逐次処理化が活発
全工程で逐次・リアルタイムが必要とは限らない
聞いてばかりじゃなくて、動かしてみましょう。

データサイエンス：超並列分散処理を活用した新たなビジネス価値の創出

講師：アクセンチュア株式会社　工藤卓哉氏

「日経BPのビッグデータ総覧2013」に記事書いてる。
多様化するデータ（社外のデータも）をどうやってうまく活用していくか。
データが教えてくれたこと→まず、データありき、まずデータためましょう。それから解析とかすればいいのでは？というはなし？
競合他社さんはNGだけど、ブースでデモ？実機？が見れますと。

Hadoopデータプラットフォーム

Cloudera株式会社　嶋内　翔氏

まずは宣伝

Cloudera Implaraのフリーブックの日本語版
Hadoop Operationの書籍でるよ

プラットフォームを構成するもの

Flume
Sqoop
HBase
Hive
Impala

データ登録してBIアナリストのお仕事にどうやって役立てる？

外部テーブル：Hiveからはテーブルのように見える仕組み。元ファイルは消えない
SerDe（さーでぃー）：データをHiveレコードに変換する仕組み
生データを少し加工しましょう
- 圧縮したりファイル結合したりはしときましょう。
Hadoop活用のポイント
- 富豪的プログラミング。リソースケチるな。
- ローカルでできることはローカル。むりにHadoopでやんなくてもいいですよねと。バランス重要
スケジューリング実行などはOozie使うと便利。（日次集計とか）
Cloudera Searchで元データにインデックス貼れるぞと。検索しながら分析ができる

クラスタ管理とか

Cloudera manager便利ですよ
ストレージリソースの管理。
- 声掛け、管理者が容量チェック、Cloudera Managerのレポート
少数精鋭でHadoop使おう＝手が回らなくなる。
みんなで使おう＝Kerberos認証とか管理をちゃんと考えないと。けど、文化が根付けば強力。Sentry、Cloudera Navigatorとか。
Hadoopシステムの全体構成図。データの流れと各製品のつながり。
We are hiring!ということで、興味のある方は@shiumachiさんにコンタクトをとりましょうとのこと。

SQLで実現するバッチ処理とストリーム処理

LINE株式会社　田籠聡氏

資料：Batch and Stream processing with SQL

LINEのキャラがちらほら出てきた。
SQL好きですか？
ログの量とか。2.1TB/Day
バッチ処理とストリーム
- 速い集計のためにHadoopが重要
エラー系のログとかはストリームで処理したい
アーキテクチャ説明
データ解析する人って色々。
- 管理者
- プログラマ
- サービスディレクタ
- 経営陣
みんなが集計用処理を理解、編集ができるほうがいい。
顔あげたらHiveアイコンだらけだったｗ
Shibとか。
なんでHiveに限るの？
- Hiveに着目したバージョンアップだけを考えれば良くなる。
スケジュールクエリが増えてきて、つらい。
- TimeWindowを固定して集計処理をすることで、回避できる。

Norikra!!

スキーマレス
OSS。Esperベース。
インストールが楽
クエリの動作のお話。
http://norikra.github.io
We Are Hiring!

Hadoop コミュニティと YARN の現状

日本電信電話株式会社　小沢健史氏

なんでHadoop？

PostgreSQLでやってたけど、大きなデータにはHadoopを使おうという感じになってきた。
なんで使い分けるの？
- スキーマ後付け
NTTDocomoのモバイル位置情報の統計処理とか？
技術的な話をするので、HiveTに着替えます！ｗ
YARNのなにが嬉しいの？
- ImpalaとMapReduceが同時に動くような環境の時に、リソースをうまく管理できないのがV1
- そこでYARN
Apache Mesosとだいたい一緒。
Apache MesosとYARNの比較

『プログラミング Hive』『Hadoop 第3版』刊行記念セミナーに参加しました！ #oreilly0724

Thu, 25 Jul 2013 02:11:00 +0900

Hadoopとか離れちゃってるし、Hive触ったこと無いにもかかわらず参加しました！
（たまたま近くにいるからって理由なのは内緒で）
玉川さんの四方山話を聞くのが主目的で参加しました。（ちょっと翻訳が気になってるので）

イベントページはこちら
刊行記念イベントにも関わらず、想像以上の人の入りでびっくりしました。Hadoop、Hive界隈はまだまだ人気なんだなぁと。
プレゼントじゃんけん大会もあったのですが、そうそうに負けてしまったのが悔やまれます。。。
Team Geek欲しかったなぁ。もちろん、懇親会まで参加しました。

以下、いつものメモです。

Hiveの正しい使い方（Cloudera 嶋内さん）

残念ながら、マサカリは持ってなかったです。

スライドの各所に本の章番号が書いてあるのがうれしい。
Hiveロゴが回ってたのでスライドの時に集中できなかったｗ
Impalaの話も出てきた。
- 速いけど、色々足りない。Hiveの置き換えじゃないよと。

HiveとImpalaのおいしいとこ取り（セラン　須田さん）

スライド：http://www.slideshare.net/sudabon/20130724-oreilly-org

オンプレだとCDH便利だよと教えてもらう
いくつかSlideshareにImpalaの性能評価の資料を上げてある（必要になったら検索で。。。）
リリースされたその日に性能評価やってレポート書くとかすごすぎ！

翻訳の四方山話（玉川さん）

翻訳＝写経です
締め切り駆動勉強法ｗ
4page/day
自分から電突してオライリーさんに翻訳させてくださいと。
他の方の本が読めない（チェックしちゃうのでｗ）
動機があるから読めるってのはあるだろうなぁ。
選び方：わくわくするもの、仕事に活きるもの
今年もあと2冊やる予定（Hadoop Operations、Vagrantを翻訳中）
来年の候補（Chefとか）

高可用性HDFSのご紹介（Cloudera 小林さん）

スライドにどの版で書いてあったかがわかりやすく書いてある。
3段階の開発フェーズを経てる
QJMのお話

Cloudera UniversityとHadoop認定試験（Cloudera 川崎さん）

Clouderaデータアナリスト向けトレーニング（3日間、10月日本語で開催予定）
- Hive、Pig、Impalaなど
Data Science入門コースも準備中
出版記念！
- 8月管理者向け先着20 or 30名にHadoop第3版贈呈予定
- 先着20名にプログラミングHive贈呈予定

Cloudera Searchのモジュールたち

Wed, 05 Jun 2013 15:12:00 +0900

Cloudera Searchは次のようなモジュールから構成されています。これはCloudera Searchのモジュールで、さらにこれらがSolrとかを使ってるみたいですね。pom.xmlを見たら何を使ってるかがわかるかな。

cdk-morphlines
search-contrib
search-core
search-flume
search-mr
search-solrcell

てきとーに、README.mdみながらメモを残してみました。ソースとかはまだ読んでないです。ざっと眺めたけど、インデキシング処理の話がメインで、検索側がどうやって動くかってのがわからなかったなぁ。ユーザガイド（注：PDF）ってのがあるから、これを読んでみるか。。。

各モジュールについては、以下。

cdk-morphlines（Cloudera Morphlines）

Cloudera Morphlinesという名前みたい。検インデキシングアプリの構築、変更をラクにするためのフレームワーク。 ETLの処理チェインを簡単にCloudera Searchにデータを入れる設定（Extract/Transform/Load処理）がかけると。バッチ処理、Near Real Timeのために使えるみたい。検索結果をさらに入れるとかもできるんかなぁ。？

Unixパイプラインのの進化版みたいなもので、一般的なレコードに対するStream処理から、Flueme、MapReduce、Pig、Hie、SqoopのようなHadoopコンポーネントも使えるみたい。

Hadoop ETLアプリケーションのプロトタイピングにも使えて、リアルタイムで複雑なStreamやイベント処理やログファイル解析とかに使えるの？

設定ファイルのフォーマットはHOCONフォーマット。AkkaやPlayで使われてる。

cdk-morphlines-core

Cloudera Morphlinesのコンパイラ、実行環境、コマンドのライブラリを含んでる。ログファイル解析やsingle-lineレコード、multi-lineレコード、CSVファイル、正規表現パターンマッチ、フィールドごとの比較とか条件分岐とか、文字列変換とか色々なコマンドを含んでる。

cdk-morphlines-avro

Avroファイルやオブジェクトの抽出、変換、読み込み処理コマンド

cdk-morphlines-tika

バイナリデータからMIMEタイプを検出して、解凍するコマンド。Tikaに依存

雑感

Cloudera Searchへのデータの流し込みを設定ファイルに記述して実行するとデータの変換処理とかが記述できるって感じかな？ Morphlinesのコマンドとして独自処理や使えそうな処理を作ることで、いろんな処理ができるって感じかなぁ。

search-core

Solrに対するMorphlineコマンドの上位モジュール

search-solrcell

Tikaパーサを使ったSolrCellを使うためのMorphlineコマンド。 HTML、XML、PDF、Wordなど、Tikaがサポートしてるものがサポート対象。

search-flume

Flueme Morphline Solr Sink。 Apache Flumeのイベントから検索ドキュメントを抽出、変換し、SolrにNearRealTimeで読み込むためのコマンド

search-mr

HDFSに保存されたファイルに含まれる大量データをMapReduceで処理してHDFS上の検索インデックスに焼きこむモジュール。

MapReduceIndexerToolは入力ファイルの集合からSolrのインデックスシャードの集合を作るためのmorphlineのタスクで、MapReduceのバッチジョブドライバー。 HDFSにインデックスを書き込む。動作してるSolrサーバに対して出力されたデータをマージするのもサポートしてる。

とりあえず、Near Real Time検索するにはFlueme使って、バッチ処理でインデックス焼くのはMapReduceIndexerToolみたいだなぁ。

Cloudera Searchってのが出たらしい（とりあえず、雑感？）

Wed, 05 Jun 2013 15:05:00 +0900

AWS Summitに来ていたのですが、TLでは、Cloudera Searchが賑わってました。ということで、軽くどんなものか読んだり調べたりしたメモを残しとこうかと。英語力はあやしいので、おかしいとこがあったらツッコミを。

Cloudera Searchとは？

CDH4.3に対応したCDHユーザ向けの検索システム（beta版）なのかな？ CDHに統合された検索フレームワークなのかな？

基本はLucene/Solr 4.3でHadoopのペタバイトデータを検索することができるようになるみたいです。

どんな仕組み？

次のものを利用しているようです。（GithubのREADMEから。）

使ってるもの

Apache Solr(4.3.0＋α？)
- Apache Lucene（Solrつかってるからね）
- Apache SolrCloud（うーん、Solrに含まれるのに別に出してるのなんで？）
Apache Flume
Apache Hadoop MapReduce & HDFS
Apache Tika
- SolrCellとしてSolrにも組み込まれてる、いろんな文書（WordとかHTMLなどなど）からメタデータと本文データとかを取り出せるライブラリラッパー。実際にはさらにpdfboxとかを使って各文書からのデータを取り出してる。

何ができるの？

HBaseやHDFSの用にZookeeperを使ってインデックスのシャーディングや高可用性ができる。（SolrCloudがZookeeperを使ってるからね。） MapReduceのジョブの出力から自動的にSolrのインデックスにデータをマージできるらしい。 Cloudera Managerを使って、デプロイ、設定モニタリングなどが可能。

Flumeのフィードをつかって、ストリーミングしてインデックスを作れる。FluemeがデータをSolrに流しこむのかな？将来的にはHiveやHBaseのテーブルをインデックスすることも可能になるらしい。Impalaクエリの結果もフィードできるのか？

Apache Blurってキーワードも出てきた。HDFSのデータからLuceneのインデックス作るのかな？ NGDataのチームがSolr/HBaseの統合とかしてるみたい。