<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">

  <channel>
    <title>Norikra on @johtaniの日記 3rd</title>
    <link>https://blog.johtani.info/tags/norikra/</link>
    <description>Recent content in Norikra on @johtaniの日記 3rd</description>
    <generator>Hugo -- gohugo.io</generator>
    <language>ja</language>
    <lastBuildDate>Thu, 07 Nov 2013 10:11:00 +0900</lastBuildDate><atom:link href="https://blog.johtani.info/tags/norikra/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Cloudera World Tokyo 2013に参加しました！ #cwt2013 </title>
      <link>https://blog.johtani.info/blog/2013/11/07/cloudera-world-tokyo-2013/</link>
      <pubDate>Thu, 07 Nov 2013 10:11:00 +0900</pubDate>
      
      <guid>https://blog.johtani.info/blog/2013/11/07/cloudera-world-tokyo-2013/</guid>
      <description>&lt;p&gt;&lt;a href=&#34;http://www.cloudera.co.jp/jpevents/cwt2013/index.html&#34;&gt;Cloudera World Tokyo 2013&lt;/a&gt;に参加してきました。&lt;/p&gt;
&lt;p&gt;午前中はあいにくの雨でしたが、それでも結構な人数が最初の基調講演から参加されてました。
私が参加したセッションは大盛況な感じでした。&lt;/p&gt;</description>
      <content:encoded>&lt;p&gt;&lt;a href=&#34;http://www.cloudera.co.jp/jpevents/cwt2013/index.html&#34;&gt;Cloudera World Tokyo 2013&lt;/a&gt;に参加してきました。&lt;/p&gt;
&lt;p&gt;午前中はあいにくの雨でしたが、それでも結構な人数が最初の基調講演から参加されてました。
私が参加したセッションは大盛況な感じでした。&lt;/p&gt;
&lt;p&gt;おみやげとしてカステラも頂いちゃいました！&lt;/p&gt;


&lt;link rel=&#34;stylesheet&#34; href=&#34;https://blog.johtani.info/css/hugo-easy-gallery.min.css&#34; /&gt;
&lt;div class=&#34;box&#34; style=&#34;max-width:300&#34; &gt;
  &lt;figure  itemprop=&#34;associatedMedia&#34; itemscope
    itemtype=&#34;http://schema.org/ImageObject&#34;&gt;
    &lt;div class=&#34;img&#34; &gt;
      &lt;img itemprop=&#34;thumbnail&#34; src=&#34;https://blog.johtani.info/images/entries/20131107/kasutera.jpg&#34;  /&gt;
    &lt;/div&gt;
    &lt;a href=&#34;https://blog.johtani.info/images/entries/20131107/kasutera.jpg&#34; itemprop=&#34;contentUrl&#34;&gt;&lt;/a&gt;
  &lt;/figure&gt;
&lt;/div&gt;

&lt;p&gt;また、色々なセッションに現れたこんなメッセージ画像も見つけました！&lt;/p&gt;
&lt;blockquote class=&#34;twitter-tweet&#34;&gt;&lt;p&gt;昨日の写真データの整理をしていたら、こんなものが・・・ &lt;a href=&#34;https://twitter.com/shiumachi&#34;&gt;@shiumachi&lt;/a&gt; さんよ・・・ &lt;a href=&#34;https://twitter.com/search?q=%23cwt2013&amp;amp;src=hash&#34;&gt;#cwt2013&lt;/a&gt; &lt;a href=&#34;http://t.co/S0JsxSYXIx&#34;&gt;pic.twitter.com/S0JsxSYXIx&lt;/a&gt;&lt;/p&gt;&amp;mdash; Kenichiro HAMANO (@hamaken) &lt;a href=&#34;https://twitter.com/hamaken/statuses/398613935399510016&#34;&gt;November 8, 2013&lt;/a&gt;&lt;/blockquote&gt;
&lt;script async src=&#34;//platform.twitter.com/widgets.js&#34; charset=&#34;utf-8&#34;&gt;&lt;/script&gt;
&lt;!-- more --&gt;
&lt;p&gt;やっぱり、スーツの人が多いなという印象。&lt;/p&gt;
&lt;p&gt;名刺を毎回回収されるのはちょっとつらかったです。なにか、いい方法ないですかねぇ。&lt;/p&gt;
&lt;p&gt;以下はいつもの個人メモです。&lt;/p&gt;
&lt;h2 id=&#34;ビッグデータプラットフォームとして進化するhadoop&#34;&gt;「ビッグデータプラットフォームとして進化するHadoop」&lt;/h2&gt;
&lt;h4 id=&#34;cloudera株式会社代表取締役ジュセッペ小林氏&#34;&gt;Cloudera株式会社　代表取締役　ジュセッペ小林氏&lt;/h4&gt;
&lt;ul&gt;
&lt;li&gt;Costcoなどの写真を元にビッグデータを可視化&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;bigdataとhadoopの関係&#34;&gt;BigDataとHadoopの関係&lt;/h3&gt;
&lt;p&gt;検索、SQL、機会学習、数理処理、データ管理などにもHadoopの活用されつつある。
セキュリティ、データ管理、クラスタ上でのツールの実行なども増えてきてる。&lt;/p&gt;
&lt;p&gt;「今日ビッグデータは明日のスモールデータ」&lt;/p&gt;
&lt;h4 id=&#34;アーキテクチャとしてのビッグデータ&#34;&gt;アーキテクチャとしてのビッグデータ&lt;/h4&gt;
&lt;p&gt;多種多様なデータを一箇所に集約し、生データを直接活用できる。
OSSとしての責任も。&lt;/p&gt;
&lt;h3 id=&#34;データサイエンス&#34;&gt;データサイエンス&lt;/h3&gt;
&lt;p&gt;Opsだけでないデータ解析にも活用&lt;/p&gt;
&lt;h2 id=&#34;clouderaのビッグデータプラットフォーム戦略仮&#34;&gt;「Clouderaのビッグデータプラットフォーム戦略」（仮）&lt;/h2&gt;
&lt;h4 id=&#34;講師cloudera-inc-cto-dramr-awadallah&#34;&gt;講師：Cloudera, Inc. CTO Dr.Amr Awadallah&lt;/h4&gt;
&lt;p&gt;レガシーな情報アーキテクチャ→スケールできない、可視化の限界、硬直したスキーマなどなど。&lt;/p&gt;
&lt;p&gt;エンタープライズデータハブとしてのHadoopとか。&lt;/p&gt;
&lt;h2 id=&#34;ビッグデータの歴史と将来展望&#34;&gt;ビッグデータの歴史と将来展望&lt;/h2&gt;
&lt;h4 id=&#34;講師国立情報学研究所アーキテクチャ科学研究系教授佐藤一郎氏&#34;&gt;講師：国立情報学研究所　アーキテクチャ科学研究系　教授　佐藤一郎氏&lt;/h4&gt;
&lt;h3 id=&#34;ビッグデータの歴史的経緯とか&#34;&gt;ビッグデータの歴史的経緯とか&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;最初の事例はアメリカの1880年国勢調査。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;「ビッグデータがコンピュータを生み出した」。コンピュータがビッグデータを生み出したんじゃない。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;少量データにもHadoopを&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;バッチ処理のリアルタイム化とか（一晩から10分へ）&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;原点は検索データのインデクシング&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Hadoopを使うのが目的じゃないんだから、構築には手を掛けないのがいいよね。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;プラットフォームと発展している&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;分散システム研究者から見たhadoop&#34;&gt;分散システム研究者から見たHadoop&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;分散ししテムの難しさを、処理範囲を限定することで巧みに回避&lt;/li&gt;
&lt;li&gt;データの近くで処理&lt;/li&gt;
&lt;li&gt;研究レベルではリアルタイム化や逐次処理化が活発&lt;/li&gt;
&lt;li&gt;全工程で逐次・リアルタイムが必要とは限らない&lt;/li&gt;
&lt;li&gt;聞いてばかりじゃなくて、動かしてみましょう。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;データサイエンス超並列分散処理を活用した新たなビジネス価値の創出&#34;&gt;データサイエンス：超並列分散処理を活用した新たなビジネス価値の創出&lt;/h2&gt;
&lt;h4 id=&#34;講師アクセンチュア株式会社工藤卓哉氏&#34;&gt;講師：アクセンチュア株式会社　工藤卓哉氏&lt;/h4&gt;
&lt;ul&gt;
&lt;li&gt;「日経BPのビッグデータ総覧2013」に記事書いてる。&lt;/li&gt;
&lt;li&gt;多様化するデータ（社外のデータも）をどうやってうまく活用していくか。&lt;/li&gt;
&lt;li&gt;データが教えてくれたこと→まず、データありき、まずデータためましょう。それから解析とかすればいいのでは？というはなし？&lt;/li&gt;
&lt;li&gt;競合他社さんはNGだけど、ブースでデモ？実機？が見れますと。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;hadoopデータプラットフォーム&#34;&gt;Hadoopデータプラットフォーム&lt;/h2&gt;
&lt;h4 id=&#34;cloudera株式会社嶋内翔氏&#34;&gt;Cloudera株式会社　嶋内　翔氏&lt;/h4&gt;
&lt;h3 id=&#34;まずは宣伝&#34;&gt;まずは宣伝&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;Cloudera Implaraのフリーブックの日本語版&lt;/li&gt;
&lt;li&gt;Hadoop Operationの書籍でるよ&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;プラットフォームを構成するもの&#34;&gt;プラットフォームを構成するもの&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;Flume&lt;/li&gt;
&lt;li&gt;Sqoop&lt;/li&gt;
&lt;li&gt;HBase&lt;/li&gt;
&lt;li&gt;Hive&lt;/li&gt;
&lt;li&gt;Impala&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;データ登録してbiアナリストのお仕事にどうやって役立てる&#34;&gt;データ登録してBIアナリストのお仕事にどうやって役立てる？&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;外部テーブル：Hiveからはテーブルのように見える仕組み。元ファイルは消えない&lt;/li&gt;
&lt;li&gt;SerDe（さーでぃー）：データをHiveレコードに変換する仕組み&lt;/li&gt;
&lt;li&gt;生データを少し加工しましょう
&lt;ul&gt;
&lt;li&gt;圧縮したりファイル結合したりはしときましょう。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;Hadoop活用のポイント
&lt;ul&gt;
&lt;li&gt;富豪的プログラミング。リソースケチるな。&lt;/li&gt;
&lt;li&gt;ローカルでできることはローカル。むりにHadoopでやんなくてもいいですよねと。バランス重要&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;スケジューリング実行などはOozie使うと便利。（日次集計とか）&lt;/li&gt;
&lt;li&gt;Cloudera Searchで元データにインデックス貼れるぞと。検索しながら分析ができる&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;クラスタ管理とか&#34;&gt;クラスタ管理とか&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;Cloudera manager便利ですよ&lt;/li&gt;
&lt;li&gt;ストレージリソースの管理。
&lt;ul&gt;
&lt;li&gt;声掛け、管理者が容量チェック、Cloudera Managerのレポート&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;少数精鋭でHadoop使おう＝手が回らなくなる。&lt;/li&gt;
&lt;li&gt;みんなで使おう＝Kerberos認証とか管理をちゃんと考えないと。けど、文化が根付けば強力。Sentry、Cloudera Navigatorとか。&lt;/li&gt;
&lt;li&gt;Hadoopシステムの全体構成図。データの流れと各製品のつながり。&lt;/li&gt;
&lt;li&gt;We are hiring!ということで、興味のある方は@shiumachiさんにコンタクトをとりましょうとのこと。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;sqlで実現するバッチ処理とストリーム処理&#34;&gt;SQLで実現するバッチ処理とストリーム処理&lt;/h2&gt;
&lt;h4 id=&#34;line株式会社田籠-聡氏&#34;&gt;LINE株式会社　田籠 聡氏&lt;/h4&gt;
&lt;p&gt;資料：&lt;a href=&#34;http://www.slideshare.net/tagomoris/batch-and-stream-processing-with-sql&#34;&gt;Batch and Stream processing with SQL&lt;/a&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;LINEのキャラがちらほら出てきた。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;SQL好きですか？&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;ログの量とか。2.1TB/Day&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;バッチ処理とストリーム&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;速い集計のためにHadoopが重要&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;エラー系のログとかはストリームで処理したい&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;アーキテクチャ説明&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;データ解析する人って色々。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;管理者&lt;/li&gt;
&lt;li&gt;プログラマ&lt;/li&gt;
&lt;li&gt;サービスディレクタ&lt;/li&gt;
&lt;li&gt;経営陣&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;みんなが集計用処理を理解、編集ができるほうがいい。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;顔あげたらHiveアイコンだらけだったｗ&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Shibとか。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;なんでHiveに限るの？&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Hiveに着目したバージョンアップだけを考えれば良くなる。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;スケジュールクエリが増えてきて、つらい。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;TimeWindowを固定して集計処理をすることで、回避できる。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;norikra&#34;&gt;Norikra!!&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;スキーマレス&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;OSS。Esperベース。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;インストールが楽&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;クエリの動作のお話。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;a href=&#34;http://norikra.github.io&#34;&gt;http://norikra.github.io&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;We Are Hiring!&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;hadoop-コミュニティと-yarn-の現状&#34;&gt;Hadoop コミュニティと YARN の現状&lt;/h2&gt;
&lt;h4 id=&#34;日本電信電話株式会社小沢-健史氏&#34;&gt;日本電信電話株式会社　小沢 健史氏&lt;/h4&gt;
&lt;h3 id=&#34;なんでhadoop&#34;&gt;なんでHadoop？&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;PostgreSQLでやってたけど、大きなデータにはHadoopを使おうという感じになってきた。&lt;/li&gt;
&lt;li&gt;なんで使い分けるの？
&lt;ul&gt;
&lt;li&gt;スキーマ後付け&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;NTTDocomoのモバイル位置情報の統計処理とか？&lt;/li&gt;
&lt;li&gt;技術的な話をするので、HiveTに着替えます！ｗ&lt;/li&gt;
&lt;li&gt;YARNのなにが嬉しいの？
&lt;ul&gt;
&lt;li&gt;ImpalaとMapReduceが同時に動くような環境の時に、リソースをうまく管理できないのがV1&lt;/li&gt;
&lt;li&gt;そこでYARN&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;Apache Mesosとだいたい一緒。&lt;/li&gt;
&lt;li&gt;Apache MesosとYARNの比較&lt;/li&gt;
&lt;/ul&gt;
</content:encoded>
    </item>
    
  </channel>
</rss>
