@johtaniの日記 3rd

@johtani's blog 3rd edition

Solrの新しい管理画面（Solr4.x trunk系）(Jugemより移植)

Lucene/SolrのMLでSolrの管理画面を新しくするというチケットが流れていたのでちょっと触って見ました。ほんとにちょっと触っただけですが、いくつかキャプチャ撮ってみたので、アップしときます。 ※以下ではサムネイル画像に元画像（100Kくらいの画像）へのリンクが設定されています。携帯などでは見づらいかもしれませんが、ご容赦を。

2011-10-05 by johtani

New SolrCloud Designの翻訳（その2）(Jugemより移植)

遅くなりましたが、続きです。さらに英語力のなさを痛感して凹んでいるところですが、何かの役に立てばと恥を晒すところです。。。一応、訳してみたのですが、訳すのに必死になってしまい、つながりがわかっていない点もちらほら。このあと一旦見直しつつ、再度理解する「理解編」をアップしようかと思います。できれば、シーケンス図とかも交えつつ。（そうしないと理解ができない可能性が。。。）前回同様、原文は最後に付加しておきます。

2011-10-04 by johtani

New SolrCloud Designの翻訳（その１）(Jugemより移植)

ちょっと興味があるので、訳してみました。（Wikiのページはこちら）更新されているようなので、もとの文章も残しておきます。（ページ下部の続きはこちら部分以降）全部訳そうと思ったのですが、終わらなかったので、まずは前半部分です。まだ、訳しただけで理解できてない。。。（英語力のなさをさらけ出してしまうのですが、これも修行です。。。おかしいところはツッコミを。）

2011-09-28 by johtani

Hadoop Conference Japan 2011 Fallに参加してきました。(Jugemより移植)

Hadoop Conference Japan 2011 Fallに行ってきました。まずは、ユーザ会の方々、運営の方々、発表された方々お疲れ様でした。こんな機会を用意していただき、ありがとうございます。 Hadoopは昨年触っていたのですが、最近は縁がなくなってしまいました。ただ、触っていたときに面白かったので参加してきました。ということで、今回も自分用にメモを取ったので。（今回は英語のヒアリングがあって、メモがひどい事になってます。。。）いつものことながら、おかしいところとかあれば、ツッコミなどフィードバックをもらえると嬉しいです。

2011-09-27 by johtani

「7つの言語　7つの世界」 Io 0日目(Jugemより移植)

台風15号すごかったですね。幸いにも（？）夏休みだったので、通勤などでひどい目に合わずにすみました。風雨はすごくてちょっと怖かったですが。。。

2011-09-23 by johtani

Lucene/Solr 3.4リリース（速報）(Jugemより移植)

Solr/Lucene 3.4がリリースされました。（速報）以下、各サイトへのリンクです。 Solrリリースのお知らせ Luceneリリースのお知らせちなみに、先日のSolr勉強会で関口さんが話されていたインデックスが壊れるバグですが、先日のアメリカのハリケーン（Irene）で実際に電源が落ちて見つかったみたいです。

2011-09-15 by johtani

「7つの言語　7つの世界」 Ruby 3日目（最終日）(Jugemより移植)

ということで、Rubyの最終日の感想。今回もセルフスタディの私の回答が最後の方に記載されてます。見たくない人は気をつけてください。ツッコミ大募集です。コメント欄にどしどしコメントください。そこは違うだろ？こっちのほうがいいのでは？という感じで。

2011-09-14 by johtani

第6回Solr勉強会に参加しました。(Jugemより移植)

「第6回Solr勉強会」に参加しました。なんだかんだと第6回で、今のところ皆勤賞です。ということで、主に自分用ですが、メモなどとったので。概要日時 :2011/09/12 19:00 to 21:00 定員 :110 人会場 :株式会社 ECナビ 1.「Lucene/Solr 3.2-3.4」 by ロンウイット関口宏司さん ※Solr2.9.4、3.1でデグレードし、Solr3.4で修正されたバグがあります。インデックス中にPCがシャットダウンされた場合にインデックスが壊れてしまうものあり。 Solr3.1-3.3は使用しないようにとのこと。 ○index ・IndexWriter.addDocuments(docs) 複数ドキュメントの更新が可能になった。 ※検索で話をする親子関係のNestedQuery向けの登録にも利用する。この登録では途中でフラッシュされないため、セグメントが分割されない特徴あり。複数だけでなく、・TieredMergePolicy ※Lucene3.2/Solr3.3からデフォルトになった。新しいインデックスのマージポリシー。（amebaの開発者ブログに説明があった。）インデックスの登録順が守られていたが、このマージ処理では保証がされなくなったので注意が必要。・update.chain update.processorがdeprecatedに。 update.chainというパラメータに変更 ○index(cont'd) ・TwoPhaseCommit ・UniqFieldsUpdateProcessor 重複した値を削除するための機能。 UIMAでの提案から取り込まれた ○search ・group=on 検索グルーピング機能を使えるパラメータ・{!term} クエリパーサを通さないでTermQueryをかける機能。・structured explanation debug=onの算出根拠を XMLタグで構造化されたExplanationが取得可能に・ReloadCacheRequestHandler 関口さん担当。ExternalFileField インデックス外（外部ファイル）を元にFunctionQueryの情報を利用可能にできるのだが、このファイルのリロードが可能になる。・Carrot2　3.5.0 アップグレード。デモあり。Carrot2のworkbenchとか　○search(cont'd) ・hl.phraseLimit parameter FastVectorHighlighterの高速化用パラメータ。・{!cache=false} キャッシュを利用しないためのローカルパラメータ。fqのローカルパラメータに利用可能。検索セッション内でキャッシュへの処理（参照・登録）をしなくなる・BlockJoinQuery NestedDocumentQueryの名前が変更された。（Luceneで登録されたところまで。） ○schema ・KStemFilter PoterStemmerとは別のstemmer ・ReversePathHierarchyTokenizer パスの構造化インデックスの逆バージョン・ommitPositions="true" 指定が可能になった。・version 1.4 スキーマのバージョンが新しくなった。 ○admin/tools ・action=MERGEINDEXES&srcCore=coreName コア名指定可能。・action=UNLOAD&deleteIndex=true UNLOAD時にインデックス削除・action=CREATE&property.name ※ぎゃーーー。打ち込み失敗。 ○ぎゃーーーー失敗。 ○技術者大募集中！！ Q&A Q：クラスタリングの日本語は大丈夫？入門には制限があると記載があったが。 A：analyzerが記載が簡単になってるかは不明前処理をして別フィールドにメタデータ的にある程度単語で区切ったようなものを作成したほうがいい。 Q：グルーピングで、グルーピング後のファセット件数が取得可能か？ A：3.4ではグループ数で表示可能。パラメータ指定で可能。 2.「Solr＠cookpad」 by ＠PENGUINANA_ さん ○COOKPADとは？・レシピ投稿サイト・105万のユーザのレシピ・30代女性の1/2が利用 ○レシピ検索・PC：1307万UU、1億回強/月・モバイルで利用が多く、スーパの店頭などで利用？・Androidもあるよ。 ○人気順検索（Solrですよ） ○自己紹介・＠PNGUINANA_ ・情報可視化＋検索が好き！！ yats、など ○Solrはどのように利用・レシピ検索・もしかして ○Tritonnから移行同じ検索結果になるようにして徐々に移行 ○なぜ？パフォーマンスが良い。フィールド追加が簡単レプリケーション->ファイルベースプロトタイピングが楽 ○Solr4 nightly（on Oracle JVM）・マルチコア利用・Ruby on Railsから ○簡単な構成＋説明・バッチからSolrへの更新をしている。 ※Analyzerを利用せず、バッチ側で分かち書き、正規化、同義語展開を行っている。 Rubyで全部かけるほうが社内に展開しやすい。・バッチ終了後、可能ならoptimize ※検索速度がmax20%高速になる。・マスタ->スレーブレプリケーションはschema.xmlもレプリケート新規フィールド追加などはレプリケーションだけで実行できて楽。・アプリはMySQLとSolrのSlaveにアクセス。 Solrにはidのみ。本文はMySQLから取得インデックスサイズを小さくできる＝レプリケーション時間が短くなるオンメモリにできるため検索速度も向上 ○監視（munin）・監視項目（コア別）：クエリ：QTime/QPS キャッシュ：hit/eviction キャッシュから漏れている数をみてキャッシュサイズを定期的に変更して無駄をなくすインデックス：サイズ/docの数運用してから重要。開始当初は気にしてるが、そのうち気にならなくなるため。レプリケーション：所要時間スレーブ間でのズレを検知するため。 ※コアごとに監視することで、問題点を把握しやすくしている。 ○監視（nagios）・監視項目（コア別）：サーバの基本的なヘルスチェック Solrが動いてるサーバのはなし。レプリ：インデックスバージョンのチェックズレが長いとメールが飛ぶ ○便利だった機能・DynamicField フィールドをあとから簡単に追加可能。例：人気順のアルゴリズムの違うフィールド。検索用フィールド・FacetQuery 絞り込み検索をクエリで記載可能。現時点では社内向け検索機能で利用。 ※ファセットで簡単な解析もやってる。例：鍋の季節ごとの登録件数。・HTTP経由で色々可能検索の並列化通常検索画面：3クエリを同時実行あるプロトタイプ画面だと8クエリで実行したりしてる。・分散検索（Distributed Search）簡単にsharding可能思いクエリは４shardで投げるオーバヘッドが大きいので思いクエリにだけ利用しているらしい。 ○開発の流れ・まずはステージングを更新・問題なければマスターも更新例外：フィールド追加するだけだったら直接マスタへ例：ファセット追加など。 ○パフォーマンスとか大丈夫？本番で複数のバージョンを持っており、バグっていても自動フォールバックするらしい。価値があったらパフォーマンス向上＋テスト追加例：スニペット変更 ○気になっている機能・not to cache(SOLR-2429) ・SurroundQuery(Solr-2703) ・JOIN(SOLR-2272) SQLのJOINなイメージ・BloomFilter(SOLR-1375) 単語が存在するかどうかのチェック ○Solr入門おすすめ ○おすすめ・http://blog.sematext.com 月一で新機能が出てくる・SolrのJIRA ・@otisg ○今後やりたいこと・わかち書きの精度向上・検索セッションの分析 nDCG、クエリ分類、検索意図・デバイス対応・パーソナライズ Q&A Q：同義語は誰が集めている？ A：外部辞書を利用。０件キーワードから解析して取得単語登録も一緒。 Q：プチトマトとトマトの違いはどうやってる？ A：上位、下位の概念で同義語を利用している。本にあるよ。 Q：もしかしてはSolrの機能？ A：Solrではない。訂正候補の単語をSolrに検索してからチェックして表示する。 Q：人気順はどういった計算をしてるんですか？計算してから登録？By 大谷 A：１フィールドに外から入れている。 Q：RubyからSolrの利用方法は？独自？ライブラリ？By 大谷 A：Rsolrを利用しており、コネクション管理にだけ利用している。あとは、ラッパーを独自で作成。 Q：4.0を利用している理由は？なかなかチャレンジャー。By関口 A：グループクエリを利用したかったため。実際には重くて使えていない。今は必要ないかもと思っている。年始のバージョンを利用。いつでも入れ替え可能。マスタスレーブ構成のsolrのバージョンアップはサービスアウトしてから入れ替える。 3. 「Solrを用いた検索システムの構築」　by データセクション株式会社高井さんいろいろな試行錯誤について ○データセクションについて言語処理を元にデータの解析（Twitterとかブログとか）している会社。・昔は自社で検索サーバを構築していた・Luceneを利用して検索サーバを構築するように変更。 ○構成（過去？）・Lucene＋RMI 3.0から縮小で、4.0で廃止に ○SolrにするかLuceneにするか？・いろいろ機能があるからSolr使ってみるかｗ ○Solr導入は1.4.1からスペックマスタ：メモリ：16G Disk：2Tｘ12 スレーブ： 256GのSSDを利用 JavaVMが32bit ○ひと月分を1shardにして登録 ○検証＋手探り？メモリが足りない。 Solrのキャッシュを全Offに。 BOBO SolrPluginってのを利用 compressオプションも利用。各スレーブにキューを用意して1つだけしか処理しない。（なんでだ？？） ○結果キャッシュはフィルタキャッシュのみ利用ユーザが同じクエリを投げるのはほぼないので。フィルタキャッシュのエントリのメモリ量の計算式（あとで資料が出てくるかなぁ。） ○問題点・レプリケーションでインデックスサイズの2倍の容量が必要になる。・レプリケーションの日時フォーマットのバグ（SOLR-1995）を踏んでしまった。・レプリケーション後にインデックスが消えない場合がある ○検討（1.4.1->3.2）うれしい要素レプリケーションバグがfix 省メモリや範囲検索の高速化など　かなしい要素 compressが使えなく（しかも回答してからriindexしてくれる） ○検討余計なインデックス消す nearinfinityが出しているlucene-compressionを利用 https://github.com/nearinfinity/lucene-compression ○残った問題 facet.rangeが使えないなど。 ○じゃあ集約サーバつくっちゃえ（すごいな。） facet書き換えコンポーネントなど。 ○シャードのインデックスサイズが下がった 130GiB->90GiB これはlucene-compressionの効果 ○ここまでの変更はプラグインにて対応（この一覧いいかも） ○感想コンポーネント化されてて、簡単に追加機能が実装可能用途次第であまりスペック高くなくても使える。 Q&A Q：Twitterのデータのクロール方法は？ A：HTMLをスクレイピングしている。publicなTLのみ。 Q：いきなりSolrに入れる？Solrの前処理は？ A：SolrJを利用して前処理済みのデータを登録している。 4. 「Anuenueの紹介と最近の進捗」 by @takahi_i さん（mixi） ○自己紹介・NAIST出身・ファストサーチ・今はmixi ○mixiとは？ ○社内の緊急タスク・内製検索エンジンをメンテナンスしやすいOSSにしたい！ ->Solrを選択 Anuenueも実装 ○Anuenueの作成理由は？インデックス運用が面倒（検索（distributed search）はあるがインデックスは自前）クラスタ用のコマンドが提供されていない。 ○Anuenueが提供する機能・検索クラスタの簡単設定・クラスタ用コマンド・もしかして機能 ○機能：Anuenueのクラスタ設定 Merger：クライアントからのクエリをMasterに分散 Master：インデックス作成側 Slave：検索用スレーブ。マスタからコピー ○クラスタの管理コマンドクラスタのコマンドを用意。起動、コミット、登録など ○SolrCloud向けのAnuenueを検討中 branch-cloudにあります。今後の予定インスタンス追加削除を動的に実行できるようにしたい ○Hadoop Conferenceの宣伝ｗ Oluolu：Hadoop上で動くクエリログマイニングツール Likelike：LSHをHadoopで実装（Hadoop Conference 2011 Fallで発表） 5. LT 5.1　「solrとRの連携について」　by @yutakashino さん（BakFoo） Python本、Zope本を書いてます。 ○NHKの実証実験で利用？ ○TwitterストリームをSolrにストア facet.date ○Rでキーワード頻度グラフ Node.js、Redis、R、Solrを使ってる。しかもPython ○デモキーワード＋日付でグラフが出てくる。 Rでプロット。 GoogleのチャートAPIを利用すると面白いことができる。 5.2　「 Apache ManifoldCF」　by 阿部さん(ロンウィット) ○Apache Incubator ○Manifold Connector Framework Solr ＜－ MCF ＜－ web＋non-web repositories すぐに利用可能。 ○概要出力はSolr。接続先はWeb、DB、CMS、などなどいろいろRepositoryConnectorというのがあります。 ○Crawler Agent クロールに関するJobの管理接続先、スケジュールなど ○Windowsサーバのクロールもできる社内のナレッジ共有などに使える。権限周りも簡単に対応可能。 JCIFS.jarによりWindowsの権限情報を取得 ○クロール設定画面もあるデモ ○導入が簡単なのがおすすめ。 ○ManifoldCFの資料関連 http://www.manning.com/wright 懇親会についてはあとで記載します！！ということで追記です。懇親会でも色々と面白い話を聞けました。 @PENGUINANA_さんにはCOOKPADのCI関連の話を聞けました。 1日に数度リリースするという話もあるようでした。

2011-09-12 by johtani

「7つの言語　7つの世界」 Ruby 2日目(Jugemより移植)

ということで、Ruby2日目の感想（2日目だけで2日間かかったのは内緒。。。）今回もセルフスタディの私の回答が最後の方に記載されてます。見たくない人は気をつけてください。ツッコミ大募集です。コメント欄にどしどしコメントください。そこは違うだろ？こっちのほうがいいのでは？という感じで。

2011-09-10 by johtani

「7つの言語　7つの世界」 Ruby 1日目(Jugemより移植)

実に3年ぶりくらいにゆっくりできる日々が訪れたので、積読状態の本を消化しようと「7つの言語　7つの世界」を読み始めました。せっかくブログも始めたので、備忘録も兼ねて感想などを書いていこうかと。

2011-09-09 by johtani