Boot Strapping
Cluster Startup(クラスタの起動)
ノードはZookeeperのホストとポートを指定することから始めます。 クラスタの最初のノードはクラスタのschema/configとクラスタの設定を指定するとこから開始します。 最初のノードはZookeeperに設定をアップロードしてクラスタをブートします。 クラスタは「ブートストラップ」状態です。 この状態ではノード->パーティションマッピングは計算されず、クラスタはクラスタ管理コマンド以外のどんなread/writeリクエストも受け付けません。
- Cluster Lockを取得
- 「partitions」をパーティション数として割り当て
- 各パーティションのためのノードを取得
- ZooKeeperのノード->パーティションマッピングを更新
- Cluster Lockをリリース
- 全ノードに対して最新版のノード->パーティションマッピングをZooKeeper経由で更新させる
Node Startup
ノードが起動すると、自分がすでに存在するシャードの一部かどうかZooKeeperでチェックします。 もし、ZooKeeperがノードのレコードを持っていない、またはどのシャードの一部でもないと判断したら、 ノードは後述の「New Node」のステップを実行します。すでに存在するノードの場合は後述の「Node Restart」のステップを実行します。
New Node
「auto_add_new_nodes」クラスタプロパティが「false」の場合、新しいノードはZooKeeperに「idle」として登録され、他のノードが参加してくれと言うまで待機します。 そうでない場合(auto_add_new_nods=true)は次のステップを実行します。
- Cluster Lockを取得します。
- 適切なnode->partitionエントリを選び出します。
- 利用可能なパーティションのリストをスキャンして「replication_factor」のノード数以下のパーティションのエントリを探します。複数ある場合はノード数が最小のエントリを選びます。それも一緒ならランダムに選びます。
- 全パーティションが「replication_factor」以上のノードを持っている場合、ノードはパーティションが最も多いものをスキャンします。複数ある場合はパーティション内のドキュメント数が最大のエントリを選びます。ドキュメント数が同一なら任意のエントリを選びます。
- もし、選んだノード->パーティションエントリを現在のノードに移動させることでがクラスタのパーティション:ノード比率の最大値を小さくするなら、現在のエントリを返します。。それ以外の場合選ばれたエントリがないので、アルゴリズムは終了です。。
- ZooKeeper内のノード->パーティションマッピングを更新します
Node Restart
- JVMがクラッシュし、手動または自動でのリスタート
- ノードが一時的にネットワークから切り離された。もしくは、ZooKeeperに接続できなかった(死んでいると思われた)。または、ある一定期間、リーダーからの更新を受信できなかった。
- このシナリオが表す書き込み処理のライフサイクルの間にネットワークから分断された
- ハード故障もしくはメンテナンスウインドウによりクラスタからノードが分断され、ノードをクラスタにrejoinさせるために起動した。
ノードが各パーティションに対してメンバーであるパーティションのリストを読み、パーティションのリーダーがリカバリプロセスを実行する。その時、ノードは「auto_add_new_nods」プロパティをチェックして、「New Node」処理のステップを実行する。 これはクラスタが。。。(元の文章が切れてて意味が不明)
クライアントは標準的なSolrの更新形式を利用して書き込みできます。 書き込み処理はクラスタの任意のノードに送信されます。 ノードはハッシュ関数を利用して、どのパーティションに所属するか決めるためにrange-パーティションマッピングを使います。 ZooKeeperはシャードのリーダーを識別して、書き込み処理をそこに送ります。 SolrJはリーダーに対して書き込みを直接送信するための拡張がされています。
リーダーはPartitionバージョンの操作を割り当て、そのトランザクションログの操作を書き込み、シャードに属する他のノードにドキュメントバージョンハッシュを転送します。 ノードはインデックスにドキュメントハッシュを書き込み、トランザクションログに操作を記録します。 リーダーは、min_writesの最小数のノード以上のノードが「OK」とレスポンスを返したら「OK」とレスポンスを返します。 クラスタプロパティのmin_writesは書き込みリクエスト時に指定することで、異なる値を指定できます。
クラウドモードはコミット/ロールバック操作を明示的には行いません。 コミットは特定の間隔で(commit_within)リーダーによりオートコミットにより管理されます。 また、シャードの全メンバーのコミットはトリガーにより管理されます。 ノードが利用可能な最新バージョンはコミットの時点で記録されます。
Transaction Log
- トランザクションログは2つのコミットの間にインデックスに対して実行された操作全てを記録したもの
- コミットはそれ以前に実行された操作の耐久性を保証するために、新しいトランザクションログを開始します。
- 同期は調整が可能です。例えば、flush vs fsynです。fsyncがデフォルトで、JVMクラッシュに対して保証できるが、電源異常の場合には保証できないが、速度的には早いです。
- Bootstrap
- パーティション分割
- クラスタの再構築
ノードは自身に「recovering」というステータスを設定して復旧を開始します。 このフェーズの間、ノードは読み込みリクエストを受けることができませんが、トランザくkションログに書きこまれるすべての新しい書き込みリクエストを受け取ります。 ノードは自身が持つインデックスのバージョンを調べて、パーティションの最新バージョンのリーダーに問い合わせます。 リーダーはシャード内の残りのノードと同期する前に実行されるべき操作の集合を返します(???)。
最初にインデックスをコピーし、最新のノードにあるトランザクションログをリプレイします。 もし、インデックスのコピーが必要ならば、インデックスファイルをローカルにまずコピーし、その後トランザクションログをリプレイします。 トランザクションログのリプレイは通常の書き込みリクエストの流れと同じです。 この時、ノードは新しい書き込みを受け付けるかもしれません。その書き込みはインデックスに再生されるべきです。 ある時点でノードは最新のコミットポイントに追いつき、自身のステータスを「ready」にします。 この時点で、このノードは読み込みリクエストを処理できます。
Handling Node Failures
一時的にネットワークが分断され、幾つかのノードとZooKeeperの間の通信が遮断されるかもしれません。 クラスタはデータの再構築(リバランシング)の前にしばらく待ちが発生します。
Leader failure
ノードが故障し、もしそれがシャードのリーダだった場合、他のメンバーがリーダー選出のプロセスを開始します。 新しいリーダーが選出されるまで、このパーティションへの書き込みは受け付けられません。 この時、これはリーダー以外の故障ステップを処理します。(???)
Leader failure
シャードの一部に新しいノードが割り当てられる前にリーダーはmin_reaction_timeの間待ちます。 リーダーはCluster Lockを取得し、シャードの新規メンバーとしてノードを割り当てるためのノード-シャード割り当てアルゴリズムを使用します。 ZooKeeperのノード->パーティションマッピングが更新され、Cluster Lockがリリースされます。 新しいノードはZooKeeperからノード->パーティションマッピングを強制的にリロードされます。
Splitting partitions
明示的なクラスタ管理コマンドもしくはSolrによる自動的な分割戦略(ストラテジ)はパーティションを分割することができます。 明示的な分割コマンド(split command)は対象となるパーティションを分割するために実行されます。
パーティションXが100から199のハッシュの範囲を持つものとし、X(100から149)、Y(150~199)に分割するとします。 Xのリーダーは、XとYの新しい値の範囲をZooKeeperに分割アクションを記録します。 ノードはこの分割アクションもしくは新しいパーティションの存在については通知を受けません。(???)
- XのリーダはCluster Lockを取得し、パーティションY(アルゴリズムはto be determined)を割り当てるノードを決定し、新しいパーティションを知らせ、パーティション->ノードマッピングを更新します。Xのリーダはノードのレスポンスを街、新しいパーティションがコマンドを受付可能な状態になったら次の処理を実行します。
- Xのリーダーは分割が完了するまですべてのコミットを停止します。
- Xのリーダーは最新のコミットポイント(バージョンVとする)のIndexReaderをオープンし、同じバージョンのIndexReaderもオープンするように命じます
- XのリーダーはYのリーダーに対してバージョンV以降のトランザクションログのうちハッシュ値の範囲が150から199のものを流します。
- Yのリーダーはトランザクションログの#2(#3の間違い?)で送られたリクエストだけを記録します???
- Xのリーダーはステップ#2で開いたIndexReaderに対してインデックスの分割を開始します。
- #5で作成されたインデックスはYのリーダーに送られ、登録されます。
- Yのリーダーは「recovery」プロセスを開始するように(シャードの)他のノード命令し、インデックスのトランザクションログを再生し始めます。
- パーティションYのすべてのノードがバージョンVに到達したならば
- YのリーダーはXのリーダーに#2で作成されたReaderの上に、ハッシュの範囲が100から149だけに属しているドキュメントを抽出するようにするFilteredIndexReaderを準備するように頼みます。
- Xのリーダーは#8aのリクエストが完了したのを検知したら、YのリーダーがCluster Lockを取得し、クラスタ全体の検索/登録リクエストの受信を開始するためにレンジ->パーティションマッピングを変更します。
- YのリーダーはXのリーダーに検索リクエストのために#8aで作成されたFilteredIndexReaderの利用開始を頼みます
- YのリーダーはXのリーダーに、ZooKeeperからレンジ->パーティションマッピングを矯正リフレッシュするように頼みます。この時点で#3で開始されたトランザクションログの流しこみが停止されるのが保証されます。
- 分割操作が完了するまで、commit_withinパラメータによるパーティションの分割は実行されない
- #8b開始から#8c終了までの間の分散検索は一貫しない検索結果を帰す場合がある(例えば:検索結果が異なる)
Cluster Re-balancing
TBD (to be determined)
Cluster Re-balancing
TBD (to be determined)
- replication_factor:クラスタによって管理されるドキュメントのレプリカの数
- min_writes:書き込み操作が成功になる前の最小の書き込み????。これは書き込みごとに上書き設定可能
- commit_within:検索に現れるまでの書き込み操作の最大回数
- hash_function:ドキュメントのハッシュ値を計算するための関数の実装
- max_hash_value:ハッシュ関数が出力することができる最大値。理論的には、この値はクラスタが保持できるパーティションの最大数でもある
- min_reaction_time:起動、停止の後に再配分/分割にかかる時間(??)
- min_replica_for_reaction:レプリカノード数がこの値以下になったら、min_reaction_timeにならなくても分割が実行される。
- auto_add_new_nodes:booleanフラグ。もしtrueなら新しいノードは自動的にパーティションからレプリカを読み込む。そうでない場合は新しいノードはクラスタに「idle」状態で登録される
Cluster Admin Commands
すべてのクラスタ管理コマンドはすべてのノードでパス(/cluster_admin)を与えることで実行できます。 全ノードは同じコマンドを受け付けることができ、振る舞いも同じものになるでしょう。 以下のコマンドはユーザが利用できるパブリックなコマンドです。
- init_cluster:(パラメータ:パーティション)このコマンドはノードの集合の初期化後に実施されます。このコマンドが実行されるまで、クラスタは読み込み/書き込みコマンドを受け付けません。
- split_partition:(パラメータ:パーティション(任意))パーティションを2つに分割します。もしパーティションパラメータが指定されない場合は、ドキュメント数が最大の
- add_idle_nodes:このコマンドはauto_add_new_nodes=falseの場合に利用できます。このコマンドはクラスタに対して「idle」状態のすべてのノードを追加するトリガーとなります。
- move_partition:(パラメータ:パーティション、from、to)fromのノードからtoの別のノードに引数で指定されたパーティションを移動します。
- command_status:(パラメータ:completion_id(任意))上記コマンドはすべて非同期で実行され、completion_idを返します。このコマンドは特定の実行中のコマンドもしくは全ての実行中のコマンドの状態を表示するために利用できます。
- status:(パラメータ:パーティション(任意))パーティションのリストを表示し各パーティションの次の情報を表示します。
- リーダーノード
- ノードのリスト
- ドキュメント数
- 平均読み込み回数(reads/sec)
- 平均書き込み回数(writes/sec)
- 平均読み込み時間(time/read)
- 平均書き込み時間(time/write)
Migrating from Solr to SolrCloud
クラウドに移行するときに幾つかの特徴は不要かもしれないし、サポートされないかもしれません。 既存の(クラウドでない)バージョンでのすべての特徴をSolrCloudでサポートし続けなければなりません。
- レプリケーション:これは必要ありません。
- CoreAdminコマンド:明示的なコアの操作は許可されません。内部にコアがあるかもしれないが、暗黙的に管理されるでしょう
- 複数スキーマのサポート?:単純化のため、ver1.0ではサポートしないかもしれない
- solr.xml:SolrCloudでほんとに必要?
Alternative to a Cluster Lock
リーダーを選出する常設の調停ノード(masterはインデックスレプリケーションで利用している用語なので、「調停」とする)を持つほうが単純かもしれません。 「truth」状態をZookeeperの状態としてみなすような次のパターンでは、将来の柔軟性(クラスタを制御するためのZookeeperの状態を直接変更するような外部管理ツールのような)を考慮に入れることができます。 (毎回ロックを取得するよりも)調停ノードを持つことにより、よりスケーラブルになるかもしれません。 特定条件下でのみCluster Lockを利用するハイブリッドも意味があるでしょう。
Single Node Simplest Use Case
単一ノードでスタートして、ドキュメントをインデックス登録できないといけません。 また、あとで、クラスタに2番目のノードを追加できないと行けません。
- 1つのノードから開始し、最初にZookeeperに設定ファイルをアップロードし、shard1にノードを作成+登録します。
- 他の情報がない状態で設定が作成され、1つのシャードのシステムとなります。
