データローカリティはストレージのパフォーマンスにのみ関係すると思いますか?もう一度考えてみてください!

2 years ago
21 July 2021
0 replies
746 views

Userlevel 3

TetsuoMiyoshi
Nutanix Employee
4 replies

本記事は2020年6月11日にJosh Odgers氏が投稿した記事の翻訳版です。

原文はこちらです。

Nutanixの競合他社が、データローカリティは重要ではないと自分自身やお客様を納得させようと必死に努力しようとも、ネットワーキングを含むリソースを不必要に使うことは、非効率であり、ボトルネックとなって機能面やパフォーマンスに影響を与える可能性があるという事実は変わりません。

Nutanixは、当初よりこのような課題に対処するためにAOSを設計し、データローカリティが特にプラットフォームの成功の鍵となり、私どものお客様環境を拡大し、長年にわたり最もミッションクリティカルなエンタープライズワークロードをサポートしてきました。

ここでは、データローカリティのそれほど目立たないながらも重要な利点をいくつか紹介します。

1. より高速なvMotion/ノードフェイルオーバー

使用可能なネットワーク帯域幅が増えるほどvMotionの処理は早く完了し、VMとアプリケーションへの影響が少なくなるため、明らかな効果が得られます。

VM のパフォーマンスが向上するだけでなく、ストレージ、ハイパーバイザ、ハードウェアのメンテナンス/アップグレードのためにメンテナンスモードに入るホストなどの運用保守業務を迅速に完了できます。

ビジネスクリティカルアプリケーションが、vMotionの影響を長時間受けたことはありませんか? vMotionに十分な帯域幅を確保することは、vBCA(ビジネスクリティカルアプリケーション)を仮想環境で利用する上で重要です。

2. 同期/非同期レプリケーションの帯域幅の更なる確保

実際の状況では、フロントエンドVMのIOPS/スループットだけではなく、目標復旧時点 (RPO)と目標復旧時間(RTO)に関する実際に必要なSLAを満たすことも必要です。

レプリケーションをスケジュール通りに実行するために使用できる帯域幅が不足している場合、SLAの達成に影響を与える可能性があります。

3. クラスターの再構築/再同期のパフォーマンス

ドライブ、ノード、ブロック、またはラックの障害が発生すると、HCI 製品は再構築/再同期を実行して、設定されたレベルの回復力に復旧します。(通常、2つか 3つのデータのコピー、または同等のパリティを持っています)。

これらの操作は、データの整合性を復元し、その後の障害によりデータが失われる可能性がある時間を短縮するために重要です。

使用可能な帯域幅が多いほど、再構築がより速く行われます。

Nutanix分散ストレージファブリックと組み合わせると、スケーラビリティ、回復力、パフォーマンスブログシリーズとして投稿している「ノード障害再構築パフォーマンス」というタイトルのブログで説明しているように、再構築が非常に迅速に実行される可能性があり、Nutanixが再構築の分散性と高スループットを達成できることを示しています。

4. クラスターバランシング

Nutanixは、ポストプロセスのバランシングの必要性と実際の処理を最小限に抑えるために、書き込みパスにおいてプロアクティブにクラスター内のデータをバランシングしていますが、それでもこれら(ポストプロセス)のバランシングが必要となることはあります。

使用可能な帯域幅が多いほど、バランシングの発生による本番環境への影響が最小限に抑えられる可能性が高まります。

5. ノードの削除

ノードをクラスターから削除する際、クラスターはノードがオフラインになる前に、確実にすべてのデータを設定されたレジリエンシーファクターに準拠させます。

Nutanixは、多くのアーキテクチャで(ネットワークの世界におけるメッシュのように)このアクションを実行します。使用可能な帯域幅が多いほど、これらのノードの削除が速くなり、クラスターは通常動作を再開できます。

6. ノードの追加

厳密に言えば、ノードの追加は、少なくともNutanixでは帯域幅が追加され、容量がすぐに利用可能であり、VMが新しいホストに移行されていなくても、書き込みレプリカにサービスを提供することでクラスターのパフォーマンスを向上させます。

しかし、ノードが追加されると、新しいノードは空であるのに対して既存のノードにはすでにデータが存在するため、クラスターはある種の不均衡が生じやすくなります。

このような場合には、キュレータースキャンごとに各ノードに対して数TBのデータしか移動しない程度の優先度の低いタスクとして、ポストプロセスでのバランシングを実行します。この結果、意図的ではありますが、ディスクのバランシングは何時間も、あるいはクラスターのバランシングが完了するのは数日後となる可能性があります。

しかしこの間にも、クラスター内にノードが増えた結果としてパフォーマンスはさらに向上し、追加容量も即座に利用可能な状態となっているため、フロントエンド IO はすでに新しいノードから恩恵を受けています。クラスターのバランスが崩れていても、クラスターのパフォーマンスへの影響が最小限に抑えられます。実際、クラスタは技術的には不均衡であり、ディスクバランシングを実行しているとしても、フロントエンドのパフォーマンスは通常、新しいノードを追加した直後に向上します。

7. クラスタ間VMトラフィック

HCI環境の目的は、ストレージだけでなくワークロードを実行することであることを忘れないでください。これらのVMは相互に通信しますが、ストレージやネットワークの処理完了を待機している VM はクラスターのCPU効率を低下させるため、使用可能な帯域幅が多いほど優れていると言えるでしょう。

8. ゲスト/クライアントトラフィック

繰り返しになりますがHCI環境は、単にサービスを提供するだけでなく、クラスターによって提供されるサービスにアクセスしている他のクラスターやエンドユーザがいる可能性があります。

ネットワークの使用率が極めて高い場合、バタフライエフェクトのようにして、最終的にエンドユーザーにまで影響が及ぶ可能性があります。

しかし、ネットワークI/O制御はどうでしょうか?

私は長年にわたってネットワークI/O制御(NIOC)を推奨し、使用してきましたが、極論を言えばその手段では単に発生したトラフィックを制御する以上のことは出来ません。HCIソリューションのネットワークへの依存性を、積極的に最小限に抑えるように設計することこそが根本的解決であり、それ以外は妥協案でしかありません。

より高速なネットワークはどうですか?

問題に対してハードウェアで解決を図ることは、対処方法の1つですが、非効率的であり、インフラストラクチャの設計上の問題に蓋をしているだけです。高速ネットワークおよびフラッシュデバイスに投資するだけでは、これらのリソースがバックエンド機能に無駄遣いされ、たとえ全体的なシステムパフォーマンスや拡張性が向上する可能性があるとしても、ROI を悪化させます。

Nutanixのアプローチにおいては、小規模な環境から1000以上の大規模なノード展開に至るまで、ネットワークの効率性を最大限確保することは非常に重要です。

それでもデータローカリティが重要だと信じていませんか? ビッグデータ環境のパフォーマンスに対するネットワークトラフィックが与える影響の比較を確認してください。使用率の高いネットワークがNutanixに与える影響は最小限ですが、VMware vSAN (DellEMC VxRAIL) においてはビッグデータを処理する時間が2倍になることを明確に示しています。

Nutanix独自の優れたデータローカリティ実装の評価

書き込みI/Oパスの比較

読み取りI/Oパスの比較

This topic has been closed for comments