Amazon FSx for Lustre のお客様
-
LG AI Research
LG AI Research LG AI Research は、世界をリードする AI のエキスパートとともに、最適な研究環境を提供して、最先端の AI テクノロジーを活用することで、AI の次の時代の先頭に立ち、お客様とともに明るい未来を実現することを目指しています。
課題: LG AI Research は、その基盤モデルである EXAONE を 1 年以内に本番環境にデプロイする必要がありました。EXAONE は「expert AI for everyone」(あらゆる人々のためのエキスパート AI) を意味しており、画像とテキストデータの両方を利用する 3,000 億個のパラメータを備えたマルチモーダルモデルです。
ソリューション: LG AI Research は、大規模な基盤モデルをトレーニングするために Amazon SageMaker を利用するとともに、データをインスタンスに分散してモデルのトレーニングを加速するために Amazon FSx for Lustre を利用しました。LG AI Research は、その基盤モデルである EXAONE を 1 年以内に本番環境にデプロイする必要がありました。LG AI Research は 1 年以内に EXAONE を成功裏にデプロイし、個別のインフラストラクチャ管理チームの必要性をなくすことで、コストを約 35% 削減しました。
-
Paige
Paige は、がん診断に効率と信頼性をもたらす本格的な AI 対応のウェブベースソリューションを提供する、先駆的なデジタルパソロジートランスフォーメーションプロバイダーです。
課題: Paige のオンプレミスソリューションは限界を迎えていました。同社の目標は、がんの病理診断を支援する AI および ML モデルをトレーニングすることでした。Paige は、コンピューティングキャパシティが多いほど、より迅速にモデルをトレーニングして診断上の問題の解決をサポートできることに気付きました。
ソリューション: ML トレーニングワークロードを実行するために、Paige は、NVIDIA A100 Tensor Core GPU を搭載した Amazon EC2 P4d インスタンスを選択しました。これは、クラウドでの ML トレーニングと HPC アプリケーションのために高いパフォーマンスを提供します。Paige は、人気のある高性能ファイルシステム上に構築されたフルマネージド共有ストレージである Amazon FSx for Lustre を利用しています。同社はこのサービスを Amazon S3 バケットの一部と接続しました。これは、開発チームが高性能ファイルシステム上にデータを手動で事前にロードすることなく、ペタバイト規模の ML 入力データに対処するのに役立ちます。AWS ソリューションを利用した結果、Paige は、ML のために AWS インフラストラクチャを利用して、オンプレミスデータの 10 倍の量をトレーニングできるようになりました。 また、Paige は、Amazon EC2 と Amazon FSx for Lustre を利用して、社内ワークフローを 72% 高速化することができました。
Amazon FSx for Lustre を Amazon S3 に接続することにより、これまでオンプレミスのインフラストラクチャで試した量の 10 倍のデータを問題なくトレーニングできます。
Paige、Staff AI Engineer、Alexander van Eck 氏 -
Toyota
Toyota Research Institute は、オブジェクト認識機械学習のトレーニング時間を短縮するために、FSx for Lustre を採用することにしました。
Toyota Research Institute (TRI) は、自動運転車 (AV) のテスト運転から大量のセンサーデータを収集して処理しています。各トレーニングデータセットは、オンプレミスの NAS デバイスにステージングされ、強力な GPU コンピューティングクラスターで処理される前に、Amazon Simple Storage Service (Amazon S3) に転送されます。TRI は、同社のコンピューティングリソースと組み合わせ、ML モデルのトレーニングを高速化し、データサイエンティストがより迅速にインサイトを得ることができるようにするために、高性能ファイルシステムを必要としていました。
当社では ML トレーニングデータセット用の並列ファイルシステムを必要としており、従来のファイルシステム製品と比較して可用性と耐久性が高かったことから Amazon FSx for Lustre を選択しました。また、S3 を含む AWS のサービスとの統合も、この製品が当社の高性能ファイルストレージとして好ましい選択肢となった 1 つの理由でした。
Toyota Research Institute、ソフトウェアエンジニア、David Fluck 氏 -
Shell
Shell は、石油、ガス、石油化学製品から、風力、太陽光、水素に至るまで、さまざまなエネルギーの動的なポートフォリオを提供しています。Shell は、顧客の生活に必要なエネルギーを誇りをもって供給しています。
課題: Shell は、モデルの構築、テスト、検証のために HPC に依拠しています。2020 年から 2022 年にかけて、GPU 利用率は平均 90% 未満となり、その結果として、プロジェクトが遅延し、新しいアルゴリズムの実験が制限されました。
ソリューション: Shell は、Amazon EC2 クラスターと Amazon FSx for Lustre を利用してクラウドにバーストすることで、オンプレミスのコンピューティングキャパシティを強化します。このソリューションにより、Shell は迅速にスケールアップおよびスケールダウンし、必要な場合にのみ、追加のコンピューティングキャパシティを購入できるようになります。Shell の GPU が最大限に活用されるようになったため、コンピューティングのコストが削減され、機械学習モデルのテストが高速化されています。
-
Storengy
ENGIE Group の子会社である Storengy は、天然ガスの大手サプライヤーです。同社は、ガス貯蔵、地熱ソリューション、カーボンフリーエネルギー生産、貯蔵テクノロジーを世界中の企業に提供しています。
製品が適切に保管されているようにするため、Storengy はハイテクシミュレーターを利用して地下のガス貯蔵を評価します。これは、ハイパフォーマンスコンピューティング (HPC) ワークロードの広範な利用を必要とするプロセスです。同社はまた、HPC テクノロジーを利用して、天然ガスの発見と探査を実行しています。
AWS のおかげで、一度に何百ものシミュレーションを実行できるスケーラビリティと高可用性を備えることができました。さらに、このソリューションは、当社のワークロードのピーク期間をサポートするために自動的にスケールアップまたはスケールダウンするため、HPC 環境について驚くようなことはありません。
Storengy、エンジニア、Jean-Frederic Thebault 氏 -
Smartronix
Smartronix は FSx for Lustre を活用して、SAS Grid のデプロイ用に、信頼性の高いハイパフォーマンスを実現しています。
Smartronix は、クラウドソリューション、サイバーセキュリティ、システム統合、世界規模の C5ISR とデータ分析、およびミッションに焦点を当てたエンジニアリングを、世界をリードする多くの商業組織や連邦組織に提供しています。Smartronix は、SAS Grid を利用して州全体の新型コロナウイルスの日次統計を分析および提供していましたが、セルフマネージド並列ファイルシステムの管理と保護が困難であることがわかりました。
AWS と協力して FSx for Lustre などのマネージドソリューションを活用することで、当社は、セルフマネージドファイルシステムよりも高い可用性と 29% 低いコストで、お客様により優れたサービスを提供できるようになりました。
Smartronix、シニアソリューションアーキテクト、Rob Mounier 氏 -
Netflix
Netflix は、受賞歴のあるさまざまなテレビ番組、映画、アニメ、ドキュメンタリーなどを提供するストリーミングサービスです。
課題: Netflix は、メディア用 ML モデル、ポストプロダクションのサムネイル、VFX、数千の動画や数百万のクリップのトレーラーの生成に大規模な分散トレーニングを利用しています。Netflix では、ノード間レプリケーションと 40% の GPU アイドル時間により、長い待ち時間が発生していました。
ソリューション: Netflix はデータロードパイプラインを再設計し、すべての動画/音声クリップを事前に計算することで効率を高めました。Netflix はまた、コンピューティングパフォーマンスを高速化するために、Amazon UltraClusters (EC2 P4d インスタンス) を選択しました。Amazon FSx for Lustre のパフォーマンスにより、Netflix は GPU を最大限に活用し、GPU のアイドル時間を実質的になくすことができます。Netflix は、事前計算と FSx for Lustre を利用して 3~4 倍の改善を実現し、モデルのトレーニング時間を 1 週間から 1~2 日に短縮できました。
-
Hyundai
Hyundai Motor Company は、自社ブランドの車両を 200 を超える国々に輸出する、世界的に高い認知度を誇る自動車メーカーとして成長しました。
課題: 自動運転でよく利用されるアルゴリズムの 1 つに、セマンティックセグメンテーションがあります。これは、画像のすべてのピクセルにオブジェクトクラスの注釈を付けるタスクです。これらのクラスとしては、道路、人、車、建物、植生、空などが考えられます。Hyundai は精度をテストし、特定の状況における不十分な予測パフォーマンスを修正するために追加の画像を収集します。しかし、これは困難な可能性があります。なぜなら、モデルのトレーニングと予定期限の遵守のために時間に余裕を確保しながら、すべての新しいデータを準備するのに十分な時間を設けることができないことが多いからです。
ソリューション: Hyundai は、単一 GPU から分散トレーニングに移行することを目的として、モデルトレーニングを自動化するために Amazon SageMaker を選択するとともに、データの並列処理のために Amazon SageMaker ライブラリを選択しました。データのコピーを待つことなくモデルをトレーニングするために、Amazon FSx for Lustre を選択しました。また、永続的なデータストレージとして Amazon S3 を選択しました。Hyundai は、8 個の GPU インスタンス (または合計 64 個の GPU) で最大 93% のスケーリング効率を達成しました。FSx for Lustre を利用することで、Hyundai は待ち時間なしで、同じデータに対して複数のトレーニングジョブと実験を実行できるようになりました。
-
Rivian
Rivian は、世界が永遠に冒険的な場所であり続けるようにすることを使命としています。当社は、より高い責任感をもって世界を探索する方法があると信じており、持続可能な輸送への移行をエキサイティングなものにすることを決意しています。
電気自動車メーカーの Rivian は、短期化するエンジニアリングのスケジュールに対応し、物理的なプロトタイプの必要性を減らすために、高度なモデリングとシミュレーションの手法を採用しています。高いコンピューティング性能を活用してシミュレーションを使用することによって、エンジニアは新しいコンセプトをテストし、設計を迅速に市場に投入できます。
Amazon との提携により、Rivian は IT ではなく、持続可能な車両の開発と納車に注力できるようになりました。また、Amazon を利用することで、主要な開発アプリケーションをオンプレミスよりも高速に実行できます。例えば、Elements で 56%、Siemens で 35%、Ansys で 20% の速度の向上を実現できました。
Rivian、CIO、Madhavi Osanaka 氏 -
DENSO
デンソーは、駐車や車線変更などの機能でドライバーを支援する先進運転支援システム (ADAS) 用のイメージセンサーを開発しています。
課題: ADAS 画像認識に必要な ML モデルを開発するために、デンソーは、オンプレミス環境で GPU クラスターを構築しました。しかし、複数の ML エンジニアが限られた GPU リソースを共有していたため、特に新製品のリリース前の繁忙期には生産性に影響が生じました。
ソリューション: Amazon SageMaker と Amazon FSx for Lustre を採用することで、デンソーは、データ取得、モデル開発、学習、評価にかかる時間を短縮し、ADAS 画像認識モデルの作成を加速することができました。
「人工知能と ML の分野では、クラウドへの移行は加速し続けるでしょう。当社が引き続き機能を追加していく中で、AWS が今後も当社をサポートし続けてくれることを確信しています」
デンソー、General Manager、Kensuke Yokoi 氏 -
Joby Aviation
Joby Aviation は AWS を利用して輸送に革命を起こしています。
課題: Joby のエンジニアは、ハイパフォーマンスコンピューティング (HPC) を利用して、それぞれ数百の CPU コアを使用する複雑でコンピューティングを多用する数値流体力学 (CFD) シミュレーションを何千回も実行しており、完了するまでに何時間もかかることがあります。
ソリューション: Amazon Elastic Compute Cloud (Amazon EC2) と Amazon FSx for Lustre を利用することで、Joby はオンプレミスの高性能コンピューティングインフラストラクチャと比較して CFD ワークロードからより迅速に結果を得ることができました。
一度に何十ものシミュレーションを実行しようとした際、数ギガバイトのデータを一度に読み書きしていましたが、これによってすべての動作速度が落ちてしまいました。FSx for Lustre は、このようなキャパシティの問題を解消してくれました。現在では、ハードドライブのサイズを簡単に大きくすることができます。
Joby Aviation、空気力学担当リーダー、Alex Stoll 氏 -
T-Mobile
T-Mobile は、Amazon FSx for Lustre を利用することで、年間 150 万 USD のコスト削減を実現し、SAS Grid ワークロードの速度を 2 倍にしました。
課題: T-Mobile は、自社のセルフマネージド SAS Grid ワークロードで、高い管理オーバーヘッドとパフォーマンスの問題に直面していました。
ソリューション: T-Mobile は、自社の SAS Grid インフラストラクチャを移行およびスケールするために、フルマネージド型の高性能ファイルシステムである Amazon FSx for Lustre をデプロイしました。T-Mobile は、Amazon FSx と S3 の緊密な統合を利用して、ストレージのオーバーヘッドを削減し、オペレーションを最適化しました。
Amazon FSx for Lustre は、当社が SAS Grid ワークロードの速度を 2 倍にし、総保有コストを 83% 削減し、運用上の負担を完全になくすのに役立ちました。AWS と提携することで、当社は、FSx の最先端のストレージ機能と AWS の世界クラスのホスティング機能を利用しながら、お客様のために革新的な製品を開発し、最も得意とすることに集中できます。
T-Mobile、ソフトウェア開発担当シニアマネージャー、Dinesh Korde 氏 -
Netflix
Netflix のエピソードドラマ『ザ・クラウン』のシーズン 4 の制作は思いがけない困難に直面しました。制作後の VFX 作業の開始が予定されていたちょうどその頃、新型コロナウイルス (COVID-19) によるパンデミックで世界がロックダウンに入ってしまったのです。強化されたスループットを実現するための Amazon FSx Lustre ファイルサーバーを含め、AWS でクラウドベースのワークフローを採用することで、10 名のアーティストで構成される Netflix の社内 VFX チームは、同シーズンの 10 のエピソードの、600 を超える VFX ショットをシームレスに完了することができました。期間はわずか 8 か月、すべてリモート勤務体制で行われました。
-
Maxar
Maxar が AWS を利用して気象スーパーコンピュータよりも 58% 速く予測を提供。
課題: 地球インテリジェンスと宇宙インフラストラクチャの分野において、信頼されるパートナーでありイノベーターでもある Maxar Technologies は、オンプレミスのスーパーコンピュータよりも迅速に天気予報を提供する必要がありました。
ソリューション: Maxar は AWS と協力して、Amazon Elastic Compute Cloud (Amazon EC2) (安全で信頼性の高いコンピューティングリソース用)、Amazon FSx for Lustre (アプリケーションの読み取り/書き込みスループットを高速化するため)、AWS ParallelCluster (AWS 上で HPC コンピューティング環境を迅速に構築するため) などの主要テクノロジーを備えた HPC ソリューションを作成しました。
Maxar は、NOAA の数値天気予報モデルを実行するために、AWS の HPC ソリューションで Amazon FSx for Lustre を利用しました。これにより、コンピューティング時間を 58% 削減し、約 45 分で予測を生成して、はるかに費用対効果の高いプライスポイントを実現できました。当社が有する AWS のコンピューティングリソースを最大限に活用したことで、パフォーマンスが大幅に向上しました。
Maxar Technologies、シニアデータサイエンティストおよびエンジニア、Stefan Cecelski 博士 -
INEOS TEAM UK
INEOS TEAM UK は、AWS を利用してアメリカズカップのヨット設計を加速しています。
課題: 2018 年に結成された INEOS TEAM UK は、世界最古の国際的なスポーツトロフィーであるアメリカズカップを英国が獲得することを目指しています。アメリカズカップでは、イベントの 150 日前まで水上テストを行うことができないため、勝利を収めるヨットを設計する上で、モノハルとフォイリングの高性能数値流体力学 (CFD) シミュレーションが鍵となります。
ソリューション: INEOS TEAM UK では、アメリカズカップのヨットの数千の設計シミュレーションのためにオンプレミス環境では 1 か月以上かけていたのが、AWS を利用することで 1 週間で処理できるようになりました。INEOS TEAM UK は、2021 年の第 36 回アメリカズカップに出場しました。チームは Amazon EC2 スポットインスタンスで実行されている HPC 環境を利用しています。 毎週実行される数千のシミュレーションで高速ディスクパフォーマンスを実現するために、チームは Amazon FSx for Lustre を利用して、Amazon Simple Storage Service (S3) に基づく高速かつスケーラブルで安全な高性能ファイルシステムを利用しました。
AWS を利用することで、結果を理解するために割ける時間が増え、このことだけでも、設計により注力できるようになりました。
INEOS TEAM UK、設計担当責任者、Nick Holroyd 氏 -
Hive VFX
Hive VFX は、スタジオの初期費用を削減し、AWS 上でクラウド VFX スタジオとして運営されています。
課題: Hive は、世界中のリモートアーティストが良質なコンテンツを生み出せるよう、小規模で独立したクラウドスタジオを立ち上げるために、高性能なインフラストラクチャを必要としていました。
ソリューション: Amazon S3 と統合されたフルマネージド Amazon FSx for Lustre を利用することで、多額の先行投資や専門性の高い社内 IT チームなしで、AWS のコンピューティングリソースに迅速にアクセスできるようになりました。FSx Lustre と S3 間のファイルデータとファイル許可のシームレスな同期により、Hive VFX は大量の画像を保存し、大陸を越えてプロジェクトデータを共有できるようになりました。
Amazon FSx for Lustre ファイルシステムは 5 分以内にスピンアップできます。そして、そのすべてが AWS によって管理されているのです。
Hive VFX、創業者、Bernie Kimbacher 氏 -
Lyell
Lyell は、Amazon FSx for Lustre を利用して、細胞ベースのがん治療研究を加速しています。
課題: Lyell は、タンパク質の大規模な計算設計を実行する必要がある、根治的な細胞ベースのがん治療を提供します。これらのワークロードは従来、オンプレミスで実行されていましたが、同社では 1 か月に 1 回の実験しか実行できないため、よりスケーラブルで費用対効果の高いソリューションを必要としていました。
ソリューション: ファイルシステムを FSx for Lustre に移行したことで、データサイエンティストは EC2 インスタンスと Amazon FSx ファイルシステムで構成される何千もの HPC クラスターをスピンアップおよびスピンダウンできるようになりました。これにより、処理量の多い実験を迅速に実行でき、ワークロードの期間中のみ、コンピューティングとストレージの料金を支払うようにすることができました。
Amazon for FSx Lustre は、次世代のがん治療法の開発における当社の研究をスピードアップしてくれます。FSx を利用することで、実験の実行時間を数週間から数時間に短縮でき、科学者が以前よりも多くの仮説を検証できるようになりました。数万のコンピューティングノードで実行されているワークロードは、FSx を利用して、非常に高いセットで S3 データにアクセスできるようになりました。
Lyell Immunopharma、データ分析エンジニアリング担当責任者、Anish Kejariwal 氏 -
BlackThorn Therapeutics
BlackThorn Therapeutics は、FSx for Lustre を利用してインサイトを得るまでの時間を短縮しています。
課題: 標準的な DiY クラウドファイルシステムを使用して磁気共鳴画像 (MRI) データを処理するには、大量のリソースと時間が必要でした。BlackThorn は、データサイエンスと機械学習のワークフローを簡素化するために、多くのコンピューティングを活用する共有ファイルストレージソリューションを必要としていました。
ソリューション: Amazon FSx for Lustre は Amazon S3 と Amazon SageMaker と統合されるため、ML トレーニングデータセットの処理が高速化されるほか、Amazon EC2 インスタンスを利用したコンピューティングへのシームレスなアクセスを可能にします。
FSx for Lustre を利用することで、高性能の MRI データ処理パイプラインを構築することができました。数日から数週間かかっていた ML ベースのワークフローのデータ処理時間は、数分に短縮されました。
BlackThorn Therapeutics、イノベーション & テクノロジー担当シニアディレクター、Oscar Rodriguez 氏 -
Qubole
Qubole は、Amazon FSx for Lustre を利用してコストを削減しつつ、データの耐久性を向上させます。
課題: Qubole は、顧客のために分析および AI/ML ワークロードを処理するための高性能ストレージソリューションを求めていました。EC2 スポットフリートに保存されている中間データを簡単に保存して処理する必要がありました。
ソリューション: Qubole は Amazon FSx for Lustre を利用して、並列高速ファイルシステムを通じて中間データを保存および処理しました。
ユーザーの 2 つの最大の問題は、高コストと中間データの損失です。これらの問題は、Hive や Spark などの分散処理フレームワークによって生成された中間データを処理および保存するために、アイドル状態の EC2 インスタンスと EC2 スポットインスタンスを利用していたことに起因するものでした。この問題は、高性能ファイルシステムである Amazon FSx for Lustre を利用して中間データをオフロードすることで解決できました。これで、ユーザーはアイドル状態のインスタンスを維持するために料金を支払う必要がなくなり、中断された EC2 スポットノードの影響を受けることもなくなりました。Amazon FSx は、当社のユーザーが総コストを 30% 削減するのに役立ちました。
Qubole、CTO、Joydeep Sen Sarma 氏