転移学習とは何ですか?
転移学習 (TL) は、あるタスクで事前にトレーニングされたモデルを、関連する新しいタスクに合わせてファインチューニングする機械学習 (ML) の手法です。新しい ML モデルのトレーニングは、時間と労力を要するプロセスであり、本番環境に移行するまでに大量のデータや計算能力、および数回の反復が必要です。代わりに、組織は TL を使用して、関連するタスクについて既存のモデルを新しいデータで再トレーニングします。たとえば、機械学習モデルが犬の画像を識別できれば、犬と猫の特徴の違いを強調する小さな画像セットを使用して猫を識別するようにトレーニングできます。
転移学習にはどのような利点がありますか?
TL は、ML アプリケーションを作成する研究者に次の利点のいくつかを提供します。
効率性の強化
ML モデルのトレーニングには、知識の蓄積とパターンの特定に時間がかかります。また、大量のデータセットが必要で、計算コストも高くなります。TL では、事前にトレーニングされたモデルがタスク、機能、ウ重み、機能に関する基本的な知識を保持しているため、新しいタスクにすばやく適応できます。より小さなデータセットとより少ない資源を使用して、より良い結果を得ることができます。
アクセシビリティの向上
深層学習ニューラルネットワークの構築には、大量のデータ、資源、計算能力、および時間が必要です。TL はこのような制作上の障壁を克服し、組織がカスタムユースケースに ML を採用できるようにします。既存のモデルをわずかなコストで要件に適合させることができます。たとえば、事前にトレーニングされた画像認識モデルを使用すると、医療画像分析、環境モニタリング、または顔認識用のモデルを最小限の調整で作成できます。
パフォーマンスの向上
TL を通じて開発されたモデルは、多くの場合、多様で困難な環境でも高い堅牢性を発揮します。最初のトレーニングでさまざまなシナリオにさらされていたため、現実世界の変動やノイズにうまく対処できます。より良い結果が得られ、予測できない状況にも柔軟に適応できます。
転移学習の戦略にはどのようなものがありますか?
TL を促進するために使用する戦略は、構築するモデルの領域、完了する必要のあるタスク、およびトレーニングデータの可用性によって異なります。
トランスダクティブ転移学習
トランスダクティブ転移学習では、特定のソースドメインから別の関連するターゲットドメインに知識を転送し、主にターゲットドメインに焦点を当てます。ターゲットドメインのラベル付きデータがほとんどまたはまったくない場合に特に便利です。
トランスデューティブ転移学習は、以前に得た知識を使用してターゲットデータについて予測を行うようモデルに求めます。ターゲットデータはソースデータと数学的に似ているため、モデルはパターンを見つけて実行速度を上げます。
たとえば、製品レビューでトレーニングされたセンチメント分析モデルを、映画レビューの分析に適用することを検討してください。ソースドメイン (製品レビュー) とターゲットドメイン (映画レビュー) は、コンテキストと詳細が異なりますが、構造と言語の使用方法は似ています。このモデルは、製品領域での感情の理解を映画の領域に適用する方法をすぐに学習します。
帰納的転移学習
帰納的転移学習では、ソースドメインとターゲットドメインは同じですが、モデルが完了しなければならないタスクは異なります。事前トレーニング済みモデルはすでにソースデータに精通しており、新しい機能に向けてより速くトレーニングできます。
帰納的転移学習の例としては、自然言語処理 (NLP) があります。モデルは大量のテキストで事前にトレーニングされ、帰納的転移学習を使用して感情分析などの特定の機能に合わせて微調整されます。同様に、VGG のようなコンピュータービジョンモデルは、大規模な画像データセットで事前にトレーニングされた後、オブジェクト検出を開発するために微調整されます。
教師なし転移学習
教師なし転移学習は、帰納的転移学習と同様の戦略を使用して新しい能力を開発します。ただし、ソースドメインとターゲットドメインの両方にラベルのないデータしかない場合は、この形式の転移学習を使用します。
モデルは、ターゲットタスクを実行するように指示されたときに、ラベル付けされていないデータの共通の特徴を学習して、より正確に一般化します。この方法は、ラベル付けされたソースデータを取得するのが難しい場合やコストがかかる場合に役立ちます。
たとえば、交通画像からさまざまな種類のオートバイを識別するタスクを考えてみましょう。最初は、ラベルのない車両画像の大規模なセットでモデルのトレーニングを行います。この場合、モデルは自動車、バス、オートバイなどのさまざまな種類の車両間の類似点と特徴を個別に判断します。次に、モデルに特定のオートバイの画像セットを紹介します。モデルのパフォーマンスは以前と比べて大幅に向上しています。
転移学習の手順は何ですか?
新しいタスクに合わせて機械学習モデルを微調整するには、主に3つの段階があります。
事前トレーニング済みのモデルを選択
まず、関連するタスクに関する予備知識またはスキルを備えた事前トレーニング済みのモデルを選択します。適切なモデルを選択する際に役立つコンテキストは、各モデルのソースタスクを決定することです。モデルが実行した元のタスクを理解していれば、新しいタスクにより効果的に移行できるタスクを見つけることができます。
事前トレーニング済みモデルの設定
ソースモデルを選択したら、知識をモデルに渡して関連タスクを完了するように構成します。これには主に 2 つの方法があります。
事前トレーニング済みのレイヤーをフリーズする
レイヤーはニューラルネットワークの構成要素です。各層はニューロンのセットで構成され、入力データに対して特定の変換を実行します。重みは、ネットワークが意思決定に使用するパラメーターです。最初はランダム値に設定されていましたが、モデルがデータから学習するにつれて、トレーニングプロセス中に重みが調整されます。
事前トレーニング済みレイヤーの重みを固定することで、深層学習モデルがソースタスクから取得した知識を維持しながら、それらが固定されたままにします。
最後のレイヤーを削除する
ユースケースによっては、事前トレーニング済みのモデルの最後のレイヤーを削除することもできます。ほとんどの ML アーキテクチャでは、最後のレイヤーはタスク固有です。これらの最後のレイヤーを削除すると、新しいタスク要件に合わせてモデルを再構成するのに役立ちます。
新しいレイヤーを導入する
事前にトレーニング済みモデルの上に新しいレイヤーを導入することで、新しいタスクに特化した性質に適応しやすくなります。新しいレイヤーは、新しい要件の微妙な違いや機能に合わせてモデルを調整します。
ターゲットドメインのモデルをトレーニングする
ターゲットタスクデータに基づいてモデルをトレーニングし、新しいタスクに合わせて標準出力を作成します。事前にトレーニング済みモデルは、必要な出力とは異なる出力を生成する可能性があります。トレーニング中にモデルのパフォーマンスを監視および評価した後、ハイパーパラメーターまたはベースラインニューラルネットワークアーキテクチャを調整して、出力をさらに改善できます。重みとは異なり、ハイパーパラメータはデータから学習されません。これらは事前に設定されており、トレーニングプロセスの効率と有効性を決定する上で重要な役割を果たします。たとえば、正則化パラメーターやモデルの学習率を調整して、ターゲットタスクに対する能力を向上させることができます。
生成系 AI における転移学習戦略とは何ですか?
転移学習戦略は、さまざまな業界で生成系 AI を採用する上で重要です。組織は、数十億ものデータパラメータを使用して新しいモデルを大規模にトレーニングすることなく、既存の基盤モデルをカスタマイズできます。以下は、生成系 AI で使用される転移学習戦略の一部です。
ドメイン敵対的訓練
ドメインの敵対的トレーニングでは、ターゲットドメインの実際のデータと見分けがつかないデータを生成するように基盤モデルをトレーニングします。この手法は通常、敵対的生成ネットワークに見られるような、真のデータと生成されたデータを区別しようとする弁別ネットワークを使用します。ジェネレーターは、ますます現実的なデータを作成する方法を学習します。
たとえば、画像生成では、写真で学習したモデルをアートワークを生成するように調整できます。ディスクリミネーターは、生成されたアートワークがターゲットドメインとスタイル的に一致していることを確認するのに役立ちます。
教師と生徒の学習
教師と生徒の学習には、より大きく複雑な「教師」モデルが、より小さくて単純な「学生」モデルを教えることが含まれます。学生モデルは、教師モデルの行動を模倣することを学び、知識を効果的に伝達します。これは、資源に制約のある環境に大規模な生成モデルを展開する場合に便利です。
例えば、大規模言語モデル (LLM) は教師の役割を果たし、その言語生成機能をより小さなモデルに移すことができます。これにより、小さいモデルでも計算オーバーヘッドを抑えて高品質のテキストを生成できます。
機能の解きほぐし
生成モデルにおける機能の解きほぐしには、内容やスタイルなどのデータのさまざまな側面を個別の表現に分離する必要があります。これにより、モデルは転移学習プロセスでこれらの側面を個別に操作できます。
たとえば、顔生成タスクでは、モデルが顔の機能を芸術的なスタイルから解ける方法を学習する場合があります。これにより、被写体の肖像画を保ちながら、さまざまな芸術スタイルのポートレートを生成できます。
クロスモーダル転移学習
クロスモーダル転移学習では、テキストや画像などのさまざまなモダリティ間で知識を転送します。生成モデルは、これらのモダリティ全体に適用できる表現を学習できます。テキストによる説明とそれに対応する画像でトレーニングされたモデルは、新しいテキストによる説明から関連する画像を生成することを学習し、その理解をテキストから画像に効果的に伝えることができるかもしれません。
ゼロショット学習と少数ショット学習
ゼロショット学習や少数ショット学習では、生成モデルがトレーニング中にほとんどまたはまったく例を見なかったタスクを実行したり、データを生成したりするようにトレーニングされます。これは、よく一般化する豊富な表現を学ぶことによって達成されます。たとえば、動物の画像を作成するように生成モデルをトレーニングできます。数ショット学習を用いて、他の動物の特徴を理解して組み合わせることで、めったに見られない動物の画像を生成することができます。
AWS は転移学習の要件にどのように役立ちますか?
Amazon SageMaker JumpStart では、基礎モデルを含む事前トレーニング済みのモデルにアクセスして、記事の要約や画像生成などのタスクを実行できる ML ハブです。転移学習を使用すると、元のモデルのトレーニングよりも低いトレーニングコストで、小規模なデータセットで正確なモデルを作成できます。たとえば、SageMaker JumpStart を使用すると、次のことが可能になります:
- トレーニング済みのモデルをユースケースやデータに合わせて完全にカスタマイズして、本番環境へのデプロイを迅速化します。
- 事前構築済みの解決にアクセスして、一般的な使用例を解決します。
- ML モデルやノートブックなどの ML アーティファクトを組織内で共有できます。
クロスモーダル転移学習アプローチを使用する場合、 Amazon SageMaker Debugger を使用して重大な隠れた問題を検出することもできます。たとえば、モデル予測を調べて間違いを見つけたり、モデルの堅牢性を検証したり、この堅牢性のどれだけが継承された能力によるものかを調べたりすることができます。現実的な期待に基づいて、モデルへの入力と前処理を検証することもできます。
今すぐ無料アカウントを作成して、AWS での転移学習を始めましょう。