線形回帰とは何ですか?
線形回帰とは、既知のデータ値を使用して、関連する別の未知のデータの値を予測するデータ分析手法です。未知の従属変数と、既知の独立変数を線形方程式として数学的にモデル化します。例えば、あなたの昨年の支出と収入に関するデータがあるとします。線形回帰手法では、このデータを分析し、支出が収入の半分であると判断します。次に、将来の既知の収入を半分にすることによって、将来の未知の支出を計算します。
線形回帰はどのように機能しますか?
線形単回帰手法とはつまり、2 つのデータ変数 x と y の間に直線のグラフをプロットすることを試みます。独立変数として、x は横軸に沿ってプロットされます。独立変数は、説明変数または予測変数とも呼ばれます。従属変数である y は、縦軸にプロットされます。y 値を目的変数または被予測変数と呼ぶ場合もあります。
線形回帰のステップ
この概要では、y と x の関係を最も単純に表現する直線グラフ式 y=c*x+m を考えてみましょう。c と m は x と y が取りうるすべての値に対して一定です。例えば、(x, y) の入力データセットが (1,5)、(2,8)、(3,11) であるとします。線形回帰法を特定するには、次のステップに従います。
- 直線をプロットし、1 と 5 の相関を測定します。
- 新しい値である (2,8) と (3,11) について、すべての値がフィットするまで直線の方向を変え続けます。
- 線形回帰方程式を y=3*x+2 として特定します。
- y が 14 になる x の値を推定または予測します。
機械学習における線形回帰とはどのようなものですか?
機械学習では、アルゴリズムと呼ばれるコンピュータプログラムが大きなデータセットを分析し、そのデータから逆算して線形回帰式を計算します。データサイエンティストは、まず既知またはラベル付けされたデータセットでアルゴリズムをトレーニングし、次にそのアルゴリズムを使用して未知の値を予測します。実際のデータは、前の例よりも複雑です。そのため、線形回帰分析では、次の 4 つの仮定を満たすために、データ値を数学的に変更または変換する必要があります。
線形関係
独立変数と従属変数の間には線形関係が存在する必要があります。この関係を特定するために、データサイエンティストは散布図 (無作為な x 値と y 値の集合) を作成して、それらが直線上にあるかどうかを確認します。直線上にない場合は、平方根や対数などの非線形関数を適用して、2 つの変数間の線形関係を数学的に作成できます。
残差の独立性
データサイエンティストは、残差を使用して予測精度を測定します。残差とは、観測データと予測値の差です。残差の間に識別可能なパターンがあってはなりません。例えば、残差が時間とともに大きくなるのは望ましくありません。Durbin-Watson 検定などのさまざまな数学的検定を使用して、残差の独立性を判断できます。季節データなどのデータ変動は、ダミーデータを使用して置き換えることができます。
正規性
Q-Q プロットなどのグラフ化手法により、残差が正規分布しているかどうかを判断します。残差は、グラフの中央にある対角線に沿うことが望まれます。残差が正規化されていない場合は、データに無作為な外れ値や典型的でない値があるかを検定できます。外れ値を削除するか、非線形変換を実行すると、問題が解決する場合があります。
分散均一性
分散均一性は、残差がすべての x の値についての平均から等分散または標準偏差だけ離れていることを前提としています。そうでない場合、分析の結果が正確でない可能性があります。この仮定が満たされない場合は、従属変数を変更する必要があります。分散は大規模なデータセットでは自然に発生するため、従属変数のスケールを変更することは理にかなっています。例えば、人口規模を使用してある都市の消防署の数を予測する代わりに、人口規模を使用して 1 人あたりの消防署の数を予測できます。
線形回帰の種類にはどのようなものがありますか?
一部のタイプの回帰分析は、複雑なデータセットの処理により適しています。いくつかの例を次に示します。
線形単回帰
線形単回帰は、一次関数によって定義されます。
Y= β0*X + β1 + ε
β0 と β1 は回帰勾配を表す 2 つの未知の定数ですが、ε (イプシロン) は誤差項です。
線形単回帰を使用して、次のような 2 つの変数間の関係をモデル化できます。
- 降雨量と作物収量
- 子供の年齢と身長
- 温度計内の水銀の温度と膨張
線形重回帰
線形重回帰分析では、データセットに 1 つの従属変数と複数の独立変数が含まれます。線形回帰の直線関数は、次のように、より多くの因子を含む形に変化します。
Y= β0*X0 + β1X1 + β2X2+…… βnXn+ ε
予測変数の数が増えるにつれて、β 定数の数も増加します。
線形重回帰は、複数の変数とそれらが結果に与える影響をモデル化します。
- 作物収量に対する降雨量、温度、肥料の使用
- 心臓病に対する食事と運動
- 住宅ローン金利に対する賃金上昇とインフレ
ロジスティック回帰
データサイエンティストは、ロジスティック回帰を使用して事象が発生する確率を測定します。予測は 0~1 の値で、0 は起こりそうもない事象を示し、1 は発生する可能性が最も高い事象を示します。ロジスティック方程式は、対数関数を使用して回帰直線を計算します。
次に例を示します。
- スポーツの試合での勝敗の確率
- 試験の合格または不合格の確率
- 画像が果物または動物である確率
AWS は線形回帰問題の解決をどのようにサポートできますか?
Amazon SageMaker は、高品質の機械学習 (ML) モデルの迅速な準備、構築、トレーニング、デプロイに役立つフルマネージドサービスです。Amazon SageMaker Autopilot は、不正検出、チャーン分析、ターゲットマーケティングなど、分類や回帰の問題に対応する汎用的な自動 ML ソリューションです。
高速で広く使用されているクラウドデータウェアハウスである Amazon Redshift は、Amazon SageMaker for ML とネイティブに統合されています。Amazon Redshift ML では、シンプルな SQL ステートメントを使用して、Amazon Redshift のデータから ML モデルを作成およびトレーニングできます。その後、これらのモデルを使用して、あらゆるタイプの線形回帰問題を解決できます。
今すぐ Amazon SageMaker JumpStart の使用を開始するか、AWS アカウントを作成しましょう。