Doğrusal regresyon nedir?
Doğrusal regresyon, ilgili ve bilinen başka bir veri değeri kullanarak bilinmeyen verilerin değerini tahmin eden bir veri analizi tekniğidir.. Bilinmeyen veya bağımlı değişkeni ve bilinen veya bağımsız değişkeni doğrusal bir denklem olarak matematiksel olarak modeller. Örneğin, geçen yılki harcamalarınız ve geliriniz hakkında verileriniz olduğunu varsayalım. Doğrusal regresyon teknikleri bu verileri analiz eder ve giderlerinizin gelirinizin yarısı olduğunu belirler. Daha sonra gelecekteki bilinen bir geliri yarıya indirerek bilinmeyen bir gelecekteki gideri hesaplarlar..
Doğrusal regresyon neden önemlidir?
Doğrusal regresyon modelleri, nispeten basittir ve tahminler oluşturmak için yorumlanması kolay bir matematiksel formül sağlar. Doğrusal regresyon, yerleşik bir istatistiksel tekniktir ve yazılım ile bilgi işlem için kolayca uygulanır. İşletmeler, ham verileri güvenilir ve tahmin edilebilir bir şekilde iş zekâsına ve eyleme dönüştürülebilir öngörülere dönüştürmek için kullanır. Bilim insanları birçok alanda, biyoloji ve davranışsal, çevresel ve sosyal bilimler dâhil, ön veri analizi yapmak ve gelecekteki trendleri tahmin etmek için doğrusal regresyon kullanır. Makine öğrenimi ve yapay zeka gibi birçok veri bilimi yöntemi, karmaşık problemleri çözmek için doğrusal regresyon kullanır.
Doğrusal regresyon nasıl çalışır?
Temelinde basit bir doğrusal regresyon tekniği, iki veri değişkeni olan x ve y arasında bir çizgi grafiği çizmeye çalışır. Bağımsız değişken olarak x, yatay eksen boyunca çizilir. Bağımsız değişkenlere açıklayıcı değişkenler veya öngörücü değişkenler de denir. Bağımlı değişken y, dikey eksende çizilir. Ayrıca y değerlerine yanıt değişkenleri veya tahmin edilen değişkenler de diyebilirsiniz.
Doğrusal regresyondaki basamaklar
Bu genel bakış için y ve x arasındaki çizgi grafiği denkleminin en basit şeklini göz önünde bulundurun; y=c*x+m denkleminde c ve m, x ve y'nin olası tüm değerleri için sabittir. Örneğin (x, y) için giriş veri kümesinin (1,5), (2,8) ve (3,11) olduğunu varsayalım. Doğrusal regresyon yöntemini tanımlamak için aşağıdaki adımları uygularsınız:
- Düz bir çizgi çizin ve 1 ile 5 arasındaki bağıntıyı ölçün.
- Tüm değerler uyana kadar yeni değerler (2,8) ve (3,11) için düz çizginin yönünü değiştirmeye devam edin.
- Doğrusal regresyon denklemini y=3*x+2 olarak tanımlayın.
- x olduğunda y'nin de 14 olduğunu sonucuna ulaşın veya tahmininde bulunun
Makine öğreniminde doğrusal regresyon nedir?
Makine öğreniminde, algoritma adı verilen bilgisayar programları büyük veri kümelerini analiz eder ve doğrusal regresyon denklemini hesaplamak için bu verilerden geriye dönük olarak çalışır. Veri bilimcileri, ilk önce algoritmayı bilinen veya etiketli veri kümeleri üzerinde eğitir ve ardından bilinmeyen değerleri tahmin etmek için algoritmayı kullanır. Gerçek hayattaki veriler, önceki örnekten daha karmaşıktır. Bu nedenle doğrusal regresyon analizi, aşağıdaki dört varsayımı karşılayacak şekilde veri değerlerini matematiksel olarak değiştirmeli veya dönüştürmelidir.
Doğrusal ilişki
Bağımsız ve bağımlı değişkenler arasında doğrusal bir ilişki bulunmalıdır. Bu ilişkiyi belirlemek için veri bilimcileri, düz bir çizgi boyunca düşüp düşmediklerini görmek için bir saçılım grafiği (rastgele x ve y değerleri) oluşturur. Düşmezlerse iki değişken arasındaki doğrusal ilişkiyi matematiksel olarak oluşturmak için karekök veya logaritma gibi doğrusal olmayan işlevleri uygulayabilirsiniz.
Artık bağımsızlık
Veri bilimcileri, tahmin doğruluğunu ölçmek için artıkları kullanır. Artık, gözlemlenen veriler ile tahmin edilen değer arasındaki farktır. Artıkların aralarında tanımlanabilir bir desen olmamalıdır. Örneğin artıkların zamanla büyümesini istemezsiniz. Artık bağımsızlığı belirlemek için Durbin-Watson testi gibi farklı matematiksel testler kullanabilirsiniz. Dönemlik veriler gibi herhangi bir veri varyasyonunu değiştirmek için sahte verileri kullanabilirsiniz.
Normallik
Q-Q grafikleri gibi grafik oluşturma teknikleri, artıkların normal olarak dağıtılıp dağıtılmadığını belirler. Artıklar, grafiğin ortasındaki çapraz bir çizgi boyunca düşmelidir. Artıklar normalleştirilmemişse verileri rastgele aykırı değerler veya tipik olmayan değerler için test edebilirsiniz. Aykırı sayıları kaldırmak veya doğrusal olmayan dönüşümler gerçekleştirmek sorunu çözebilir.
Eş değişkenlik
Eş değişkenlik, artıkların x'in her değeri için ortalamadan sabit bir değişikliğe veya standart sapmaya sahip olduğunu varsayar. Sahip değilse analiz sonuçları doğru olmayabilir. Bu varsayım karşılanmazsa bağımlı değişkeni değiştirmeniz gerekebilir. Değişiklik büyük veri kümelerinde doğal olarak meydana geldiğinden bağımlı değişkenin ölçeğini değiştirmek mantıklıdır. Örneğin bir şehirdeki itfaiye istasyonlarının sayısını tahmin etmek için nüfus büyüklüğünü kullanmak yerine, kişi başına itfaiye istasyonlarının sayısını tahmin etmek için nüfus büyüklüğünü kullanabilir.
Doğrusal regresyon türleri nelerdir?
Bazı regresyon analizi türleri, karmaşık veri kümelerini işlemek için diğerlerinden daha uygundur. Aşağıda bazı örnekler verilmiştir.
Basit doğrusal regresyon
Basit doğrusal regresyon doğrusal fonksiyon ile tanımlanır:
Y= β0*X + β1 + ε
β0 ve β1 regresyon eğimini temsil eden iki bilinmeyen sabitken, ε (epsilon) bir hata terimidir.
Bunlar gibi iki değişken arasındaki ilişkiyi modellemek için basit doğrusal regresyon kullanabilirsiniz:
- Yağış ve mahsul verimi
- Çocuklarda yaş ve boy
- Bir termometrede metal cıva sıcaklığı ve genleşmesi
Çoklu doğrusal regresyon
Çoklu doğrusal regresyon analizinde, veri kümesi bir bağımlı değişken ve birden çok bağımsız değişken içerir. Doğrusal regresyon çizgisi fonksiyonu aşağıdaki gibi daha fazla faktör içerecek şekilde değişir:
Y= β0*X0 + β1X1 + β2X2+…… βnXn+ ε
Tahmin unsuru değişkenlerinin sayısı arttıkça, β sabitleri de buna bağlı olarak artar.
Çoklu doğrusal regresyon, birden çok değişkeni ve bunların bir sonuç üzerindeki etkisini modeller:
- Mahsul veriminde yağış, sıcaklık ve gübre kullanımı
- Kalp hastalığında diyet ve egzersiz
- Ücret artışı ve konut kredisi oranlarında enflasyon
Lojistik regresyon
Veri bilimcileri, bir olayın meydana gelme olasılığını ölçmek için lojistik regresyonu kullanır. Tahmin, 0 ile 1 arasında bir değerdir; burada 0, gerçekleşmesi muhtemel olmayan bir olayı gösterir ve 1, bunun gerçekleşme olasılığının maksimum olduğunu gösterir. Lojistik denklemler, regresyon çizgisini hesaplamak için logaritmik fonksiyonları kullanır.
Şunlar birkaç örnektir:
- Bir spor karşılaşmasında galibiyet veya mağlubiyet olasılığı
- Bir testi geçme veya testte başarısız olma olasılığı
- Bir görüntünün meyve veya hayvan olma olasılığı
AWS, doğrusal regresyon sorunlarını çözmenize nasıl yardımcı olabilir?
Amazon SageMaker, yüksek kaliteli makine öğrenimi (ML) modellerini hızlı bir şekilde hazırlamanıza, oluşturmanıza, eğitmenize ve dağıtmanıza yardımcı olabilecek, tam olarak yönetilen bir hizmettir. Amazon SageMaker Otomatik Pilot, sınıflandırma ve regresyon sorunları için dolandırıcılık algılama, kayıp analizi ve hedeflenmiş pazarlama gibi genel bir otomatik ML çözümüdür.
Hızlı ve yaygın olarak kullanılan bir bulut veri ambarı olan Amazon Redshift, ML için Amazon SageMaker ile yerel olarak entegre olur. Amazon Redshift ML ile basit SQL ifadelerini kullanarak Amazon Redshift'te verilerinizden ML modelleri oluşturabilir ve eğitebilirsiniz. Daha sonra bu modelleri her türlü doğrusal regresyon problemini çözmek için kullanabilirsiniz.
Amazon SageMaker JumpStart'ı kullanmaya başlayın veya hemen bir AWS hesabı oluşturun.