Hồi quy tuyến tính và hồi quy logistic khác nhau ở điểm nào?
Hồi quy tuyến tính và hồi quy logistic là các kỹ thuật máy học đưa ra dự đoán bằng cách phân tích dữ liệu trước đây. Ví dụ: Nhờ quan sát xu hướng mua hàng trước đây của khách hàng, phân tích hồi quy sẽ ước tính doanh số bán hàng trong tương lai để bạn có thể đưa ra quyết định mua hàng tồn kho sáng suốt hơn. Kỹ thuật hồi quy tuyến tính lập mô hình toán học cho yếu tố chưa biết dựa trên nhiều yếu tố đã biết để ước tính giá trị chưa biết chính xác. Tương tự, hồi quy logistic sử dụng toán học để tìm ra mối quan hệ giữa hai yếu tố dữ liệu. Sau đó, kỹ thuật này sử dụng mối quan hệ đã tìm được để dự đoán giá trị của những yếu tố đó dựa trên yếu tố còn lại. Dự đoán thường cho ra một số kết quả hữu hạn, như có hoặc không.
Đưa ra dự đoán: hồi quy tuyến tính so với hồi quy logistic
Cả hồi quy tuyến tính và hồi quy logistic đều sử dụng mô hình toán học để dự đoán giá trị của biến đầu ra từ một hoặc nhiều biến đầu vào. Biến đầu ra là biến phụ thuộc và biến đầu vào là biến độc lập.
Hồi quy tuyến tính
Mỗi biến độc lập có mối quan hệ trực tiếp với biến phụ thuộc và không có mối quan hệ nào với các biến độc lập khác. Mối quan hệ này được gọi là mối quan hệ tuyến tính. Biến phụ thuộc thường là một giá trị từ một loạt các giá trị liên tục.
Đây là công thức, hoặc hàm tuyến tính, để tạo ra mô hình hồi quy tuyến tính:
y= β0 + β1X1 + β2X2+… βnXn+ ε
Sau đây là ý nghĩa của mỗi biến:
- y là biến phụ thuộc được dự đoán
- β0 là điểm chặn y khi tất cả các biến đầu vào độc lập bằng 0
- β1X1 là hệ số hồi quy (B1) của biến độc lập đầu tiên (X1), giá trị tác động của biến độc lập đầu tiên trên biến phụ thuộc
- βnXn là hệ số hồi quy (BN) của biến độc lập cuối cùng (XN), khi có nhiều giá trị đầu vào
- ε là lỗi mô hình
Một ví dụ về hồi quy tuyến tính là dự đoán giá nhà (biến phụ thuộc) dựa trên số phòng, khu phố và tuổi nhà (các biến độc lập).
Hồi quy logistic
Giá trị của biến phụ thuộc là một trong danh sách các danh mục hữu hạn sử dụng phân lớp nhị phân. Chúng được gọi là các biến danh mục. Một ví dụ là kết quả từ việc lăn một con xúc xắc sáu mặt. Mối quan hệ này được gọi là mối quan hệ logistic.
Công thức hồi quy logistic áp dụng phép biến đổi logit, hoặc logarit tự nhiên của tỷ lệ cược, cho xác suất thành công hay thất bại của một biến phân loại cụ thể.
y = e^(β0 + β1X1 + β2X2+… βnXn+ ε) / (1 + e^(β0 + β1 x 1 + β2 x 2 +… βn x n + ε))
Sau đây là ý nghĩa của mỗi biến:
- y đưa ra xác suất thành công của biến phân loại y
- e (x) là số Euler, nghịch đảo của hàm logarit tự nhiên hoặc hàm sigmoid, ln (x)
- Β0, β1X1…βnXn có cùng ý nghĩa với hồi quy tuyến tính trong phần trước
Một ví dụ về hồi quy logistic là dự đoán khả năng giá nhà trên 500.000 USD (biến phụ thuộc) dựa trên số lượng phòng, khu phố và tuổi nhà (các biến độc lập).
Hồi quy tuyến tính và hồi quy logistic có những điểm tương đồng gì?
Hồi quy tuyến tính và hồi quy logistic có một số điểm chung và có không gian ứng dụng phạm vi rộng tương tự.
Phân tích thống kê
Hồi quy logistic và hồi quy tuyến tính là cả hai hình thức thống kê hoặc phân tích dữ liệu, và thuộc lĩnh vực khoa học dữ liệu. Cả hai đều sử dụng mô hình toán học để liên hệ một tập hợp các biến độc lập hoặc đã biết với các biến phụ thuộc. Bạn có thể biểu diễn cả hồi quy logistic và hồi quy tuyến tính dưới dạng phương trình toán học. Bạn cũng có thể biểu diễn mô hình trên biểu đồ.
Kỹ thuật máy học
Cả hai mô hình hồi quy tuyến tính và hồi quy logistic đều được sử dụng trong máy học có giám sát.
Máy học có giám sát liên quan đến việc đào tạo một mô hình bằng cách nhập các tập dữ liệu được gắn nhãn. Các biến phụ thuộc và độc lập được xác định và thu thập bởi các nhà nghiên cứu con người. Bằng cách nhập dữ liệu cũ đã biết, phương trình toán học được thiết kế ngược. Cuối cùng, các dự đoán có thể chính xác để tính toán các biến phụ thuộc chưa biết từ các biến độc lập đã biết.
Học có giám sát khác với học không có giám sát, nơi dữ liệu không được gắn nhãn.
Tìm hiểu về công nghệ máy học »
Khó đào tạo
Cả hồi quy logistic và hồi quy tuyến tính đều yêu cầu một lượng đáng kể dữ liệu được gắn nhãn để các mô hình trở nên chính xác trong các dự đoán. Đây có thể là một nhiệm vụ khó khăn đối với con người. Ví dụ: nếu bạn muốn gắn nhãn xem một hình ảnh có chứa ô tô hay không, thì tất cả các hình ảnh phải có thẻ của các biến như kích thước ô tô, góc ảnh và vật cản.
Độ chính xác dự đoán hạn chế
Một mô hình thống kê phù hợp với dữ liệu đầu vào với dữ liệu đầu ra không nhất thiết bao hàm mối quan hệ nhân quả giữa biến phụ thuộc và biến độc lập. Đối với cả hồi quy logistic và hồi quy tuyến tính, mối tương quan không phải là mối quan hệ nhân quả.
Để sử dụng ví dụ về giá nhà từ phần trước, giả sử tên của chủ nhà tham gia danh sách các biến độc lập. Sau đó, cái tên John Doe tương quan với giá bán nhà thấp hơn. Mặc dù hồi quy tuyến tính và hồi quy logistic sẽ luôn dự đoán giá nhà thấp hơn nếu tên của chủ sở hữu là John Doe, logic cho thấy mối quan hệ này với dữ liệu đầu vào là không chính xác.
Những điểm khác biệt chính: hồi quy tuyến tính so với hồi quy logistic
Hồi quy logistic và hồi quy tuyến tính khác nhau nhất trong các cách tiếp cận toán học của chúng.
Giá trị đầu ra
Đầu ra hồi quy tuyến tính là một thang giá trị liên tục. Ví dụ: bao gồm số, kilomet, giá cả và trọng lượng.
Ngược lại, giá trị đầu ra của mô hình hồi quy logistic là xác suất xảy ra một sự kiện phân loại cố định. Ví dụ: 0,76 có thể có nghĩa là 76% cơ hội mặc áo sơ mi xanh và 0,22 có thể có nghĩa là 22% cơ hội bỏ phiếu đồng ý.
Mối quan hệ biến đổi
Trong phân tích hồi quy, đường hồi quy là hình dạng của đường đồ thị biểu diễn mối quan hệ giữa mỗi biến độc lập và biến phụ thuộc.
Trong hồi quy tuyến tính, đường hồi quy thẳng. Bất kỳ thay đổi nào về biến độc lập đều có ảnh hưởng trực tiếp đến biến phụ thuộc.
Trong hồi quy logistic, đường hồi quy là đường cong hình chữ S, còn được gọi là đường cong sigmoid.
Kiểu phân phối toán học
Hồi quy tuyến tính tuân theo phân phối chuẩn hoặc Gauss của biến phụ thuộc. Phân phối chuẩn được mô tả bằng một đường liên tục trên đồ thị.
Hồi quy logistic tuân theo phân phối nhị thức. Phân phối nhị thức thường được mô tả dưới dạng biểu đồ thanh.
Thời điểm sử dụng hồi quy tuyến tính so với hồi quy logistic
Bạn có thể sử dụng hồi quy tuyến tính khi bạn muốn dự đoán một biến phụ thuộc liên tục từ thang giá trị. Sử dụng hồi quy logistic khi bạn mong đợi kết quả nhị phân (ví dụ: có hoặc không).
Dưới đây là các ví dụ về hồi quy tuyến tính:
- Dự đoán chiều cao của người lớn dựa trên chiều cao của mẹ và cha
- Dự đoán doanh số bán bí ngô dựa trên giá, thời gian trong năm và vị trí cửa hàng
- Dự đoán giá vé máy bay dựa trên điểm xuất phát, điểm đến, thời gian trong năm và hãng hàng không
- Dự đoán số lượt thích trên mạng xã hội dựa trên người đăng, số lượng người theo dõi hữu cơ, nội dung của bài đăng và thời gian trong ngày đăng bài
Dưới đây là các ví dụ về hồi quy logistic:
- Dự đoán một người có mắc bệnh tim hay không dựa trên chỉ số BMI, tình trạng hút thuốc lá và bẩm chất di truyền
- Dự đoán mặt hàng quần áo bán lẻ nào sẽ phổ biến nhất dựa trên màu sắc, kích thước, loại và giá cả
- Dự đoán một nhân viên sẽ nghỉ việc trong năm đó hay không dựa trên mức lương, số ngày ở văn phòng, số lượng cuộc họp tham gia, số lượng email được gửi, nhóm làm việc và nhiệm kỳ
- Dự đoán thành viên nào trong nhóm bán hàng sẽ có hơn 1 triệu USD ký hợp đồng trong một năm dựa trên doanh số, nhiệm kỳ và tỷ lệ hoa hồng của năm trước
Tóm tắt những điểm khác biệt: hồi quy tuyến tính so với hồi quy logistic
Hồi quy tuyến tính |
Hồi quy logistic |
|
Đó là gì? |
Một phương pháp thống kê để dự đoán giá trị đầu ra từ một tập hợp các giá trị đầu vào. |
Một phương pháp thống kê để dự đoán xác suất của giá trị đầu ra từ một danh mục nhất định từ một tập hợp các biến phân loại. |
Mối quan hệ |
Mối quan hệ tuyến tính, được biểu diễn bằng một đường thẳng. |
Mối quan hệ logitic hoặc mối quan hệ sigmoid, được biểu diễn bằng một đường cong hình chữ S. |
Phương trình |
Tuyến tính. |
Logarit. |
Kiểu học có giám sát |
Hồi quy. |
Phân loại. |
Kiểu phân phối |
Bình thường/gauss. |
Nhị thức. |
Trường hợp sử dụng phù hợp nhất |
Các tác vụ yêu cầu một biến phụ thuộc liên tục được dự đoán từ một quy mô. |
Các tác vụ yêu cầu khả năng dự đoán của một biến phụ thuộc trong danh mục xảy ra từ một tập hợp các danh mục cố định. |
Làm cách nào bạn có thể chạy phân tích hồi quy tuyến tính và hồi quy logistic trên AWS?
Bạn có thể chạy phân tích hồi quy tuyến tính và hồi quy logistic trên Amazon Web Services (AWS) bằng Amazon SageMaker.
SageMaker là một dịch vụ máy học được quản lý toàn phần, tích hợp các thuật toán hồi quy cho cả hồi quy tuyến tính và hồi quy logistic, trong số những gói phần mềm thống kê khác. Bạn có thể triển khai hồi quy tuyến tính với nhiều giá trị đầu vào cần thiết hoặc giải quyết các vấn đề hồi quy với các mô hình xác suất logistic.
Ví dụ: sau đây là cách bạn có thể hưởng lợi khi sử dụng SageMaker:
- Chuẩn bị, xây dựng, đào tạo và triển khai các mô hình hồi quy một cách nhanh chóng
- Loại bỏ công việc nặng nhọc khỏi mỗi bước thực hiện của quy trình hồi quy tuyến tính và hồi quy logistic và phát triển các mô hình hồi quy chất lượng cao
- Truy cập tất cả các thành phần cần thiết để phân tích hồi quy trong một bộ công cụ duy nhất để đưa các mô hình vào sản xuất nhanh hơn, dễ dàng hơn và chi phí hợp lý hơn
Bắt đầu với phân tích hồi quy trên AWS bằng cách tạo tài khoản ngay hôm nay.