선형 회귀와 로지스틱 회귀의 차이점은 무엇인가요?
선형 회귀와 로지스틱 회귀는 과거 데이터를 분석하여 예측하는 기계 학습 기법입니다. 예를 들어 회귀 분석은 과거의 고객 구매 경향을 살펴봄으로써 향후 판매 동향을 추정하므로 더 많은 정보에 입각하여 재고를 구매를 할 수 있습니다. 선형 회귀 기법은 알려진 여러 요인에 대해 미지의 요인을 수학적으로 모델링하여 정확한 미지의 값을 추정합니다. 마찬가지로 로지스틱 회귀는 수학적인 방법을 사용하여 두 데이터 요소 간의 상관 관계를 찾습니다. 그런 다음 이 관계를 사용하여 다른 요인을 기반으로 이러한 요인 중 하나의 값을 예측합니다. 예측은 일반적으로 예 또는 아니요와 같이 유한한 수의 결과를 가집니다.
예측: 선형 회귀와 로지스틱 회귀
선형 회귀와 로지스틱 회귀 모두 수학적 모델링을 사용하여 하나 이상의 입력 변수에서 출력 변수의 값을 예측합니다. 출력 변수는 종속 변수이고 입력 변수는 독립 변수입니다.
선형 회귀
각 독립 변수는 종속 변수와 직접적인 관계가 있고 다른 독립 변수와는 관계가 없습니다. 이 관계를 선형 관계라고 합니다. 종속 변수는 일반적으로 연속값 범위의 값입니다.
선형 회귀 모델을 만드는 공식 또는 선형 함수는 다음과 같습니다.
y= β0 + β1X1 + β2X2+… βnXn+ ε
각 변수의 의미는 다음과 같습니다.
- y는 예측된 종속 변수입니다.
- β0은 모든 독립 입력 변수가 0일 때의 y-절편입니다.
- β1X1은 첫 번째 독립 변수(X1)의 회귀 계수(B1)이며, 첫 번째 독립 변수가 종속 변수에 미치는 영향 값입니다.
- βnXn은 입력 값이 여러 개인 경우 마지막 독립 변수(XN)의 회귀 계수(BN) 입니다.
- ε은 모델 오차입니다.
선형 회귀의 예로는 방 수, 이웃, 연령(독립 변수)을 기반으로 주택 가격(종속 변수)을 예측하는 것이 있습니다.
로지스틱 회귀
종속 변수의 값은 바이너리 분류를 사용하는 유한 범주 목록의 값입니다. 이를 범주형 변수라고 합니다. 6면 주사위를 굴릴 때 나오는 결과를 예로 들 수 있습니다. 이 관계를 로지스틱 관계라고 합니다.
로지스틱 회귀의 공식은 특정 범주형 변수의 성공 또는 실패 확률에 로짓 변환 또는 확률의 자연 로그를 적용합니다.
y = e^(β0 + β1X1 + β2X2+… βnXn+ ε) / (1 + e^(β0 + β1 x 1 + β2 x 2 +… βn x n + ε))
각 변수의 의미는 다음과 같습니다.
- y는 y 범주형 변수의 성공 확률을 나타냅니다.
- e(x)는 오일러의 수로, 자연 로그 함수 또는 시그모이드 함수 ln(x)의 역수입니다.
- Β0, β1X1…βnXn은 이전 섹션의 선형 회귀와 같은 의미를 갖습니다.
로지스틱 회귀 분석의 예로는 방 수, 이웃, 연령(독립 변수)을 기반으로 주택 가격이 50만 USD(종속 변수)를 넘을 확률을 예측하는 것이 있습니다.
선형 회귀와 로지스틱 회귀의 유사점은 무엇인가요?
선형 회귀와 로지스틱 회귀는 몇 가지 공통점을 공유하며 유사한 응용 분야에서 광범위하게 사용됩니다.
통계적 분석
로지스틱 회귀와 선형 회귀 모두 통계 또는 데이터 분석의 형태이며 데이터 과학 분야에 속합니다. 둘 다 수학적 모델링을 사용하여 독립 변수 또는 알려진 변수 세트를 종속 변수와 연관시킵니다. 로지스틱 회귀와 선형 회귀 모두 수학 방정식으로 표현할 수 있습니다. 모델을 그래프로 표현할 수도 있습니다.
기계 학습 기법
선형 회귀 모델과 로지스틱 회귀 모델 모두 지도형 기계 학습에 사용됩니다.
지도형 기계 학습에는 레이블링된 데이터 세트를 입력하여 모델을 훈련하는 작업이 포함됩니다. 종속 변수와 독립 변수는 인간 연구원에 의해 알려지고 수집됩니다. 알려진 기록 데이터를 입력하면 수학 방정식이 역설계됩니다. 결국에는 알려진 독립 변수에서 알려지지 않은 종속 변수를 계산하는 데 있어서 예측의 정확도가 개선됩니다.
지도 학습은 데이터가 레이블링되지 않는 비지도 학습과 다릅니다.
훈련 난이도
로지스틱 회귀와 선형 회귀 모두 모델의 예측 정확도를 갖추려면 상당한 양의 레이블링된 데이터가 필요합니다. 이것은 인간이 하기에는 힘든 일일 수 있습니다. 예를 들어 이미지에 자동차가 있는지 여부를 레이블링하려면 모든 이미지에 자동차 크기, 사진 각도 및 장애물과 같은 변수 태그가 있어야 합니다.
제한된 예측 정확도
입력 데이터를 출력 데이터에 맞추는 통계 모델이 반드시 종속 변수와 독립 변수 간의 인과 관계를 암시하는 것은 아닙니다. 로지스틱 회귀와 선형 회귀 모두에서 상관 관계는 인과 관계가 아닙니다.
이전 섹션의 주택 가격 책정을 예로 들어 주택 소유자의 이름이 독립 변수 목록에 포함된다고 가정해 보겠습니다. John Doe라는 이름은 주택 판매 가격 하락과 관련이 있습니다. 소유주의 이름이 John Doe인 경우 선형 회귀 및 로지스틱 회귀 분석에서는 항상 주택 가격 하락을 예측하지만, 로직에 따르면 입력 데이터와의 관계가 올바르지 않습니다.
주요 차이점: 선형 회귀와 로지스틱 회귀
로지스틱 회귀와 선형 회귀는 수학적 접근 방식에 있어서 가장 다릅니다.
출력 값
선형 회귀 출력은 연속값 척도입니다. 예를 들어 여기에는 숫자, 킬로미터, 가격 및 무게가 포함됩니다.
반면, 로지스틱 회귀 모델 출력 값은 고정된 범주형 이벤트가 발생할 확률입니다. 예를 들어 0.76은 파란색 셔츠를 입을 확률이 76%, 0.22는 찬성 투표 확률이 22%임을 의미할 수 있습니다.
변수 관계
회귀 분석에서 회귀선은 각 독립 변수와 종속 변수 간의 관계를 나타내는 그래프 선의 모양입니다.
선형 회귀에서 회귀선은 직선입니다. 독립 변수에 대한 모든 변경은 종속 변수에 직접적인 영향을 미칩니다.
로지스틱 회귀 분석에서 회귀선은 S자 모양 곡선이라고도 하는 S자형 곡선입니다.
수학적 분포 유형
선형 회귀는 종속 변수의 정규 분포 또는 가우스 분포를 따릅니다. 정규 분포는 그래프에서 연속선으로 표시됩니다.
로지스틱 회귀는 이항 분포를 따릅니다. 이항 분포는 일반적으로 막대 그래프로 표시됩니다.
사용 시기: 선형 회귀와 로지스틱 회귀
값 척도에서 연속 종속 변수를 예측하려는 경우 선형 회귀를 사용할 수 있습니다. 이항 결과가 예상되는 경우 로지스틱 회귀를 사용합니다(예: 예 또는 아니오).
선형 회귀의 예는 다음과 같습니다.
- 어머니와 아버지의 키를 기준으로 성인의 키 예측
- 가격, 시기, 매장 위치를 기반으로 호박 판매량 예측
- 출발지, 목적지, 연중 시기 및 항공사를 기준으로 항공권 가격 예측
- 포스터, 유기적 팔로워 수, 게시물 내용, 게시 시간을 기반으로 소셜 미디어의 좋아요 수 예측
로지스틱 회귀의 예는 다음과 같습니다.
- BMI, 흡연 상태, 유전적 소인을 기반으로 심장병 발생 여부 예측
- 색상, 크기, 유형 및 가격을 기준으로 가장 인기가 있을 소매 의류 품목 예측
- 급여, 근무 일수, 회의 수, 이메일 발송 횟수, 팀, 재직 기간을 기준으로 해당 연도에 직원의 퇴사 여부 예측
- 전년도 매출액, 재직 기간 및 수수료율을 기준으로 연간 100만 USD 이상의 계약을 체결하게 될 영업 팀원 예측
차이점 요약: 선형 회귀와 로지스틱 회귀
선형 회귀 |
로지스틱 회귀 |
|
무엇인가요? |
입력 값 세트에서 출력 값을 예측하는 통계적 방법입니다. |
출력 값이 범주형 변수 세트의 특정 범주에 속할 확률을 예측하는 통계적 방법입니다. |
관계 |
직선으로 표시되는 선형 관계 |
S자형 곡선으로 표시되는 로지스틱 관계 또는 S자형 관계 |
방정식 |
선형 |
대수 |
지도 학습 유형 |
회귀 |
분류 |
배포 유형 |
정규/가우스 |
이항식 |
가장 적합한 용도 |
척도에서 예측된 연속 종속 변수가 필요한 태스크 |
고정된 범주 세트에서 범주형 종속 변수가 발생할 가능성을 예측해야 하는 태스크 |
AWS에서 선형 회귀와 로지스틱 회귀 분석을 실행하려면 어떻게 해야 하나요?
Amazon Web Services(AWS)에서는 Amazon SageMaker를 사용하여 선형 및 로지스틱 회귀 분석을 실행할 수 있습니다.
SageMaker는 선형 회귀 및 로지스틱 회귀를 위한 회귀 알고리즘이 다른 여러 통계 소프트웨어 패키지와 함께 내장된 완전관리형 기계 학습 서비스입니다. 필요한 만큼 많은 입력 값을 사용하여 선형 회귀를 구현하거나 로지스틱 확률 모델을 사용하여 회귀 문제를 해결할 수 있습니다.
예를 들어 SageMaker를 사용할 때 얻을 수 있는 이점은 다음과 같습니다.
- 회귀 모델을 신속하게 준비, 구축, 훈련 및 배포할 수 있습니다.
- 선형 및 로지스틱 회귀 프로세스의 각 단계에서 힘든 작업을 없애고 고품질 회귀 모델을 개발할 수 있습니다.
- 단일 도구 세트에서 회귀 분석에 필요한 모든 구성 요소에 액세스하여 모델을 더 빠르고 쉽고 경제적으로 생성할 수 있습니다.
지금 계정을 만들어 AWS에서 회귀 분석을 시작해 보세요.