AI Development/통계분석

로지스틱 회귀분석 (Logistic Regression)

쟤리 2024. 8. 29. 12:16
728x90
반응형

1. 로지스틱 회귀의 기본 개념

  • 목적: 로지스틱 회귀는 입력 변수(독립 변수)를 사용하여 종속 변수(결과)가 특정 클래스(0 또는 1)에 속할 확률을 예측하는 것이다.
  • 출력: 로지스틱 회귀는 특정 사건이 발생할 확률, 즉 종속 변수가 1이 될 확률을 출력한다. 이 확률을 사용해 종속 변수를 0 또는 1로 분류한다.

2. 로지스틱 회귀의 수학적 배경

로지스틱 회귀의 핵심은 **시그모이드 함수(Sigmoid Function)**를 사용하는 것이다. 시그모이드 함수는 입력된 값이 어떤 범위에 있더라도 0과 1 사이의 값으로 변환해준다.

시그모이드 함수:

여기서 z는 선형 회귀식으로 표현된다:

즉, 로지스틱 회귀에서 예측 확률은 다음과 같이 표현된다:

3. 로지스틱 회귀의 해석

  • 계수 해석: 각 독립 변수의 계수 βi\beta_i는 해당 변수의 변화가 종속 변수의 로그 오즈(Log-Odds)에 미치는 영향을 나타낸다.
    • 로그 오즈(Log-Odds):

오즈 비율(Odds Ratio): 계수 βi\beta_i에 대한 오즈 비율은 eβie^{\beta_i}로 계산되며, 독립 변수 XiX_i가 1 증가할 때 종속 변수가 1일 오즈가 얼마나 변하는지를 나타낸다.

 

4. 로지스틱 회귀의 가정

  • 독립 변수와 종속 변수 간의 선형 관계: 로그 오즈(Log-Odds)와 독립 변수들 사이에는 선형 관계가 있다고 가정한다.
  • 독립 변수들 간의 독립성: 각 독립 변수는 종속 변수에 독립적으로 영향을 미쳐야 한다.
  • 이항 분포: 종속 변수가 이항 분포를 따라야 한다.

5. 로지스틱 회귀의 평가 방법

  • 정확도(Accuracy): 전체 데이터 중에서 모델이 올바르게 분류한 비율을 나타낸다.
  • 정밀도(Precision)와 재현율(Recall): True Positive와 False Positive 간의 관계를 평가한다.
  • AUC-ROC (Area Under the Curve - Receiver Operating Characteristic): 모델의 성능을 종합적으로 평가하는 데 사용된다.

6. 정규화 (Regularization)

로지스틱 회귀에서는 **L1 정규화(Lasso)**와 **L2 정규화(Ridge)**를 사용하여 과적합(Overfitting)을 방지할 수 있다.

  • L1 정규화: 일부 계수를 0으로 만들어 변수 선택(Feature Selection) 역할을 한다.
  • L2 정규화: 계수 크기를 줄여서 모델의 복잡성을 낮추고, 다중공선성 문제를 완화한다.

7. 로지스틱 회귀의 확장

  • 다항 로지스틱 회귀(Multinomial Logistic Regression): 종속 변수가 3개 이상의 범주를 가질 때 사용된다.
  • 순서형 로지스틱 회귀(Ordinal Logistic Regression): 종속 변수가 순서형인 경우 사용된다.

8. 로지스틱 회귀의 장점과 단점

장점:

  • 해석이 용이하고, 출력이 확률 값이기 때문에 직관적이다.
  • 계산이 빠르고, 비교적 단순한 모델로도 높은 성능을 낼 수 있다.

단점:

  • 선형 관계를 가정하기 때문에 비선형 문제에 적합하지 않을 수 있다.
  • 이상치(Outliers)에 민감하다.
728x90
반응형