푸잉이의 기술블로그

Logistic Regression 본문

IT/대학원

Logistic Regression

data고수 2023. 6. 20. 11:34

Model을 선택하기 위해

  • Minimize the error
  • Maximize the probability

Logistic Regression

  • 독립 변수의 비선형 결합을 이용하여 사건의 발생 가능성을 예측하는 통계기법
  • 입력 데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류로 나눔 (Classification)
  • 독립변수를 input값으로 받아 종속변수가 1이 될 확률을 결과 값으로 하는 sigmoid 함수를 찾는 과정
  • 관측치가 특정 범주에 속할 확률로 계산
  • Closed form solution이 없어 → Gradient descent 방식으로 풀어야함

예시)

  • 제조-기계류의 부품 고장 확률을 추정
  • 의료-질병 발생 가능성
  • 금융-사기 행위 분석, 위험도를 평가

*Closed form solution

주어진 문제가 일반적으로 알려진 함수나 수학 연산으로 해를 구할 수 있는 식

In mathematics,

  • a closed-form expression is a mathematical expression (표현식) that
  • uses a finite number of standard operations. (←유한한 갯수의 연산 으로 표현됨)

단위 계단 함수

예측값 z가 0보다 클 경우 양성값으로 0보다 작을 경우 음성 값으로 주어짐

임계값이 0이면 임의로 판별, 단위 계단 함수는 불연속적이므로 미분이 불가능한하기 때문에, 대체 함수를 찾아야 함

Sigmoid 함수

  • 파라미터를 학습하기 위해 최대 우도 추정법 사용
  • z를 0이나 1에 근사한 y값으로 전환, z=0 근처에서 급격하게 변화함

STEP 1. Sigmoid function

$$ y=\frac{1}{1+e^(-z)} $$

Step 2. z=w^T +B

Step 3. 양변에 In,

h(x)가 1에 가까우면 x는 class1에 보일 확률이 높음

h(x)가 0에 가까우면 x는 class0에 보일 확률이 높음

f(x)의 best discrimination

Odds (Odds ratio), 승산비

  • 나머지 입력변수는 모두 고정시킨 상태에서 한 변수를 1단위 증가시켰을 때 변하는 odd 비율

장점

  • 직접적으로 모델을 만들고 사전 데이터 분포에 대한 가정 필요 x
  • class를 예측하며 근사 확률에 대한 예측도 제공
Comments