y = Θ0 + Θ1X1 + ... + ΘpXp
= ΘTX + ε
(Θ는 회귀계수를 나타내는 vector (1xN matrix)
(ΘT는 theta transpose)
회귀식은 hypothesis라 하여 아래와 같이 나타낸다.
hΘ(x) = ΘTX
Cost function = mean squared error
J(Θ) = 1/2m x Σ( hΘ(x) - yi )^2
Find Θ which minimizes J(Θ)
비용함수 J(Θ)의 최소값을 찾기 위한 방법에는 크게 2가지가 있다.
1. Normal Equation : 미분해서 0이 되는 값 구하기
2. Gradient descent method
가장 큰 차이점은 Normal Equation의 경우 시간복잡도가 O(p^3)
Gradient descent method가 O(p^2)이다.
데이터가 크면 선택의 여지 없이 Gradient descent method를 써야할 것이다.
Linear Regression
p-value를 통해 유효한 feature 및 그에 대응하는 Coefficients 를 통해 선형 회귀식을 도출한다.
여러가지 Variable 중 선택하는 방법엔 크게 4가지가 있다.
- All Subsets
: 모든 경우의 수(2^k) 수행해보기
- Backward Elimination
: 모든 변수를 포함한 회귀식을 수행한 뒤, 원하는 유효 수준(p-value)기 되지 않는 변수를 하나씩 삭제한다.
- Forward Selection
: Backward와 반대로 변수를 하나씩 넣어보고 가장 유효한(작은 p-value) 변수를 하나씩 추가한다.
- Stepwise Selection
: Forward Selection, Backward Elimination을 한번씩 수행한다.
계산 비용은 예측 가능한대로다.
All Subsets > Stepwise > Forward > Backward
일반적으로 Stepwise를 쓰나, 계산이 많은 경우 Backward를 수행한다.
댓글 없음:
댓글 쓰기