5. Logistic Regression
Last updated
Last updated
๋ณธ ํฌ์คํ ์ ๊ณ ๋ ค๋ํ๊ต ๊ฐํ์ฑ ๊ต์๋์ ๊ฐ์ ์๋ฃ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์์ฑํ์์ต๋๋ค.
๋ก์ง์คํฑ ํ๊ท ๋ถ์์ ๋ํด ์์๋ณด๊ธฐ ์ ๋ค์ค ์ ํ ํ๊ท (Multiple Linear Regression) ์ ๋ํด ์ค๋ช ํ๋๋ก ํ๊ฒ ์ต๋๋ค.
๋ค์ค ์ ํ ํ๊ท์ ๋ชฉํ๋ ์์นํ ์ค๋ช ๋ณ์ X ์ ์ฐ์ํ ๋ฐ์ดํฐ๋ก ์ด๋ฃจ์ด์ง ์ข ์๋ณ์ Y ๊ฐ์ ๊ด๊ณ๋ฅผ ์ ํ์ผ๋ก ์ ์ํ๊ณ ์ด๋ฅผ ๊ฐ์ฅ ์ ํํํ ์ ์๋ ํ๊ท ๊ณ์๋ฅผ ์ถ์ ํ๋ ๊ฒ์ ๋๋ค.
์ฆ, ์ ํ ๊ฒฐํฉ ๊ณ์์ธ Beta hat ์ ๊ตฌํ๋ ๊ฒ์ด ํ์ต์ ๋ชฉํ๊ฐ ๋ฉ๋๋ค.
์์๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค
์์ ๊ทธ๋ฆผ์ ๋์ด์ ํ์์ ๋ํ ๋ฐ์ดํฐ์ ๋๋ค.
๋ค์๊ณผ ๊ฐ์ ์ฐ์ํ ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ ๋์ด๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ํ์์ด 1.222 ๋งํผ ์ฆ๊ฐํ๋ค๋ ๊ฒ์ ์ ์ ์๊ฒ ๋ฉ๋๋ค.
๊ทธ๋ ๋ค๋ฉด ์ฐ์ํ ๋ฐ์ดํฐ ๋์ ๋ฒ์ฃผํ ๋ฐ์ดํฐ๋ก ๋ฌธ์ ๋ฅผ ๋ฐ๊พธ๊ฒ ๋๋ค๋ฉด ์ด๋ป๊ฒ ๋ ๊น์?
๊ทธ๋ํ๋ฅผ ๋ณด๋ฉด ์ด ์ ์ ๋ฐ๋ณ(1) ์ ์(0) ์ ๋ฒ์ฃผ๋ฅผ ์ ๋๋ก ํํํ๊ณ ์์ง ์์ต๋๋ค. ์ด์ฒ๋ผ Y ๊ฐ ๋ฒ์ฃผํ์ผ ๋ ๋ค์ค ์ ํ ํ๊ท ๋ชจ๋ธ์ ๊ทธ๋๋ก ์ ์ฉํ ์ ์์ต๋๋ค.
์๊ทธ๋ชจ์ด๋ ํจ์
X ๊ฐ์ผ๋ก๋ ์ด๋ค ๊ฐ์ด๋ ๋ฐ์ ์ ์์ง๋ง ์ถ๋ ฅ ๊ฐ์ 0์์ 1 ์ฌ์ด์ ๊ฐ์ ์ถ๋ ฅํ๊ฒ ๋ฉ๋๋ค.
ํ๋ฅ ๋ฐ๋ํจ์์ ์กฐ๊ฑด์ ์ถฉ์กฑํ๋ ํจ์์ด๋ค.
๋ชจ๋ x ๊ฐ์ ๋์๋๋ f(x) ๊ฐ 0 ์ด์์ผ ๊ฒ
ํน์ ๊ตฌ๊ฐ์์์ ํ๋ฅ ๋ฐ๋๋ ๊ทธ ๊ตฌ๊ฐ์ ๋ฒ์๋ฅผ ์ ๋ถํ ๊ฐ
์ ์ฒด ๊ตฌ๊ฐ์์์ ํ๋ฅ ๋ฐ๋ ํจ์๋ 1
Odds
๋ก์ง์คํฑ ํจ์์ ๊ธฐ๋ณธ์ ์ธ ๊ฐ๋ ์ด ๋๋ ์น์ฐ์ ๋ํด ์์๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
์น์ฐ์ด๋ ์ฑ๊ณต ํ๋ฅ ์ p ๋ก ์ ์ํ ๋์ ์คํจ ๋๋น ์ฑ๊ณต ํ๋ฅ ์ ๋น์จ์ ๋ํ๋ ๋๋ค.
logit function
์์ ๋ฌดํ๋๋ถํฐ ์์ ๋ฌดํ๋๊น์ง์ ์ค์ ๊ฐ์ 0 ๋ถํฐ 1 ์ฌ์ด์ ์ค์๊ฐ์ผ๋ก 1 ๋ 1 ๋์์ํค๋ ์๊ทธ๋ชจ์ด๋ ํจ์์ ๋๋ค.
์์ odds ํจ์์ log ๋ฅผ ์ทจํ๊ฒ ๋๋ฉด
logit function ์ ๊ฐ์ ๋ก๊ทธ ๋ณํ์ ์ํด์ ์์ ๋ฌดํ๋๋ถํฐ ์์ ๋ฌดํ๋๊น์ง์ ๊ฐ์ ๊ฐ์ง ์ ์๊ฒ ๋ฉ๋๋ค..
p ๊ฐ 0.5 ์ผ ๊ฒฝ์ฐ log(p/(1-p) = 1) = log1 = 0
p๊ฐ 0.5 ๋ณด๋ค ๋ฎ์ ๋ -infinite, p ๊ฐ 0.5 ๋ณด๋ค ํฐ ๊ฒฝ์ฐ infinite ์ผ๋ก ์๋ ดํ๊ฒ ๋ฉ๋๋ค.
logistic function
logit function ์ ์ญํจ์๋ก ์์ ๋ฌดํ๋๋ถํฐ ์์ ๋ฌดํ๋์ ๊ฐ์ ๊ฐ์ง๋ ์ ๋ ฅ ๋ณ์๋ฅผ 0๋ถํฐ 1 ์ฌ์ด์ ๊ฐ์ ๊ฐ์ง๋ ์ถ๋ ฅ๋ณ์๋ก ๋ณํํ ๊ฒ
p = exp(y) / (1+exp(y))
๋ถ๋ชจ ๋ถ์์ exp(-y) ๋ฅผ ๊ณฑํด์ฃผ๋ฉด
p = 1 / (1 + exp(-y)) ๋ก ์๊ทธ๋ชจ์ด๋ ํํ์ ๊ฐ์ ์ง
๋ค์ค ์ ํ ํ๊ท์์ ์ฌ์ฉํ๋ ์์ ๊ทธ๋๋ก ๋ค๊ณ ์
y ๋ฅผ log(Odds) ์ฆ, ์ด๋ ํ ํ๋ฅ ์ ๊ฐ์ผ๋ก ๋ฐ๊พผ๋ค๋ฉด ?
๋ค์ค ์ ํ ๋ฐฉ์ ์
odds ์ ๋ํ ์ ํ ๋ฐฉ์ ์
๊ฐ ํญ์ ์ง์ ํจ์๋ฅผ ์ทจํ์ฌ log ๋ฅผ ์์ฐ
์์ ๋ก์ง์คํฑ ํจ์์ ๋ํ ์ ๋ฆฌ์ ๋์ผ
์ถ์ ๋ ํ๊ท ๊ณ์ B ๋ก ๋ถํฐ ์ฌํ ํ๋ฅ P ๋ฅผ ์ถ์ ํ๋ ๊ณต์์ด ๋จ
๋ก์ง์คํฑ ํ๊ท ๋ถ์์ ๋ชจ์ w ๋ ์ต๋ ๊ฐ๋ฅ๋ (Maximum Likelihood Estimation MLE) ๋ฐฉ๋ฒ์ผ๋ก ์ถ์ ํ ์ ์์ต๋๋ค.
์ฐ์ ๋ฒ ๋ฅด๋์ด ์ํ์ ๋ํด ์ ์ํ๊ฒ ์ต๋๋ค.
๋ฒ ๋ฅด๋์ด ์ํ์ ๊ฒฐ๊ณผ๊ฐ ์ฑ๊ณต ๋๋ ์คํจ์ ๋๊ฐ์ง ์ค ํ๋๋ก๋ง ๋์ค๋ ์คํ์ ๋๋ค.
๋ฒ ๋ฅด๋์ด ์ํ์ ๊ฒฐ๊ณผ๋ฅผ ํ๋ฅ ๋ณ์ X ๋ก ๋ํ๋ด๋ ๊ฒฝ์ฐ X = 1 ์ ์ฑ๊ณต, X = 0 ์ ์คํจ๋ผ๊ณ ๋ ์ ์์ต๋๋ค. ๋ถ์ฐ์์ ์ธ ๋ ๊ฐ์ง์ ๊ฒฝ์ฐ์์๋ฅผ ๊ฐ์ง๋ฏ๋ก X ๋ ์ด์ฐํ๋ฅ ๋ณ์๊ฐ ๋ฉ๋๋ค.
X = 1 ์ผ ํ๋ฅ ์ ์ฑ๊ณต ํ๋ฅ ์ด๋ผ๊ณ ๋ถ๋ฅด๊ณ , ์ด๋ ํ๋ฅ ๋ณ์ X ๊ฐ ๋ชจ์์ ๋ฒ ๋ฅด๋์ด ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ํฉ๋๋ค.
๋ฒ ๋ฅด๋์ด ๋ถํฌ๋ ๋ค์๊ณผ ๊ฐ์ด ํํํฉ๋๋ค.
๋ฒ ๋ฅด๋์ด ๋ถํฌ์ ๋ก์ง์คํฑ ํจ์๋ฅผ ์ ์ฉํ๋ฉด
๋ค์๊ณผ ๊ฐ์ด ์ ๋ฆฌํ ์ ์์ต๋๋ค.
๋ฐ์ดํฐ์ ํ๋ณธ์ด ์ฌ๋ฌ๊ฐ ์๋ ๊ฒฝ์ฐ ์ ์ฒด ๋ฐ์ดํฐ์ ๋ํด ๋ก๊ทธ ๊ฐ๋ฅ๋๋ฅผ ๊ตฌํด๋ณด๊ฒ ์ต๋๋ค.
๊ฐ ๋ฒ ๋ฅด๋์ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ณฑํด์ค ๊ฒ์ log ๋ฅผ ์ทจํด์ฃผ๊ฒ ๋ฉ๋๋ค.
์ฌ๊ธฐ์ likeli hood ๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด ๊ฐ ๋ฐ์ดํฐ ์ํ์์ ๋ถํฌ์ ๋ํ likeli hood ๋ฅผ ๋ํ์ง ์๊ณ ๋ชจ๋ ๋ค ๊ณฑํ ์ด์ ๋ ์ด ๋ชจ๋ ๋ฐ์ดํฐ๋ค์ sampling ์ด ๋ ๋ฆฝ์ ์ผ๋ก ์ฐ๋ฌ์ ์ผ์ด๋๋ ์ฌ๊ฑด์ด๊ธฐ ๋๋ฌธ์ ๋๋ค.
์ฌ๊ธฐ์ ์์ฐ๋ก๊ทธ๋ฅผ ์ทจํ๊ฒ ๋๋ฉด ๊ฐํญ์ด ๋ง์ ์ผ๋ก ์ด๋ฃจ์ด์ง๊ฒ ๋ฉ๋๋ค.
์ ํํ๊ท์์ ์ค์ฐจ๋ฅผ ์ต๋ํ ํ๋ w ์ ๊ฐ์ ๊ตฌํ๋ ๊ฒ ์ฒ๋ผ
๋ก์ง์คํฑ ํ๊ท์์๋ ๋ก๊ทธ ๊ฐ๋ฅ๋๋ฅผ ์ต๋ํ ํ๋ w ์ ๊ฐ์ ๊ตฌํด์ผํฉ๋๋ค.
๋ฐ๋ผ์ ๋ก๊ทธ ๋ผ์ดํด๋ฆฌ ํ๋๋ฅผ ๋ชจ์๋ก ๋ฏธ๋ถํฉ๋๋ค.
** ๋ถ๋ก **
2๋ฒ ๋์ถ ๊ณผ์ ํ์ด
ฮผ(xi;w) = 1 / (1 + exp(-wT * xi))
์ฐ์ w๋ก ํธ๋ฏธ๋ถํ๋ ๊ณผ์ ์์ ์ฒด์ธ๋ฃฐ์ ์ฌ์ฉํ๊ฒ ๋ฉ๋๋ค
โฮผ(xi;w)/โw = โฮผ(xi;w)/โ(wTxi) * โ(wTxi)/โw
์ฌ๊ธฐ์ โ(wT*xi)/โw = xi ์ ๋๋ค.
โฮผ(xi;w)/โ(wT*xi)์ ์ฐพ๊ธฐ ์ํด
๋ฏธ๋ถ์ ์ฒด์ธ๋ฃฐ์ ์ฌ์ฉํ๋ฉด ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์์ต๋๋ค.
โฮผ(xi;w)/โ(wTxi) = โ(1/(1+exp(-wTxi)))/โ(wT*xi)
์๊ทธ๋ชจ์ด๋ ํจ์์ ๋ฏธ๋ถ์ด๋ฏ๋ก ๋ค์๊ณผ ๊ฐ์ด ํํํ ์ ์์ต๋๋ค
โฮผ(xi;w)/โ(wT*xi) = ฮผ(xi;w) * (1 - ฮผ(xi;w))
๋ฐ๋ผ์, ๋ค์ โฮผ(xi;w)/โw ์์ผ๋ก ๋์๊ฐ๋ฉด,
โฮผ(xi;w)/โw = โฮผ(xi;w)/โ(wTxi) * โ(wTxi)/โw = ฮผ(xi;w) * (1 - ฮผ(xi;w)) * xi
์ด๋ ๊ฒ ํธ๋ฏธ๋ถ ๊ฐ์ ๊ตฌํ ์ ์์ต๋๋ค.
LOG LIKELIHOOD ๋ฅผ ์ต๋ํ ํ๋ ๊ฒ์ ๋ค์ ๋ชฉ์ ํจ์๋ฅผ ์ต์ํ ํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค.
gradient vector ๋
๋ค์๊ณผ ๊ฐ๊ณ , gk ์ learning rate ๋ฅผ ๊ณฑํ ๊ฒ ๋งํผ ์ด๋ํ๊ฒ ๋ฉ๋๋ค.
๋ฐ๋ผ์ ์ ๋ฆฌํด๋ณด๋ฉด
๊ธฐ์ธ๊ธฐ์ ์ ๋ฐ์ดํธ๋ ๋ค์๊ณผ ๊ฐ์ด ์งํ๋๊ฒ ๋ฉ๋๋ค.