5. Logistic Regression

๋ณธ ํฌ์ŠคํŒ…์€ ๊ณ ๋ ค๋Œ€ํ•™๊ต ๊ฐ•ํ•„์„ฑ ๊ต์ˆ˜๋‹˜์˜ ๊ฐ•์˜ ์ž๋ฃŒ๋ฅผ ์ฐธ๊ณ ํ•˜์—ฌ ์ž‘์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค.

Logistic Regression : ์ˆ˜์‹

Review : Multiple Linear Regression

๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€ ๋ถ„์„์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๊ธฐ ์ „ ๋‹ค์ค‘ ์„ ํ˜• ํšŒ๊ท€ (Multiple Linear Regression) ์— ๋Œ€ํ•ด ์„ค๋ช…ํ•˜๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

๋‹ค์ค‘ ์„ ํ˜• ํšŒ๊ท€์˜ ๋ชฉํ‘œ๋Š” ์ˆ˜์น˜ํ˜• ์„ค๋ช… ๋ณ€์ˆ˜ X ์™€ ์—ฐ์†ํ˜• ๋ฐ์ดํ„ฐ๋กœ ์ด๋ฃจ์–ด์ง„ ์ข…์†๋ณ€์ˆ˜ Y ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ์„ ํ˜•์œผ๋กœ ์ •์˜ํ•˜๊ณ  ์ด๋ฅผ ๊ฐ€์žฅ ์ž˜ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ํšŒ๊ท€ ๊ณ„์ˆ˜๋ฅผ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ฆ‰, ์„ ํ˜• ๊ฒฐํ•ฉ ๊ณ„์ˆ˜์ธ Beta hat ์„ ๊ตฌํ•˜๋Š” ๊ฒƒ์ด ํ•™์Šต์˜ ๋ชฉํ‘œ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

์˜ˆ์‹œ๋ฅผ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค

์œ„์˜ ๊ทธ๋ฆผ์€ ๋‚˜์ด์™€ ํ˜ˆ์••์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ์ž…๋‹ˆ๋‹ค.

๋‹ค์Œ๊ณผ ๊ฐ™์€ ์—ฐ์†ํ˜• ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ ๋‚˜์ด๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ํ˜ˆ์••์ด 1.222 ๋งŒํผ ์ฆ๊ฐ€ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๊ทธ๋ ‡๋‹ค๋ฉด ์—ฐ์†ํ˜• ๋ฐ์ดํ„ฐ ๋Œ€์‹  ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ๋กœ ๋ฌธ์ œ๋ฅผ ๋ฐ”๊พธ๊ฒŒ ๋œ๋‹ค๋ฉด ์–ด๋–ป๊ฒŒ ๋ ๊นŒ์š”?

๊ทธ๋ž˜ํ”„๋ฅผ ๋ณด๋ฉด ์ด ์„ ์€ ๋ฐœ๋ณ‘(1) ์ •์ƒ(0) ์˜ ๋ฒ”์ฃผ๋ฅผ ์ œ๋Œ€๋กœ ํ‘œํ˜„ํ•˜๊ณ  ์žˆ์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์ด์ฒ˜๋Ÿผ Y ๊ฐ€ ๋ฒ”์ฃผํ˜•์ผ ๋•Œ ๋‹ค์ค‘ ์„ ํ˜• ํšŒ๊ท€ ๋ชจ๋ธ์„ ๊ทธ๋Œ€๋กœ ์ ์šฉํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค.

Logistic Regression : Background

  • ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜

f(x)=11+eโˆ’xf(x) = \frac{1}{1 + e^{-x}}

X ๊ฐ’์œผ๋กœ๋Š” ์–ด๋–ค ๊ฐ’์ด๋“  ๋ฐ›์„ ์ˆ˜ ์žˆ์ง€๋งŒ ์ถœ๋ ฅ ๊ฐ’์€ 0์—์„œ 1 ์‚ฌ์ด์˜ ๊ฐ’์„ ์ถœ๋ ฅํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜์˜ ์กฐ๊ฑด์„ ์ถฉ์กฑํ•˜๋Š” ํ•จ์ˆ˜์ด๋‹ค.

  1. ๋ชจ๋“  x ๊ฐ’์— ๋Œ€์‘๋˜๋Š” f(x) ๊ฐ€ 0 ์ด์ƒ์ผ ๊ฒƒ

  2. ํŠน์ • ๊ตฌ๊ฐ„์—์„œ์˜ ํ™•๋ฅ  ๋ฐ€๋„๋Š” ๊ทธ ๊ตฌ๊ฐ„์˜ ๋ฒ”์œ„๋ฅผ ์ ๋ถ„ํ•œ ๊ฐ’

  3. ์ „์ฒด ๊ตฌ๊ฐ„์—์„œ์˜ ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜๋Š” 1

  • Odds

๋กœ์ง€์Šคํ‹ฑ ํ•จ์ˆ˜์˜ ๊ธฐ๋ณธ์ ์ธ ๊ฐœ๋…์ด ๋˜๋Š” ์Šน์‚ฐ์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

์Šน์‚ฐ์ด๋ž€ ์„ฑ๊ณต ํ™•๋ฅ ์„ p ๋กœ ์ •์˜ํ•  ๋•Œ์— ์‹คํŒจ ๋Œ€๋น„ ์„ฑ๊ณต ํ™•๋ฅ ์˜ ๋น„์œจ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

Odds=p1โˆ’pOdds = \frac{p}{1 - p}

(p=1;odd=infinite,p=0;odd=0)(p =1;odd=infinite,p=0;odd=0)

  • logit function

์Œ์˜ ๋ฌดํ•œ๋Œ€๋ถ€ํ„ฐ ์–‘์˜ ๋ฌดํ•œ๋Œ€๊นŒ์ง€์˜ ์‹ค์ˆ˜ ๊ฐ’์„ 0 ๋ถ€ํ„ฐ 1 ์‚ฌ์ด์˜ ์‹ค์ˆ˜๊ฐ’์œผ๋กœ 1 ๋Œ€ 1 ๋Œ€์‘์‹œํ‚ค๋Š” ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค.

์œ„์˜ odds ํ•จ์ˆ˜์— log ๋ฅผ ์ทจํ•˜๊ฒŒ ๋˜๋ฉด

z=logit(Odds)=log(p1โˆ’p)z = logit(Odds) = log(\frac{p}{1 - p})

logit function ์˜ ๊ฐ’์€ ๋กœ๊ทธ ๋ณ€ํ™˜์— ์˜ํ•ด์„œ ์Œ์˜ ๋ฌดํ•œ๋Œ€๋ถ€ํ„ฐ ์–‘์˜ ๋ฌดํ•œ๋Œ€๊นŒ์ง€์˜ ๊ฐ’์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค..

p ๊ฐ€ 0.5 ์ผ ๊ฒฝ์šฐ log(p/(1-p) = 1) = log1 = 0

p๊ฐ€ 0.5 ๋ณด๋‹ค ๋‚ฎ์„ ๋•Œ -infinite, p ๊ฐ€ 0.5 ๋ณด๋‹ค ํฐ ๊ฒฝ์šฐ infinite ์œผ๋กœ ์ˆ˜๋ ดํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

  • logistic function

logit function ์˜ ์—ญํ•จ์ˆ˜๋กœ ์Œ์˜ ๋ฌดํ•œ๋Œ€๋ถ€ํ„ฐ ์–‘์˜ ๋ฌดํ•œ๋Œ€์˜ ๊ฐ’์„ ๊ฐ€์ง€๋Š” ์ž…๋ ฅ ๋ณ€์ˆ˜๋ฅผ 0๋ถ€ํ„ฐ 1 ์‚ฌ์ด์˜ ๊ฐ’์„ ๊ฐ€์ง€๋Š” ์ถœ๋ ฅ๋ณ€์ˆ˜๋กœ ๋ณ€ํ™˜ํ•œ ๊ฒƒ

logistic(z)=11+exp(โˆ’z)logistic(z) = \frac{1}{1+exp(-z)}

p = exp(y) / (1+exp(y))

๋ถ„๋ชจ ๋ถ„์ž์— exp(-y) ๋ฅผ ๊ณฑํ•ด์ฃผ๋ฉด

p = 1 / (1 + exp(-y)) ๋กœ ์‹œ๊ทธ๋ชจ์ด๋“œ ํ˜•ํƒœ์™€ ๊ฐ™์•„ ์ง

Logistic Regression

๋‹ค์ค‘ ์„ ํ˜• ํšŒ๊ท€์—์„œ ์‚ฌ์šฉํ–ˆ๋˜ ์‹์„ ๊ทธ๋Œ€๋กœ ๋“ค๊ณ ์™€

y ๋ฅผ log(Odds) ์ฆ‰, ์–ด๋– ํ•œ ํ™•๋ฅ ์˜ ๊ฐ’์œผ๋กœ ๋ฐ”๊พผ๋‹ค๋ฉด ?

  • ๋‹ค์ค‘ ์„ ํ˜• ๋ฐฉ์ •์‹

  • odds ์— ๋Œ€ํ•œ ์„ ํ˜• ๋ฐฉ์ •์‹

  • ๊ฐ ํ•ญ์— ์ง€์ˆ˜ ํ•จ์ˆ˜๋ฅผ ์ทจํ•˜์—ฌ log ๋ฅผ ์—†์•ฐ

  • ์œ„์˜ ๋กœ์ง€์Šคํ‹ฑ ํ•จ์ˆ˜์— ๋Œ€ํ•œ ์ •๋ฆฌ์™€ ๋™์ผ

์ถ”์ •๋œ ํšŒ๊ท€ ๊ณ„์ˆ˜ B ๋กœ ๋ถ€ํ„ฐ ์‚ฌํ›„ ํ™•๋ฅ  P ๋ฅผ ์ถ”์ •ํ•˜๋Š” ๊ณต์‹์ด ๋จ

Logistic Regression : ํ•™์Šต

๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€ ๋ถ„์„์˜ ๋ชจ์ˆ˜ w ๋Š” ์ตœ๋Œ€ ๊ฐ€๋Šฅ๋„ (Maximum Likelihood Estimation MLE) ๋ฐฉ๋ฒ•์œผ๋กœ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์šฐ์„  ๋ฒ ๋ฅด๋ˆ„์ด ์‹œํ–‰์— ๋Œ€ํ•ด ์ •์˜ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

๋ฒ ๋ฅด๋ˆ„์ด ์‹œํ–‰์€ ๊ฒฐ๊ณผ๊ฐ€ ์„ฑ๊ณต ๋˜๋Š” ์‹คํŒจ์˜ ๋‘๊ฐ€์ง€ ์ค‘ ํ•˜๋‚˜๋กœ๋งŒ ๋‚˜์˜ค๋Š” ์‹คํ—˜์ž…๋‹ˆ๋‹ค.

๋ฒ ๋ฅด๋ˆ„์ด ์‹œํ–‰์˜ ๊ฒฐ๊ณผ๋ฅผ ํ™•๋ฅ  ๋ณ€์ˆ˜ X ๋กœ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฒฝ์šฐ X = 1 ์„ ์„ฑ๊ณต, X = 0 ์„ ์‹คํŒจ๋ผ๊ณ  ๋‘˜ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ถˆ์—ฐ์†์ ์ธ ๋‘ ๊ฐ€์ง€์˜ ๊ฒฝ์šฐ์˜์ˆ˜๋ฅผ ๊ฐ€์ง€๋ฏ€๋กœ X ๋Š” ์ด์‚ฐํ™•๋ฅ ๋ณ€์ˆ˜๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

X = 1 ์ผ ํ™•๋ฅ ์„ ์„ฑ๊ณต ํ™•๋ฅ ์ด๋ผ๊ณ  ๋ถ€๋ฅด๊ณ , ์ด๋•Œ ํ™•๋ฅ  ๋ณ€์ˆ˜ X ๊ฐ€ ๋ชจ์ˆ˜์˜ ๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.

๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ์— ๋กœ์ง€์Šคํ‹ฑ ํ•จ์ˆ˜๋ฅผ ์ ์šฉํ•˜๋ฉด

๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ์˜ ํ‘œ๋ณธ์ด ์—ฌ๋Ÿฌ๊ฐœ ์žˆ๋Š” ๊ฒฝ์šฐ ์ „์ฒด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๋กœ๊ทธ ๊ฐ€๋Šฅ๋„๋ฅผ ๊ตฌํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

๊ฐ ๋ฒ ๋ฅด๋ˆ„์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๊ณฑํ•ด์ค€ ๊ฒƒ์— log ๋ฅผ ์ทจํ•ด์ฃผ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์—ฌ๊ธฐ์„œ likeli hood ๋ฅผ ๊ณ„์‚ฐํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ์—์„œ ๋ถ„ํฌ์— ๋Œ€ํ•œ likeli hood ๋ฅผ ๋”ํ•˜์ง€ ์•Š๊ณ  ๋ชจ๋‘ ๋‹ค ๊ณฑํ•œ ์ด์œ ๋Š” ์ด ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋“ค์˜ sampling ์ด ๋…๋ฆฝ์ ์œผ๋กœ ์—ฐ๋‹ฌ์•„ ์ผ์–ด๋‚˜๋Š” ์‚ฌ๊ฑด์ด๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

์—ฌ๊ธฐ์— ์ž์—ฐ๋กœ๊ทธ๋ฅผ ์ทจํ•˜๊ฒŒ ๋˜๋ฉด ๊ฐํ•ญ์ด ๋ง์…ˆ์œผ๋กœ ์ด๋ฃจ์–ด์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์„ ํ˜•ํšŒ๊ท€์—์„œ ์˜ค์ฐจ๋ฅผ ์ตœ๋Œ€ํ™” ํ•˜๋Š” w ์˜ ๊ฐ’์„ ๊ตฌํ–ˆ๋˜ ๊ฒƒ ์ฒ˜๋Ÿผ

๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€์—์„œ๋Š” ๋กœ๊ทธ ๊ฐ€๋Šฅ๋„๋ฅผ ์ตœ๋Œ€ํ™” ํ•˜๋Š” w ์˜ ๊ฐ’์„ ๊ตฌํ•ด์•ผํ•ฉ๋‹ˆ๋‹ค.

๋”ฐ๋ผ์„œ ๋กœ๊ทธ ๋ผ์ดํด๋ฆฌ ํ›„๋“œ๋ฅผ ๋ชจ์ˆ˜๋กœ ๋ฏธ๋ถ„ํ•ฉ๋‹ˆ๋‹ค.

** ๋ถ€๋ก **

2๋ฒˆ ๋„์ถœ ๊ณผ์ • ํ’€์ด

ฮผ(xi;w) = 1 / (1 + exp(-wT * xi))

์šฐ์„  w๋กœ ํŽธ๋ฏธ๋ถ„ํ•˜๋Š” ๊ณผ์ •์—์„œ ์ฒด์ธ๋ฃฐ์„ ์‚ฌ์šฉํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค

โˆ‚ฮผ(xi;w)/โˆ‚w = โˆ‚ฮผ(xi;w)/โˆ‚(wTxi) * โˆ‚(wTxi)/โˆ‚w

์—ฌ๊ธฐ์„œ โˆ‚(wT*xi)/โˆ‚w = xi ์ž…๋‹ˆ๋‹ค.

โˆ‚ฮผ(xi;w)/โˆ‚(wT*xi)์„ ์ฐพ๊ธฐ ์œ„ํ•ด

๋ฏธ๋ถ„์˜ ์ฒด์ธ๋ฃฐ์„ ์‚ฌ์šฉํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โˆ‚ฮผ(xi;w)/โˆ‚(wTxi) = โˆ‚(1/(1+exp(-wTxi)))/โˆ‚(wT*xi)

์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜์˜ ๋ฏธ๋ถ„์ด๋ฏ€๋กœ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค

โˆ‚ฮผ(xi;w)/โˆ‚(wT*xi) = ฮผ(xi;w) * (1 - ฮผ(xi;w))

๋”ฐ๋ผ์„œ, ๋‹ค์‹œ โˆ‚ฮผ(xi;w)/โˆ‚w ์‹์œผ๋กœ ๋Œ์•„๊ฐ€๋ฉด,

โˆ‚ฮผ(xi;w)/โˆ‚w = โˆ‚ฮผ(xi;w)/โˆ‚(wTxi) * โˆ‚(wTxi)/โˆ‚w = ฮผ(xi;w) * (1 - ฮผ(xi;w)) * xi

์ด๋ ‡๊ฒŒ ํŽธ๋ฏธ๋ถ„ ๊ฐ’์„ ๊ตฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ˆ˜์น˜์  ์ตœ์ ํ™”

LOG LIKELIHOOD ๋ฅผ ์ตœ๋Œ€ํ™” ํ•˜๋Š” ๊ฒƒ์€ ๋‹ค์Œ ๋ชฉ์ ํ•จ์ˆ˜๋ฅผ ์ตœ์†Œํ™” ํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

J=โˆ’LLJ = -LL

gradient vector ๋Š”

gk=ddw(โˆ’LL)gk = \frac{d}{dw}(-LL)

๋‹ค์Œ๊ณผ ๊ฐ™๊ณ , gk ์— learning rate ๋ฅผ ๊ณฑํ•œ ๊ฒƒ ๋งŒํผ ์ด๋™ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๋”ฐ๋ผ์„œ ์ •๋ฆฌํ•ด๋ณด๋ฉด

๊ธฐ์šธ๊ธฐ์˜ ์—…๋ฐ์ดํŠธ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ง„ํ–‰๋˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

Last updated