FE

1. Feature Engineering์ด๋ž€?

Feature Engineering์€ ๋ฐ์ดํ„ฐ ๋ถ„์„๋ณด๋‹ค๋Š” ๋จธ์‹ ๋Ÿฌ๋‹/๋”ฅ๋Ÿฌ๋‹์—์„œ ๋” ๋งŽ์ด ์“ฐ์ด๋Š” ์šฉ์–ด์ž…๋‹ˆ๋‹ค. EDA๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ํƒ์ƒ‰ํ•ด๋ณด์•˜๋‹ค๋ฉด ์–ด๋–ค ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ„์„์— ์œ ์šฉํ•˜๊ฒŒ ์“ฐ์ผ ์ˆ˜ ์žˆ์„์ง€ ๋Œ€๋žต์ ์ธ ํŒŒ์•…์ด ๋์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ์ด์ œ๋Š” ์ตœ์ข…์ ์œผ๋กœ ๋ชจ๋ธ๋ง์— ์–ด๋–ค ๋ณ€์ˆ˜๋ฅผ ์‚ฌ์šฉํ•  ์ง€ ๊ฒฐ์ •ํ•ด์•ผ ํ•  ๋•Œ์ž…๋‹ˆ๋‹ค. Feature Engineering์€ EDA๋ฅผ ํ†ตํ•ด ์•Œ์•„๋‚ธ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ดํ•ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ Feature๋ฅผ ์ƒ์„ฑํ•˜๊ฑฐ๋‚˜ ์„ ํƒํ•˜๋Š” ์ž‘์—…์„ ํฌํ•จํ•˜์—ฌ, ์„ ํƒํ•œ Feature๋“ค์„ ๋ชจ๋ธ๋ง์˜ Input์œผ๋กœ ์‚ฌ์šฉํ•˜๊ธฐ ์ „๊นŒ์ง€ ํ•„์š”ํ•œ ๋ชจ๋“  ๊ณผ์ •(Imputation, Outlier Handling, Log transformtation, Encoding, Scaling ๋“ฑ)์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

2. Feature Engineering์˜ ๋ชฉ์ 

Feature Engineering์˜ ๋ชฉ์ ์€ ๊ฒฐ๊ตญ ๋ชจ๋ธ๋ง์˜ ์„ฑ๋Šฅ์„ ์˜ฌ๋ฆฌ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ฃผ์–ด์ง„ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ด ๋ชจ๋ธ๋ง์„ ํ•˜๋ฉด ์ข‹์€ ์„ฑ๋Šฅ์ด ๋‚˜์˜ฌ ๊ฒƒ ๊ฐ™์ง€๋งŒ, ์‹ค์ œ๋กœ๋Š” ๊ทธ๋ ‡์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋‹ค์ค‘๊ณต์„ ์„ฑ ๋“ฑ์˜ ์ด์œ ๋กœ ์ธํ•ด ์œ ์šฉํ•œ Feature๋“ค๋งŒ ์„ ํƒํ•ด์„œ ๋ถ„์„ํ•˜๋Š” ๊ฒƒ์ด ํ›จ์”ฌ ์ •ํ™•ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋งŒ๋“ค์–ด๋ƒ…๋‹ˆ๋‹ค. ๋˜ํ•œ ์„ ํƒ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ทธ๋Œ€๋กœ ๋ชจ๋ธ๋ง์— ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์— ๋”ฐ๋ผ Imputation, Scaling, Log transformation ๋“ฑ์˜ ๊ฐ€๊ณต์„ ๋”ํ•ด์ฃผ๋Š” ๊ฒƒ์ด ํ›จ์”ฌ ์ข‹์€ ๋ชจ๋ธ๋ง ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์ธ ์ด์œ ์— ๋Œ€ํ•ด์„œ๋Š” ์ดํ›„ Feature Engineering์˜ ์ข…๋ฅ˜๋ฅผ ์„ค๋ช…ํ•˜๋ฉฐ ๊ฐ™์ด ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

3. Feature Engineering์˜ ์ข…๋ฅ˜

1) Feature Creation

  • Feature Creation์ด๋ž€ ๋ชจ๋ธ์— ์œ ์šฉํ•˜๋‹ค๊ณ  ํŒ๋‹จ๋˜๋Š” ๋…๋ฆฝ๋ณ€์ˆ˜๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. Feature Creation์€ ๊ผญ ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ ธ์˜ค๋Š” ๊ฒƒ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๊ธฐ์กด์—๋Š” ์กด์žฌํ•˜์ง€ ์•Š์•˜์ง€๋งŒ ๊ธฐ์กด ์ปฌ๋Ÿผ๋“ค์„ ์กฐํ•ฉํ•˜์—ฌ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋Š” ๋ณ€์ˆ˜๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ๋„ ํฌํ•จ๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ธ๊ตฌ์™€ ๋ฉด์ ์ด ๋…๋ฆฝ๋ณ€์ˆ˜๋กœ ์ฃผ์–ด์ ธ ์žˆ์„ ๋•Œ, ์ธ๊ตฌ๋ฅผ ๋ฉด์ ์œผ๋กœ ๋‚˜๋ˆˆ ์ธ๊ตฌ๋ฐ€๋„ ๋ณ€์ˆ˜๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ๋„ Feature Creation์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค. ์ข…์†๋ณ€์ˆ˜๋ฅผ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋Š” ๋ณ€์ˆ˜๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ์€ ๋‹น์—ฐํ•˜๊ฒŒ๋„ ์ข‹์€ ์„ฑ๋Šฅ์— ๋„์›€์„ ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ์ข…์†๋ณ€์ˆ˜๋ฅผ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋Š” ๋ณ€์ˆ˜๋“ค ์ค‘ ์•„์ง ๊ณ ๋ ค๋˜์ง€ ์•Š์€ ๊ฒƒ์ด ์žˆ๋Š”์ง€ ๋…ผ๋ฆฌ์ ์œผ๋กœ ๊ฒ€ํ† ํ•ด๋ณด์•„์•ผ ํ•ฉ๋‹ˆ๋‹ค.

2) Feature Extraction

  • Feature Extraction์ด๋ž€ ์œ ์šฉํ•œ ์ •๋ณด๋ผ๊ณ  ์˜ˆ์ƒ๋˜๋Š” Feature๋งŒ ์ƒ‰์ถœํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๋…๋ฆฝ๋ณ€์ˆ˜๋“ค ๊ฐ„ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๋†’์„ ๋•Œ์—๋Š” ๋‹ค์ค‘๊ณต์„ ์„ฑ์„ ์ œ๊ฑฐํ•˜๊ธฐ ์œ„ํ•ด ๋ณ€์ˆ˜๋ฅผ ์ค„์ด๋Š” ๊ฒƒ์ด ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋น„๋งŒ๋„๋ฅผ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•ด ํ‚ค์™€ ๋ชธ๋ฌด๊ฒŒ๋ฅผ ๋ชจ๋‘ ๋ณ€์ˆ˜๋กœ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค, ํ‚ค์™€ ๋ชธ๋ฌด๊ฒŒ ์ค‘ ๋น„๋งŒ๋„์— ๋” ํฐ ์˜ํ–ฅ์„ ์ค„ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋˜๋Š” ๋ชธ๋ฌด๊ฒŒ๋งŒ์„ ๋ณ€์ˆ˜๋กœ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ํ‚ค์™€ ๋ชธ๋ฌด๊ฒŒ ์ž์ฒด์˜ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๋†’๊ธฐ ๋•Œ๋ฌธ์— ์˜ˆ์ธก์— ์•…์˜ํ–ฅ์„ ๋ผ์น  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

3) Imputation

  1. Imputation์˜ ์ •์˜

    • Imputation์ด๋ž€ ๊ฒฐ์ธก์น˜๋ฅผ ์ฑ„์šฐ๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๋จธ์‹ ๋Ÿฌ๋‹/๋”ฅ๋Ÿฌ๋‹์„ ํ•  ๋•Œ ๊ฐ€์žฅ ๋Œ€ํ‘œ์ ์ธ ์ „์ฒ˜๋ฆฌ๊ฐ€ ๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ์ž…๋‹ˆ๋‹ค. ๊ฒฐ์ธก์น˜๋Š” Human Error๋‚˜ Data Flow Interruption ๋“ฑ์— ์˜ํ•ด ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ์ธก์น˜๋Š” ๊ฒฐ์ธก์น˜์˜ ๋น„์œจ์ด ์–ผ๋งˆ๋‚˜ ๋†’์€์ง€, ํ•ด๋‹น ๋ณ€์ˆ˜๊ฐ€ ์—ฐ์†ํ˜•์ธ์ง€ ๋ฒ”์ฃผํ˜•์ธ์ง€์— ๋”ฐ๋ผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.

  2. ๋ฐ์ดํ„ฐ์— ๋”ฐ๋ฅธ Imputation ๋ฐฉ๋ฒ•

    • ๊ฒฐ์ธก๊ฐ’์˜ ๋น„์œจ์— ๋”ฐ๋ฅธ ๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•

      • ๊ฒฐ์ธก๊ฐ’์ด 10% ์ดํ•˜์ผ ๊ฒฝ์šฐ, ํ•ด๋‹น ๋ฐ์ดํ„ฐ๋ฅผ ์ง€์šฐ๊ฑฐ๋‚˜ ๋Œ€์น˜ํ•ฉ๋‹ˆ๋‹ค.

      • ๊ฒฐ์ธก๊ฐ’์ด 10% ์ด์ƒ์ผ ๊ฒฝ์šฐ, ๋ณ€์ˆ˜๋ฅผ ์ œ๊ฑฐํ•˜๊ฑฐ๋‚˜ ๋Œ€์น˜ํ•ฉ๋‹ˆ๋‹ค.

    • ๋ณ€์ˆ˜ ์œ ํ˜•์— ๋”ฐ๋ฅธ ๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•

      • ์—ฐ์†ํ˜• ๋ณ€์ˆ˜์˜ ๊ฒฝ์šฐ, 0์œผ๋กœ ๋Œ€์น˜ํ•˜๊ฑฐ๋‚˜ ํ‰๊ท  ๋Œ€์น˜๋ฒ• ๋“ฑ์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

      • ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜์˜ ๊ฒฝ์šฐ, ๊ฐ€์žฅ ๋นˆ๋„๊ฐ€ ๋†’์€ ๋ฒ”์ฃผ๋กœ ๋Œ€์น˜ํ•˜๊ฑฐ๋‚˜ Knn ๋Œ€์น˜๋ฒ•์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

    • Imputation์˜ ์ข…๋ฅ˜

      • ์ œ๊ฑฐ

        • ๋ฐ์ดํ„ฐ์˜ ๊ฐœ์ˆ˜๊ฐ€ ์ ์€ ๊ฒฝ์šฐ, ๋‹จ์ˆœ ์ œ๊ฑฐ๋Š” ๋ฐ”๋žŒ์งํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์„ ์ˆ˜๋ก ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ „์ฒด ๋ฐ์ดํ„ฐ ๊ฐœ์ˆ˜์— ๋น„ํ•ด ๊ฒฐ์ธก ๋ฐ์ดํ„ฐ ๊ฐœ์ˆ˜๊ฐ€ ๋งค์šฐ ์ ๊ณ , ์ ์ ˆํ•œ ๋Œ€์น˜๊ฐ’์ด ์—†๋‹ค๋ฉด ์ œ๊ฑฐํ•˜๋Š” ๊ฒƒ์ด ๋ฐ”๋žŒ์งํ•ฉ๋‹ˆ๋‹ค. ๊ฒฐ์ธก์น˜๋ฅผ ์ž˜๋ชป ๋Œ€์น˜ํ•ด ์˜ค๋ฅ˜๊ฐ€ ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ ์—ญ์‹œ ๋ชจ๋ธ ์„ฑ๋Šฅ์— ์•…์˜ํ–ฅ์„ ๋ฏธ์น˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

      • ํ‰๊ท  ๋Œ€์น˜๋ฒ•

        • ํ‰๊ท  ๋Œ€์น˜๋ฒ•์€ ์—ฐ์†ํ˜• ๋ณ€์ˆ˜์˜ ๊ฒฐ์ธก๊ฐ’์— ์‚ฌ์šฉํ•˜๋Š” ๋Œ€ํ‘œ์ ์ธ ๋Œ€์น˜๋ฒ•์œผ๋กœ, ์‚ฌ์šฉ ๋ฐฉ๋ฒ•์ด ๊ฐ„๋‹จํ•˜๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๊ด€์ธก๋œ ์ž๋ฃŒ๋ฅผ ํ† ๋Œ€๋กœ ํ•œ ์ถ”์ •๊ฐ’์„ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์™„๋ฒฝํ•œ ๋Œ€์น˜ ๋ฐฉ๋ฒ•์€ ์•„๋‹ˆ๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

      • Knn ๋Œ€์น˜

        • Knn ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ์˜ˆ์ธกํ•˜๊ณ ์ž ํ•˜๋Š” ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด k๊ฐœ ์ด์›ƒ์„ ์ฐพ์€ ๋’ค, ์ด๋“ค ์ด์›ƒ์œผ๋กœ๋ถ€ํ„ฐ ์˜ˆ์ธกํ•˜๊ณ ์ž ํ•˜๋Š” ๋ฐ์ดํ„ฐ์˜ ๋ถ„๋ฅ˜๋ฅผ ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ํ•ด๋‹น ๋ฐฉ๋ฒ•์€ ๋‹ค๋ฅธ ๋ณ€์ˆ˜๋“ค์ด ๋น„์Šทํ–ˆ์„ ๋•Œ์˜ ๊ฒฐ์ธก๊ฐ’์˜ ๊ฐ€์žฅ ๊ทธ๋Ÿด ๋“ฏํ•œ ๋ถ„๋ฅ˜๋ฅผ ์•Œ์•„๋‚ด๋Š” ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ€์žฅ ๋นˆ๋„๊ฐ€ ๋†’์€ ๋ฒ”์ฃผ๋กœ ๊ฒฐ์ธก๊ฐ’์„ ๋Œ€์น˜ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ์˜ค๋ฅ˜๋ฅผ ๋ฒ”ํ•  ๊ฐ€๋Šฅ์„ฑ์ด ์ ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

4) Outlier Handling

  • Outlier์˜ ์ •์˜ ๋ฐ ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•

    • ์ด์ƒ์น˜๋ž€ ๋ณ€์ˆ˜์˜ ๋ถ„ํฌ์—์„œ ๋น„์ •์ƒ์ ์œผ๋กœ ๋ฒ—์–ด๋‚œ ๊ฐ’์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๊ฒฐ์ธก์น˜์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ Human Error, Data Flow Interruption ๋“ฑ์— ์˜ํ•ด ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํ•ด๋‹น ๋ณ€์ˆ˜๊ฐ€ ๋ณธ๋ž˜ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๋ณ€๋™์„ฑ ๋•Œ๋ฌธ์— ์ด์ƒ์น˜๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•ด๋‹น ๋ณ€์ˆ˜์˜ ๋ณ€๋™์„ฑ ๋•Œ๋ฌธ์— ๋ฐœ์ƒํ•œ ์ด์ƒ์น˜๋ผ๊ณ  ํ• ์ง€๋ผ๋„ ๋‹ค๋ฅธ ๊ฐ’๋“ค๊ณผ์˜ ์ฐจ์ด๊ฐ€ ํฌ๋ฉด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์— ์•ˆ์ข‹์€ ์˜ํ–ฅ์„ ๋ฏธ์นฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ œ๊ฑฐ ๋˜๋Š” ์ƒํ•œ/ํ•˜ํ•œ ๊ฐ’์œผ๋กœ ๋Œ€์ฒดํ•˜๋Š” ๋ฐฉ์•ˆ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

  • Outlier ํŒ์ • ๋ฐฉ๋ฒ•

    • Boxplot

      ์ถœ์ฒ˜:https://www.kdnuggets.com/2019/11/understanding-boxplots.html

      • ๊ฐ€์žฅ ๋งŽ์ด ์•Œ๋ ค์ง„ ๋ฐฉ๋ฒ•์€ Boxplot์ž…๋‹ˆ๋‹ค. Boxplot์€ Q3 + 1.5*(Q3-Q1)์ด๋ฉด upper outlier๋กœ, Q1 - 1.5*(Q3-Q1)์ด๋ฉด lower outlier๋กœ ๊ทœ์ •ํ•ฉ๋‹ˆ๋‹ค.

    • 3-Sigma

      ์ถœ์ฒ˜:https://news.mit.edu/2012/explained-sigma-0209

      • 3-Sigma๋Š” ์ผ๋ณ€๋Ÿ‰ ์ž๋ฃŒ๋“ค ์ค‘ ๐žต + 3๐žผ ๋ฅผ ๋ฒ—์–ด๋‚˜๋Š” ๊ฒƒ๋“ค์„ ์ด์ƒ๊ฐ’์ด๋ผ๊ณ  ๊ทœ์ •ํ•ฉ๋‹ˆ๋‹ค. ์ •๊ทœ ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋Š” ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ, 99.7%์˜ ํ™•๋ฅ ๋กœ ๐žต + 3๐žผ ๋‚ด์— ์กด์žฌํ•œ๋‹ค๋Š” ์‚ฌ์‹ค์— ๊ทธ ๊ธฐ๋ฐ˜์„ ๋‘๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋Œ€๋ถ€๋ถ„์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์ •๊ทœ ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด์ง€ ์•Š๋Š”๋‹ค๋Š” ์ ์„ ๋ช…์‹ฌํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๋ฐ์ดํ„ฐ์˜ Skewness๊ฐ€ ์‹ฌํ•  ๊ฒฝ์šฐ, ์ด์ƒ์น˜๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ํ‰๊ท  ๋Œ€์‹  ์ค‘์•™๊ฐ’์œผ๋กœ ๋Œ€์น˜ํ•˜์—ฌ์•ผ ํ•ฉ๋‹ˆ๋‹ค.

Encoding

  1. Encoding์˜ ์ •์˜

    • Encoding์ด๋ž€ ๋ฒ”์ฃผํ˜• ์ปฌ๋Ÿผ์„ ๋ชจ๋ธ๋ง์— ์‚ฌ์šฉํ•˜๊ณ ์ž ํ•  ๋•Œ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ๋ง์„ ํ•˜๊ณ ์ž ํ•  ๋•Œ, ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜๋Š” ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์—†์œผ๋ฉฐ ๋ฐ˜๋“œ์‹œ ์ˆซ์ž ํ˜•ํƒœ์˜ ๊ฐ’์œผ๋กœ ๋ฐ”๋€Œ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. Encoding์—๋Š” ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•์ด ์žˆ์ง€๋งŒ, ์—ฌ๊ธฐ์„œ๋Š” Encoding ์ค‘ ๊ฐ€์žฅ ๋„๋ฆฌ ์“ฐ์ด๋Š” ๋ฐฉ๋ฒ•์ธ One-hot Encoding์„ ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

  2. One hot Encoding

    • One-Hot Encoding์ด๋ž€ ์œ„ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด ํ•ด๋‹น ์ปฌ๋Ÿผ์— ์กด์žฌํ•˜๋Š” ๋ชจ๋“  ๋ฒ”์ฃผ ๊ฐ๊ฐ์„ ์ƒˆ๋กœ์šด ๋ณ€์ˆ˜(Dummy Variables)๋กœ ๋งŒ๋“ค์–ด 0๊ณผ 1๋กœ ์–ด๋–ค ๋ฒ”์ฃผ์— ์†ํ•˜๋Š” ์ง€๋ฅผ ํ‘œ๊ธฐํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. One-hot encoding Integer Encoding์˜ ๋ฐœ์ „๋œ ํ˜•ํƒœ๋กœ, ๋ฒ”์ฃผ ๊ฐ„ ๊ด€๊ณ„๊ฐ€ ์ „ํ˜€ ์—†๋‹ค๋Š” ๊ฒƒ์„ ๊ฐ€์ •ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋ฒ”์ฃผ์˜ ๊ฐœ์ˆ˜๊ฐ€ ๋งค์šฐ ๋งŽ์€ ๊ฒฝ์šฐ, ๋ฒ”์ฃผ์˜ ๊ฐœ์ˆ˜๋งŒํผ ์ปฌ๋Ÿผ์ด ์ถ”๊ฐ€๋กœ ์ƒ์„ฑ๋˜์–ด ํฌ์†Œํ–‰๋ ฌ(Sparse Matrix, ํ–‰๋ ฌ์˜ ๊ฐ’์ด ๋Œ€๋ถ€๋ถ„ 0์ธ ํ–‰๋ ฌ)์˜ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Last updated