Week 1

1๏ธโƒฃย ๋ ˆ์Šคํ† ๋ž‘ ํŒ ์ง€๋ถˆ ๋ฐ์ดํ„ฐ ๋ถ„์„

import seaborn as sns sns.__version__
  • seaborn์€ ํŒŒ์ด์ฌ์—์„œ ์‹œ๊ฐํ™”๋ฅผ ์œ„ํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์ž…๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ๋ฅผ ์‹œ๊ฐํ™”ํ•  ๋•Œ ๋งค์šฐ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค. sns.__version__์€ ์‚ฌ์šฉ ์ค‘์ธ seaborn์˜ ๋ฒ„์ „์„ ํ™•์ธํ•˜๋Š” ์ฝ”๋“œ์ž…๋‹ˆ๋‹ค.
ย 
df = sns.load_dataset('tips') df
  • sns.load_dataset('tips')๋Š” Seaborn์—์„œ ์ œ๊ณตํ•˜๋Š” ๋ ˆ์Šคํ† ๋ž‘ ํŒ ์ง€๋ถˆ ๋ฐ์ดํ„ฐ์…‹(tips)์„ ๋ถˆ๋Ÿฌ์˜ค๋Š” ์ฝ”๋“œ์ž…๋‹ˆ๋‹ค. df๋ผ๋Š” ๋ณ€์ˆ˜์— ๋ฐ์ดํ„ฐ๋ฅผ ์ €์žฅํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. df๋Š” ๋ถˆ๋Ÿฌ์˜จ ๋ฐ์ดํ„ฐ๋ฅผ ์ถœ๋ ฅํ•˜์—ฌ ํ™•์ธํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
    • notion image
ย 

2๏ธโƒฃย ํžˆ์Šคํ† ๊ทธ๋žจ ์‹œ๊ฐํ™”

๐Ÿ’ก
y์ถ•์„ ์ง€์ •ํ•˜์ง€ ์•Š์œผ๋ฉด ์ž๋™์œผ๋กœ Count๋กœ ์„ค์ •๋จ
sns.histplot(x=df['total_bill'])
  • sns.histplot() ํ•จ์ˆ˜๋Š” ํžˆ์Šคํ† ๊ทธ๋žจ์„ ๊ทธ๋ฆฌ๋Š” ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” x ์ถ•์— df['total_bill'] (์ด ์ฒญ๊ตฌ ๊ธˆ์•ก)์„ ์‚ฌ์šฉํ•ด, ์ฒญ๊ตฌ ๊ธˆ์•ก ๋ถ„ํฌ๋ฅผ ํžˆ์Šคํ† ๊ทธ๋žจ์œผ๋กœ ์‹œ๊ฐํ™”ํ•ฉ๋‹ˆ๋‹ค.
    • notion image
ย 
sns.histplot(x=df['size'])
  • ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, df['size'](ํŒ์„ ์ฃผ๋Š” ์†๋‹˜์˜ ์ˆ˜)๋ฅผ x ์ถ•์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ, ์†๋‹˜ ์ˆ˜์˜ ๋ถ„ํฌ๋ฅผ ํžˆ์Šคํ† ๊ทธ๋žจ์œผ๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.
    • notion image
ย 
sns.histplot(x=df['total_bill'], y=df['tip'])
  • x ์ถ•์— total_bill, y ์ถ•์— tip์„ ์‚ฌ์šฉํ•œ ํžˆ์Šคํ† ๊ทธ๋žจ์ž…๋‹ˆ๋‹ค. 2์ฐจ์›์œผ๋กœ, ์ฒญ๊ตฌ ๊ธˆ์•ก๊ณผ ํŒ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํžˆํŠธ๋งต ์Šคํƒ€์ผ๋กœ ์‹œ๊ฐํ™”ํ•ฉ๋‹ˆ๋‹ค.
    • notion image
      ย 
sns.kdeplot(x=df['total_bill'])
  • sns.kdeplot()์€ ์ปค๋„ ๋ฐ€๋„ ์ถ”์ •(Kernel Density Estimation) ๊ทธ๋ž˜ํ”„๋ฅผ ๊ทธ๋ฆฌ๋Š” ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. total_bill์˜ ๋ถ„ํฌ๋ฅผ ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ํ‘œํ˜„ํ•˜๋Š” ์ปค๋„ ๋ฐ€๋„ ๊ณก์„ ์„ ๊ทธ๋ฆฝ๋‹ˆ๋‹ค.
    • notion image
ย 
sns.kdeplot(x=df['tip'])
  • ๋™์ผํ•œ kdeplot()์„ ์‚ฌ์šฉํ•˜์—ฌ ํŒ์˜ ๋ถ„ํฌ๋ฅผ ์‹œ๊ฐํ™”ํ•ฉ๋‹ˆ๋‹ค.
    • notion image
ย 
sns.kdeplot(x=df['total_bill'], y=df['tip'])
  • ์ด ์ฝ”๋“œ๋Š” x ์ถ•์— total_bill, y ์ถ•์— tip์„ ์‚ฌ์šฉํ•œ 2์ฐจ์› KDE ํ”Œ๋กฏ์„ ๊ทธ๋ ค ์ฒญ๊ตฌ ๊ธˆ์•ก๊ณผ ํŒ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ๋ฐ€๋„ ๊ณก์„ ์œผ๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.
    • notion image
ย 
sns.ecdfplot(x=df['total_bill'])
  • sns.ecdfplot()์€ ๋ˆ„์  ๋ถ„ํฌ ํ•จ์ˆ˜(ECDF)๋ฅผ ๊ทธ๋ฆฌ๋Š” ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. ์ฒญ๊ตฌ ๊ธˆ์•ก์˜ ๋ˆ„์  ๋ถ„ํฌ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
    • notion image
ย 
sns.lmplot(y='tip', x='total_bill', data=df, hue='sex')
  • sns.lmplot()์€ ์„ ํ˜• ํšŒ๊ท€์„ ์„ ์‹œ๊ฐํ™”ํ•˜๋Š” ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. ์ด ์ฝ”๋“œ๋Š” ์ฒญ๊ตฌ ๊ธˆ์•ก(total_bill)๊ณผ ํŒ(tip) ๊ฐ„์˜ ์„ ํ˜• ๊ด€๊ณ„๋ฅผ ์„ฑ๋ณ„(sex)์— ๋”ฐ๋ผ ๋‹ค๋ฅด๊ฒŒ ์‹œ๊ฐํ™”ํ•ฉ๋‹ˆ๋‹ค.
    • notion image
ย 
sns.lmplot(y='tip', x='size', data=df, hue='sex')
  • ์ด ์ฝ”๋“œ๋Š” ์†๋‹˜์˜ ์ˆ˜(size)์™€ ํŒ(tip) ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ์„ฑ๋ณ„(sex)๋กœ ๊ตฌ๋ถ„ํ•˜์—ฌ ์„ ํ˜• ํšŒ๊ท€์„ ์„ ๊ทธ๋ฆฝ๋‹ˆ๋‹ค.
    • notion image
ย 
iris = sns.load_dataset("iris")
  • iris ๋ฐ์ดํ„ฐ์…‹์„ ๋ถˆ๋Ÿฌ์˜ต๋‹ˆ๋‹ค. ์ด๋Š” ๊ฝƒ์žŽ ๊ธธ์ด, ๋„ˆ๋น„, ๊ฝƒ๋ฐ›์นจ ๊ธธ์ด ๋“ฑ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•œ ์œ ๋ช…ํ•œ ๋ฐ์ดํ„ฐ์…‹์ž…๋‹ˆ๋‹ค.
import matplotlib.pyplot as plt x = iris.petal_length.values
  • matplotlib.pyplot์€ ํŒŒ์ด์ฌ์˜ ๊ธฐ๋ณธ ์‹œ๊ฐํ™” ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์ž…๋‹ˆ๋‹ค. iris.petal_length.values๋Š” ๊ฝƒ์žŽ ๊ธธ์ด ๋ฐ์ดํ„ฐ๋ฅผ x์— ์ €์žฅํ•ฉ๋‹ˆ๋‹ค.
sns.rugplot(x)
  • sns.rugplot()์€ x ๊ฐ’์ด ์–ด๋””์— ์žˆ๋Š”์ง€๋ฅผ ๊ฐ€๋กœ์ถ•์— ์ž‘์€ ์„ ๋“ค๋กœ ํ‘œ์‹œํ•ด์ฃผ๋Š” ํ”Œ๋กฏ์ž…๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋ฅผ ์‹œ๊ฐ์ ์œผ๋กœ ์‰ฝ๊ฒŒ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.
plt.title("Iris ๋ฐ์ดํ„ฐ ์ค‘, ๊ฝƒ์žŽ์˜ ๊ธธ์ด์— ๋Œ€ํ•œ Rug Plot") plt.show()
  • plt.title()์€ ๊ทธ๋ž˜ํ”„์˜ ์ œ๋ชฉ์„ ์„ค์ •ํ•˜๋Š” ํ•จ์ˆ˜์ด๊ณ , plt.show()๋Š” ์ƒ์„ฑ๋œ ํ”Œ๋กฏ์„ ํ™”๋ฉด์— ํ‘œ์‹œํ•ฉ๋‹ˆ๋‹ค.
    • notion image
ย 

3๏ธโƒฃย EDA ์„ค๋ช…

EDA (Exploratory Data Analysis) ํƒ์ƒ‰์  ๋ฐ์ดํ„ฐ ๋ถ„์„
1.EDA๋ž€? 1) ์ •์˜ ์ˆ˜์ง‘ํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ ๋“ค์–ด์™”์„ ๋•Œ, ์ด๋ฅผ ๋‹ค์–‘ํ•œ ๊ฐ๋„์—์„œ ๊ด€์ฐฐํ•˜๊ณ  ์ดํ•ดํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ํ•œ๋งˆ๋””๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๊ธฐ ์ „์— ๊ทธ๋ž˜ํ”„๋‚˜ ํ†ต๊ณ„์ ์ธ ๋ฐฉ๋ฒ•์œผ๋กœ ์ž๋ฃŒ๋ฅผ ์ง๊ด€์ ์œผ๋กœ ๋ฐ”๋ผ๋ณด๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. 2) ํ•„์š”ํ•œ ์ด์œ  ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ ๋ฐ ๊ฐ’์„ ๊ฒ€ํ† ํ•จ์œผ๋กœ์จ ๋ฐ์ดํ„ฐ๊ฐ€ ํ‘œํ˜„ํ•˜๋Š” ํ˜„์ƒ์„ ๋” ์ž˜ ์ดํ•ดํ•˜๊ณ , ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ž ์žฌ์ ์ธ ๋ฌธ์ œ๋ฅผ ๋ฐœ๊ฒฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด, ๋ณธ๊ฒฉ์ ์ธ ๋ถ„์„์— ๋“ค์–ด๊ฐ€๊ธฐ์— ์•ž์„œ ๋ฐ์ดํ„ฐ์˜ ์ˆ˜์ง‘์„ ๊ฒฐ์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ๊ฐ๋„์—์„œ ์‚ดํŽด๋ณด๋Š” ๊ณผ์ •์„ ํ†ตํ•ด ๋ฌธ์ œ ์ •์˜ ๋‹จ๊ณ„์—์„œ ๋ฏธ์ณ ๋ฐœ์ƒํ•˜์ง€ ๋ชปํ–ˆ์„ ๋‹ค์–‘ํ•œ ํŒจํ„ด์„ ๋ฐœ๊ฒฌํ•˜๊ณ , ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๊ธฐ์กด์˜ ๊ฐ€์„ค์„ ์ˆ˜์ •ํ•˜๊ฑฐ๋‚˜ ์ƒˆ๋กœ์šด ๊ฐ€์„ค์„ ์„ธ์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 3) ๊ณผ์ • ๊ธฐ๋ณธ์ ์ธ ์ถœ๋ฐœ์ ์€ ๋ฌธ์ œ ์ •์˜ ๋‹จ๊ณ„์—์„œ ์„ธ์› ๋˜ ์—ฐ๊ตฌ ์งˆ๋ฌธ๊ณผ ๊ฐ€์„ค์„ ๋ฐ”ํƒ•์œผ๋กœ ๋ถ„์„ ๊ณ„ํš์„ ์„ธ..
EDA (Exploratory Data Analysis) ํƒ์ƒ‰์  ๋ฐ์ดํ„ฐ ๋ถ„์„

4๏ธโƒฃย dataprep.eda ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋กœ ํƒ€์ดํƒ€๋‹‰ ๋ฐ์ดํ„ฐ์…‹ EDA

๋Œ“๊ธ€

guest