Week 1

1οΈβƒ£Β λ ˆμŠ€ν† λž‘ 팁 μ§€λΆˆ 데이터 뢄석

import seaborn as sns sns.__version__
  • seaborn은 νŒŒμ΄μ¬μ—μ„œ μ‹œκ°ν™”λ₯Ό μœ„ν•œ λΌμ΄λΈŒλŸ¬λ¦¬μž…λ‹ˆλ‹€. 데이터λ₯Ό μ‹œκ°ν™”ν•  λ•Œ 맀우 μœ μš©ν•©λ‹ˆλ‹€. sns.__version__은 μ‚¬μš© 쀑인 seaborn의 버전을 ν™•μΈν•˜λŠ” μ½”λ“œμž…λ‹ˆλ‹€.
Β 
df = sns.load_dataset('tips') df
  • sns.load_dataset('tips')λŠ” Seabornμ—μ„œ μ œκ³΅ν•˜λŠ” λ ˆμŠ€ν† λž‘ 팁 μ§€λΆˆ 데이터셋(tips)을 λΆˆλŸ¬μ˜€λŠ” μ½”λ“œμž…λ‹ˆλ‹€. dfλΌλŠ” λ³€μˆ˜μ— 데이터λ₯Ό μ €μž₯ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. dfλŠ” 뢈러온 데이터λ₯Ό 좜λ ₯ν•˜μ—¬ ν™•μΈν•˜λŠ” 역할을 ν•©λ‹ˆλ‹€.
    • notion image
Β 

2οΈβƒ£Β νžˆμŠ€ν† κ·Έλž¨ μ‹œκ°ν™”

πŸ’‘
y좕을 μ§€μ •ν•˜μ§€ μ•ŠμœΌλ©΄ μžλ™μœΌλ‘œ Count둜 섀정됨
sns.histplot(x=df['total_bill'])
  • sns.histplot() ν•¨μˆ˜λŠ” νžˆμŠ€ν† κ·Έλž¨μ„ κ·Έλ¦¬λŠ” ν•¨μˆ˜μž…λ‹ˆλ‹€. μ—¬κΈ°μ„œλŠ” x 좕에 df['total_bill'] (총 청ꡬ κΈˆμ•‘)을 μ‚¬μš©ν•΄, 청ꡬ κΈˆμ•‘ 뢄포λ₯Ό νžˆμŠ€ν† κ·Έλž¨μœΌλ‘œ μ‹œκ°ν™”ν•©λ‹ˆλ‹€.
    • notion image
Β 
sns.histplot(x=df['size'])
  • λ§ˆμ°¬κ°€μ§€λ‘œ, df['size'](νŒμ„ μ£ΌλŠ” μ†λ‹˜μ˜ 수)λ₯Ό x μΆ•μœΌλ‘œ μ‚¬μš©ν•˜μ—¬, μ†λ‹˜ 수의 뢄포λ₯Ό νžˆμŠ€ν† κ·Έλž¨μœΌλ‘œ ν‘œν˜„ν•©λ‹ˆλ‹€.
    • notion image
Β 
sns.histplot(x=df['total_bill'], y=df['tip'])
  • x 좕에 total_bill, y 좕에 tip을 μ‚¬μš©ν•œ νžˆμŠ€ν† κ·Έλž¨μž…λ‹ˆλ‹€. 2μ°¨μ›μœΌλ‘œ, 청ꡬ κΈˆμ•‘κ³Ό 팁 κ°„μ˜ 관계λ₯Ό 히트맡 μŠ€νƒ€μΌλ‘œ μ‹œκ°ν™”ν•©λ‹ˆλ‹€.
    • notion image
      Β 
sns.kdeplot(x=df['total_bill'])
  • sns.kdeplot()은 컀널 밀도 μΆ”μ •(Kernel Density Estimation) κ·Έλž˜ν”„λ₯Ό κ·Έλ¦¬λŠ” ν•¨μˆ˜μž…λ‹ˆλ‹€. total_bill의 뢄포λ₯Ό λΆ€λ“œλŸ½κ²Œ ν‘œν˜„ν•˜λŠ” 컀널 밀도 곑선을 κ·Έλ¦½λ‹ˆλ‹€.
    • notion image
Β 
sns.kdeplot(x=df['tip'])
  • λ™μΌν•œ kdeplot()을 μ‚¬μš©ν•˜μ—¬ 팁의 뢄포λ₯Ό μ‹œκ°ν™”ν•©λ‹ˆλ‹€.
    • notion image
Β 
sns.kdeplot(x=df['total_bill'], y=df['tip'])
  • 이 μ½”λ“œλŠ” x 좕에 total_bill, y 좕에 tip을 μ‚¬μš©ν•œ 2차원 KDE ν”Œλ‘―μ„ κ·Έλ € 청ꡬ κΈˆμ•‘κ³Ό 팁 κ°„μ˜ 관계λ₯Ό 밀도 κ³‘μ„ μœΌλ‘œ ν‘œν˜„ν•©λ‹ˆλ‹€.
    • notion image
Β 
sns.ecdfplot(x=df['total_bill'])
  • sns.ecdfplot()은 λˆ„μ  뢄포 ν•¨μˆ˜(ECDF)λ₯Ό κ·Έλ¦¬λŠ” ν•¨μˆ˜μž…λ‹ˆλ‹€. 청ꡬ κΈˆμ•‘μ˜ λˆ„μ  뢄포λ₯Ό λ³΄μ—¬μ€λ‹ˆλ‹€.
    • notion image
Β 
sns.lmplot(y='tip', x='total_bill', data=df, hue='sex')
  • sns.lmplot()은 μ„ ν˜• νšŒκ·€μ„ μ„ μ‹œκ°ν™”ν•˜λŠ” ν•¨μˆ˜μž…λ‹ˆλ‹€. 이 μ½”λ“œλŠ” 청ꡬ κΈˆμ•‘(total_bill)κ³Ό 팁(tip) κ°„μ˜ μ„ ν˜• 관계λ₯Ό 성별(sex)에 따라 λ‹€λ₯΄κ²Œ μ‹œκ°ν™”ν•©λ‹ˆλ‹€.
    • notion image
Β 
sns.lmplot(y='tip', x='size', data=df, hue='sex')
  • 이 μ½”λ“œλŠ” μ†λ‹˜μ˜ 수(size)와 팁(tip) κ°„μ˜ 관계λ₯Ό 성별(sex)둜 κ΅¬λΆ„ν•˜μ—¬ μ„ ν˜• νšŒκ·€μ„ μ„ κ·Έλ¦½λ‹ˆλ‹€.
    • notion image
Β 
iris = sns.load_dataset("iris")
  • iris 데이터셋을 λΆˆλŸ¬μ˜΅λ‹ˆλ‹€. μ΄λŠ” κ½ƒμžŽ 길이, λ„ˆλΉ„, 꽃받침 길이 λ“±μ˜ 데이터λ₯Ό ν¬ν•¨ν•œ 유λͺ…ν•œ λ°μ΄ν„°μ…‹μž…λ‹ˆλ‹€.
import matplotlib.pyplot as plt x = iris.petal_length.values
  • matplotlib.pyplot은 파이썬의 κΈ°λ³Έ μ‹œκ°ν™” λΌμ΄λΈŒλŸ¬λ¦¬μž…λ‹ˆλ‹€. iris.petal_length.valuesλŠ” κ½ƒμžŽ 길이 데이터λ₯Ό x에 μ €μž₯ν•©λ‹ˆλ‹€.
sns.rugplot(x)
  • sns.rugplot()은 x 값이 어디에 μžˆλŠ”μ§€λ₯Ό κ°€λ‘œμΆ•μ— μž‘μ€ μ„ λ“€λ‘œ ν‘œμ‹œν•΄μ£ΌλŠ” ν”Œλ‘―μž…λ‹ˆλ‹€. 데이터 포인트λ₯Ό μ‹œκ°μ μœΌλ‘œ μ‰½κ²Œ 이해할 수 μžˆλ„λ‘ λ„μ™€μ€λ‹ˆλ‹€.
plt.title("Iris 데이터 쀑, κ½ƒμžŽμ˜ 길이에 λŒ€ν•œ Rug Plot") plt.show()
  • plt.title()은 κ·Έλž˜ν”„μ˜ 제λͺ©μ„ μ„€μ •ν•˜λŠ” ν•¨μˆ˜μ΄κ³ , plt.show()λŠ” μƒμ„±λœ ν”Œλ‘―μ„ 화면에 ν‘œμ‹œν•©λ‹ˆλ‹€.
    • notion image
Β 

3️⃣ EDA μ„€λͺ…

EDA (Exploratory Data Analysis) 탐색적 데이터 뢄석
1.EDAλž€? 1) μ •μ˜ μˆ˜μ§‘ν•œ 데이터가 듀어왔을 λ•Œ, 이λ₯Ό λ‹€μ–‘ν•œ κ°λ„μ—μ„œ κ΄€μ°°ν•˜κ³  μ΄ν•΄ν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€. ν•œλ§ˆλ””λ‘œ 데이터λ₯Ό λΆ„μ„ν•˜κΈ° 전에 κ·Έλž˜ν”„λ‚˜ 톡계적인 λ°©λ²•μœΌλ‘œ 자료λ₯Ό μ§κ΄€μ μœΌλ‘œ λ°”λΌλ³΄λŠ” κ³Όμ •μž…λ‹ˆλ‹€. 2) ν•„μš”ν•œ 이유 λ°μ΄ν„°μ˜ 뢄포 및 값을 κ²€ν† ν•¨μœΌλ‘œμ¨ 데이터가 ν‘œν˜„ν•˜λŠ” ν˜„μƒμ„ 더 잘 μ΄ν•΄ν•˜κ³ , 데이터에 λŒ€ν•œ 잠재적인 문제λ₯Ό λ°œκ²¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό 톡해, 본격적인 뢄석에 듀어가기에 μ•žμ„œ λ°μ΄ν„°μ˜ μˆ˜μ§‘μ„ κ²°μ •ν•  수 μžˆμŠ΅λ‹ˆλ‹€. λ‹€μ–‘ν•œ κ°λ„μ—μ„œ μ‚΄νŽ΄λ³΄λŠ” 과정을 톡해 문제 μ •μ˜ λ‹¨κ³„μ—μ„œ 미쳐 λ°œμƒν•˜μ§€ λͺ»ν–ˆμ„ λ‹€μ–‘ν•œ νŒ¨ν„΄μ„ λ°œκ²¬ν•˜κ³ , 이λ₯Ό λ°”νƒ•μœΌλ‘œ 기쑴의 가섀을 μˆ˜μ •ν•˜κ±°λ‚˜ μƒˆλ‘œμš΄ 가섀을 μ„ΈμšΈ 수 μžˆμŠ΅λ‹ˆλ‹€. 3) κ³Όμ • 기본적인 μΆœλ°œμ μ€ 문제 μ •μ˜ λ‹¨κ³„μ—μ„œ μ„Έμ› λ˜ 연ꡬ 질문과 가섀을 λ°”νƒ•μœΌλ‘œ 뢄석 κ³„νšμ„ μ„Έ..
EDA (Exploratory Data Analysis) 탐색적 데이터 뢄석

4️⃣ dataprep.eda 라이브러리둜 타이타닉 데이터셋 EDA

λŒ“κΈ€

guest