[μ€ν¬λ©]λ°μ΄ν° μ¬μ΄μΈμ€μ Challenge - Data Leakage
μ€λ 곡λΆν μ£Όμ λ λ°λ‘ λ°μ΄ν° λμ νμ(data leakage)μ λλ€.
μ νμμ λ°μ΄ν° μ¬μ΄μΈμ€ λΆμΌμ νκ³λ‘λ μλ €μ§ νμμ λλ€.
κΈ°μ¬ μΆμ²
https://towardsdatascience.com/will-you-spot-the-leaks-a-data-science-challenge/
Will You Spot the Leaks? A Data Science Challenge | Towards Data Science
When models fly too high: A perilous journey through data leakage
towardsdatascience.com
λ°μ΄ν° λμνμμ΄λ?
- λ°μ΄ν° λμλ λͺ¨λΈ νλ ¨ μμ μλ μ¬μ©ν μ μμ§λ§, μ€μ μμΈ‘ μμ μλ μ¬μ©ν μ μλ μ λ³΄κ° λͺ¨λΈμ ν¬ν¨λμ΄ κ³Όλνκ² λμ μ±λ₯μ 보μ΄λ νμμ λ§ν©λλ€.
- μ΄λ λͺ¨λΈμ μ€μ μ±λ₯μ κ³Όλνκ°νκ² λ§λ€λ©°, μ€μ μμμ μμΈ‘ μ νλλ₯Ό λ¨μ΄λ¨λ¦΄ μ μμ΅λλ€.
λ°μ΄ν° λμ νμμ μ’ λ₯
1. Target (Label) Leakage
μμΈ‘νλ €λ μ λ΅(νκΉ λ³μ)μ λν μ λ³΄κ° νΉμ§(feature) μμ μ§μ μ λλ κ°μ μ μΌλ‘ ν¬ν¨λμ΄ μμ λ λ°μνλ λ¬Έμ μ λλ€.
β μ§μ λμ (Direct Leakage)
- νκΉ λ³μμμ μ§μ κ³μ°λ νΉμ§ μ¬μ©
- β μμ: “μ°μ²΄λ λ μ§ μ”λ₯Ό μ΄μ©ν΄ λμΆ λΆλλ₯Ό μμΈ‘
- β ν΄κ²°: ν΄λΉ νΉμ§ μ κ±°
β‘ κ°μ λμ (Indirect Leakage)
- νκΉμ μ°νμ μΌλ‘ μλ €μ£Όλ λ³μ μ¬μ© (λ리 λ³μ)
- β μμ: “보νκΈ μ§κΈμ‘”μ μ¬μ©ν΄ λ³μ μ¬μ μμ μμΈ‘
- β ν΄κ²°: ν΄λΉ νΉμ§ μ κ±°
β’ μ¬ν μ§κ³(Post-Event Aggregates)
- μμΈ‘ κΈ°μ€ μμ μ΄νμ μ 보λ₯Ό μ¬μ©νλ κ²½μ°
- β μμ: “κ°μ 첫 30μΌ λμμ ν΅ν μ”λ‘ 7μΌ λ΄ μ΄ν μ¬λΆ μμΈ‘
- β ν΄κ²°: μ§κ³λ μ€μκ° λλ μμΈ‘ μμ κΈ°μ€μΌλ‘ μ¦μμμ κ³μ°
2. Train - Test(Split) Contaminaton
ν μ€νΈ λ°μ΄ν°μ μ λ³΄κ° νλ ¨ κ³Όμ μ μμ¬ λ€μ΄κ°λ©΄μ, μ€μ μ±λ₯μ΄ κ³Όλνκ°λλ λ¬Έμ μ λλ€.
β λ°μ΄ν° λΆμ λμ (Data Analysis Leakage)
- π μ 체 λ°μ΄ν°λ₯Ό 미리 λΆμν΄μ μκΈ°λ λμμ λλ€.
- β μμ: λ°μ΄ν° λΆν μ μ μ 체 μκ΄κ΄κ³λ 곡λΆμ°μ λΆμνλ κ²½μ°
- β ν΄κ²°: λ°μ΄ν°λ₯Ό λ¨Όμ λλκ³ , μ€μ§ νλ ¨ λ°μ΄ν°λ§ λΆμνμΈμ.
β‘ μ μ²λ¦¬ λμ (Preprocessing Leakage)
- π§ μ μ²λ¦¬λ₯Ό μ 체 λ°μ΄ν°μ λ¨Όμ μνν κ²½μ° μκΉλλ€.
- β μμ: μ κ·ν, μ€μΌμΌλ§, PCA λ±μ μ 체 λ°μ΄ν°μ μ μ©ν λ€ λΆν
- β ν΄κ²°: λΆν λ¨Όμ , μ μ²λ¦¬λ νλ ¨ λ°μ΄ν°μλ§ fit, ν μ€νΈμλ transformλ§ μ μ©
β’ μκ° λμ (Temporal Leakage)
- π°οΈ μκ³μ΄ λ°μ΄ν°μμ μκ° μμλ₯Ό 무μνκ³ λ¬΄μμλ‘ μμΌλ©΄ λ°μν©λλ€.
- β μμ: λ―Έλ λ°μ΄ν°λ₯Ό νλ ¨μ ν¬ν¨μμΌ κ³Όκ±°λ₯Ό μμΈ‘νλ κ²½μ°
- β ν΄κ²°: μκ° μμλλ‘ μ λ ¬νμ¬ λΆν ν΄μΌ ν©λλ€.
β£ μ€λ³΅ λμ (Duplicate Leakage)
- π κ°μ κ°μ²΄λ μ μ¬ν λ°μ΄ν°κ° νλ ¨κ³Ό ν μ€νΈμ λ λ€ ν¬ν¨λ κ²½μ°μ λλ€.
- β μμ: λμΌν κ³ κ°μ λ°μ΄ν°κ° νλ ¨κ³Ό ν μ€νΈμ λͺ¨λ ν¬ν¨
- β ν΄κ²°: ν κ°μ²΄(λλ μ μ¬ν νλͺ©)λ λ°λμ νμͺ½ μΈνΈμλ§ λ€μ΄κ°κ² νμΈμ.
β€ κ΅μ°¨κ²μ¦ λμ (Cross-Validation Leakage)
- π§ͺ κ΅μ°¨κ²μ¦ μ, λ°μ΄ν° μ μ²λ¦¬λ λ³ν κ³Όμ μ΄ ν΄λ μ¬μ΄μμ 곡μ λ κ²½μ° λ°μν©λλ€.
- β μμ: κ΅μ°¨κ²μ¦ μ μ μ€μΌμΌλ§μ μ 체μ λ¨Όμ μ μ©
- β ν΄κ²°: κ° κ΅μ°¨κ²μ¦ ν΄λ λ΄λΆμμ μ μ²λ¦¬λΆν° μμΈ‘κΉμ§ λ 립μ μΌλ‘ μ²λ¦¬
β₯ κ°μ²΄ μλ³μ λμ (Entity/Identifier Leakage)
- 𧬠λͺ¨λΈμ΄ ID, κ³ μ λ²νΈ λ±μΌλ‘ μ λ΅μ μΆμΈ‘ν΄λ²λ¦¬λ κ²½μ°μ λλ€.
- β μμ: κ³ κ° IDκ° λ°λ³΅λλ©° λͺ¨λΈμ΄ κ·Έκ²λ§ λ³΄κ³ μμΈ‘ κ°λ₯ν΄μ§λ κ²½μ°
- β ν΄κ²°: ν΄λΉ 컬λΌμ μ κ±°νκ±°λ μ²λ¦¬ν΄ μ£ΌμΈμ. (λ³΄ν΅ drop)
ν΄λΉ κΈ°μ¬μ λ€μ΄κ°λ³΄μλ©΄ μ΄μκ΄λ ¨λ μ€μ΅λ μ§νν μ μμΌλ μ°Έκ³ ν΄λ³΄μΈμ !!