הבנת התאמת יתר וכיצד למנוע זאת

מה זה התאמה יתר?

מה זה התאמה יתר? התאמה יתר היא שגיאת מידול בסטטיסטיקה המתרחשת כאשר פונקציה מיושרת יותר מדי לקבוצה מוגבלת של נקודות נתונים. כתוצאה מכך, המודל שימושי בהתייחסות רק למערך הנתונים הראשוני שלו, ולא לכל מערכי נתונים אחרים. התאמת יתר של המודל לובשת בדרך כלל צורה של יצירת מודל מורכב מדי כדי להסביר אידיוסינקרטיות בנתונים הנבדקים. במציאות, לנתונים הנלמדים יש מידה מסוימת של שגיאה או רעש אקראי בתוכם. לפיכך, ניסיון להפוך את המודל להתאמה קרובה מדי לנתונים מעט לא מדויקים עלול להדביק את המודל בשגיאות מהותיות ולהפחית את כוח הניבוי שלו.

post-image-3

מה זה התאמה יתר? – התאמת יתר של המודל לובשת בדרך כלל צורה של יצירת מודל מורכב מדי כדי להסביר אידיוסינקרטיות בנתונים הנבדקים. במציאות, לנתונים הנלמדים יש מידה מסוימת של שגיאה או רעש אקראי בתוכם. לפיכך, ניסיון להפוך את המודל להתאמה קרובה מדי לנתונים מעט לא מדויקים עלול להדביק את המודל בשגיאות מהותיות ולהפחית את כוח הניבוי שלו.

מה זה התאמה יתר? – נקודות מרכזיות

  • התאמה יתרה היא שגיאה המתרחשת במודלים של נתונים כתוצאה מפונקציה מסוימת המיושרת קרוב מדי לקבוצה מינימלית של נקודות נתונים.
  • מה זה התאמה יתר?

  • אנשי מקצוע פיננסיים נמצאים בסיכון להתאים יתר על המידה מודל המבוסס על נתונים מוגבלים ולגמור עם תוצאות פגומות.
  • כאשר מודל נפגע על ידי התאמת יתר, המודל עלול לאבד מערכו ככלי חיזוי להשקעה.
  • מודל נתונים יכול להיות גם לא מתאים, כלומר הוא פשוט מדי, עם מעט מדי נקודות נתונים כדי להיות יעיל.
  • התאמת יתר היא בעיה שכיחה יותר מתת-התאמה ומתרחשת בדרך כלל כתוצאה מניסיון להימנע מהתאמה יתר.
  • הבנת התאמה יתר

    לדוגמה, בעיה נפוצה היא שימוש באלגוריתמים ממוחשבים כדי לחפש במאגרי מידע נרחבים של נתוני שוק היסטוריים כדי למצוא דפוסים. בהינתן מספיק מחקר, לעתים קרובות ניתן לפתח משפטים משוכללים שנראים כמנבאים תשואות בשוק המניות בדיוק רב.

    עם זאת, כאשר מיושמים על נתונים מחוץ למדגם, משפטים כאלה עשויים להתגלות כהתאמת יתר של מודל למה שהיו במציאות התרחשויות מקריות בלבד. בכל המקרים, חשוב לבדוק מודל מול נתונים שנמצאים מחוץ למדגם ששימש לפיתוחו.

    כיצד למנוע התאמת יתר

    דרכים למניעת התאמת יתר כוללות אימות צולב, שבו הנתונים המשמשים לאימון המודל נקצצים לקפלים או למחיצות והמודל מופעל עבור כל קיפול. לאחר מכן, אומדן השגיאה הכולל הוא ממוצע. שיטות אחרות כוללות הרכבה: חיזויים משולבים לפחות משני מודלים נפרדים, הגדלת נתונים, שבה מערך הנתונים הזמינים נראה מגוון, ופישוט נתונים, שבו המודל מתייעל כדי למנוע התאמת יתר.

    התאמת יתר בלמידת מכונה

    התאמת יתר היא גם גורם בלמידת מכונה. זה עשוי להופיע כאשר מכשיר לימדו לסרוק נתונים ספציפיים בכיוון אחד, אך כאשר אותו תהליך מוחל על קבוצה חדשה של נתונים, התוצאות אינן נכונות. הסיבה לכך היא שגיאות במודל שנבנה, מכיוון שהוא מראה ככל הנראה הטיה נמוכה ושונות גבוהה. ייתכן שלמודל היו תכונות מיותרות או חופפות, וכתוצאה מכך הוא הפך מסובך מיותר ולכן לא יעיל.

    התאמה יתר מול התאמה לא קטנה

    דגם שמצויד יתר על המידה עשוי להיות מסובך מדי, מה שהופך אותו ללא יעיל. אבל מודל יכול להיות גם לא מתאים, כלומר הוא פשוט מדי, עם מעט מדי תכונות ומעט מדי נתונים כדי לבנות מודל יעיל. למודל של כושר יתר יש הטיה נמוכה ושונות גבוהה, בעוד שמודל תחת כושר הוא ההפך – יש לו הטיה גבוהה ושונות נמוכה. הוספת תכונות נוספות למודל פשוט מדי יכולה לעזור להגביל הטיה.

    דוגמה להתאמת יתר

    לדוגמה, אוניברסיטה שרואה שיעור נשירה גבוה ממה שהיא הייתה רוצה, מחליטה שהיא רוצה ליצור מודל לחזות את הסבירות שמועמד יעבור את כל הדרך עד לסיום הלימודים.

    לשם כך, האוניברסיטה מכשירה מודל מתוך מערך נתונים של 5,000 מועמדים ותוצאותיהם. לאחר מכן הוא מריץ את המודל על מערך הנתונים המקורי – הקבוצה של 5,000 מועמדים – והמודל חוזה את התוצאה בדיוק של 98%. אבל כדי לבדוק את הדיוק שלו, הם גם מריצים את המודל על מערך נתונים שני – 5,000 מועמדים נוספים. עם זאת, הפעם, המודל מדויק רק ב-50%, מכיוון שהמודל התאים מדי לקבוצת משנה צרה, במקרה זה, 5,000 היישומים הראשונים.

    tradingpedia.co.il -> powered by : Sakara

    פוסטים קשורים

    תבדוק גם את זה
    Close
    Back to top button
    דילוג לתוכן