בישראל קיים ריטואל קבוע, בו כל שנה כלי התקשורת מפרסמים כי "השם הנפוץ לתינוקות בישראל הוא מוחמד" (למשל: כאן). אם נשים לרגע בצד את הטריגרים הלאומיים, הדמוגרפיים וכד' שידיעה כזו אמורה לעורר, נגלה שיש כאן דבר מה נוסף: הזדמנות ללמוד סטטיסטיקה, כמובן! בפרט: נבין מהי שונות ומדוע היא לחלופין גם חשובה וגם מעצבנת.
שונות, כפי שנרמז משמה, היא מדד המאפיין עד כמה הנתונים שלנו שונים (או "לא-דומים") זה לזה. לצערי, רוב הסטודנטים נחשפים ל"שונות" לראשונה כהגדרה המתמטית של השונות של משתנה רציף:
מה שבדרך-כלל מעלה שאלות רבות, דוגמת: מה זה לעזאזל ה-Σ המוזרה הזו, למה יש קו מעל ה-X וכן לפעמים התעלפויות של סטודנטים שחשבו שבפקולטות של מדעי הרוח והחברה הם יהיו מוגנים מ"מתמטיקה". גרוע יותר מכל אלה – לא ברור מה הקשר בין הנוסחה המתמטית הזו לשמות ילדים. לא לדאוג, אנחנו לא הולכים לדבר יותר על המשוואה הזאת.
בשביל להבין את הקשר, בואו נחזור צעד אחד אחורה – שונות היא מדד המאפיין עד כמה הנתונים שלנו דומים או שונים אחד מן השני. בשביל זה לא צריך את הנוסחה המסובכת הזו; אפשר להפעיל היגיון בריא. בואו ניקח שתי רשימות של שמות:
1. יוסי;
2. חנן;
3. גל;
4. אריאל;
5. איתן.
לעומת:
1. שרון;
2. יוסי;
3. שרון;
4. יוסי;
5. שרון.
ברור שברשימה הראשונה יש יותר שונות מאשר בשנייה. זה נותן לנו דרך טובה מאוד לחשוב על ההגדרה של שונות – הסיכוי שנמצא דמיון (או זהות) בין שני פריטים נפרדים ברשימה כלשהי.
מה הקשר של כל זה למוחמד, אתם שואלים? ובכן, אם מוחמד לא יבוא אל הפואנטה – תבוא הפואנטה אל מוחמד.
"מוחמד הוא השם הנפוץ לבנים שנולדו השנה" היא ידיעה חדשותית מוצלחת הגורמת לאנשים לחשוב שהשנה נולדו יותר מוסלמים מיהודים - אך ההיסק הזה לא נכון בעליל. לפי נתוני הלמ"ס, מספר הבנים היהודים שנולדו ב-2016 גבוה פי 3.5 ממספר הבנים המוסלמים שנולדו באותה שנה. אז איך מוחמד הוא השם הנפוץ ביותר לתינוק שנולד ב-2016? התשובה פשוטה – השונות בשמות של בנים בקרב האוכלוסייה המוסלמית הרבה יותר קטנה. יותר מ-15% מהבנים המוסלמים שנולדו ב-2016 שמם "מוחמד". אצל יהודים, השם הנפוץ ביותר הוא "נועם" – אך פחות מ-2.5% מהבנים היהודים זכו לשם הזה. יתרה על כך, העניין לא מסתיים ב"מוחמד" – עשרת השמות הנפוצים ביותר עבור תינוקות יהודים בישראל מהווים קצת יותר מ-18% מכלל השמות. אצל בנים מוסלמים, הנתון המקביל עומד על כמעט 40%.
באופן כללי, ככל שקבוצה מסוימת היא בעלת שונות גבוהה יותר – כך קשה יותר לשייך לפרטים בה מאפיינים "קולקטיבים". זה נכון להכנסות (ככל שיש יותר שונות בהכנסה, הממוצע פחות מאפיין את הפרטים בה) וגם לשמות. אם השונות בין שתי קבוצות דומה – אז פערים בין ממוצעים אומרים לנו הרבה. במקרה של שמות בישראל בחלוקה למוסלמים ויהודים – זה פשוט מטעה.
עד כמה מטעה? אפשר לעשות תרגיל מתמטי ממש פשוט. גם אם יחס התינוקות הזכרים היהודים-מוסלמים היה עולה מ-3.5 ל-6.3 (עבור כל תינוק מוסלמי ישנם 6.3 תינוקות יהודים), אם התפלגות השמות המוסלמית נשארת כפי שהיא – מוחמד עדיין היה השם הנפוץ ביותר. אם אתם רוצים את זה בפשוט אפילו יותר: 15% ממעט יכול להיות יותר גדול מ-2.5% מהרבה - ואין מכך כדי להסיק על היחס בין המעט להרבה.
ונקודה נוספת למחשבה – מדוע כמעט אף פעם לא שומעים כי שם מוסלמי לבנות הוא הנפוץ בישראל? גם כאן נגייס את השונות לעזרתנו - בשמות של בנות, השונות של מוסלמיות דומה מאוד לזו של יהודיות.
Bình luận