ההתלהבות הרגה את הסקר

haamanitveharochel

15 באוק׳ 2019זמן קריאה 6 דקות

עודכן: 11 בנוב׳ 2019

בשנת 1936, המגזין האמריקאי Literary Digest (LD) ביצע סקר שמטרתו לגלות מי ינצח בבחירות לנשיאות. המתמודדים אז היו פרנקלין דלנו רוזוולט הדמוקרט, נגד אלף לנדון הרפובליקני. הסקר היה עצום בגודלו: 10 מיליון אנשים נשאלו למי הם יצביעו - 26% מסך המצביעים בבחירות הקודמות. לשם השוואה, סקרי הבחירות בישראל מתבססים על בין 500 ל-600 איש – קצת יותר מ-0.01% מהמצביעים.

הסקר של LD חזה: לנדון ינצח עם 54% מהקולות. חלקכם בוודאי מגרדים עכשיו את הראש - איך זה שלא שמענו אף פעם על הנשיא לנדון? התשובה פשוטה – הסקר טעה. רוזוולט ניצח בגדול עם 61% מהקולות. אז מה קרה שם? האם זו עוד דוגמה לכך שאי אפשר לסמוך על סקרים? ואיך הסקר הזה הפך למור"ק ("מורשת קרב") לסטודנטים לסטטיסטיקה?

כל סקר צריך מדגם

צריך להפריד קודם בין שני מונחים שלעיתים מתערבבים – סקר ומדגם. הסקר הוא הנושא הגדול (למשל: בחירות בישראל) ואוסף השאלות (למשל: מי לדעתך הכי מתאים להיות ראש הממשלה?). לחלק הזה מקדישים הרבה מאוד מחשבה, למשל – כמה שאלות יהיו? ככל שיש יותר שאלות, כך נקבל יותר מידע, אבל גם נוריד את הסיכוי שאנשים יענו על הסקר או יענו על כולו באותה תשומת לב. גם הניסוח של השאלות זקוק לתשומת לב מיוחדת – הבדלים בניסוח יכולים "להוביל" אדם לענות תשובה מסויימת, וההובלה הזו יכולה להיות בתום לב או לא. כך, למשל, בסקר השקוף הראו כיצד ניסוח שונה לגבי "פתרון שתי המדינות" הוביל לתוצאות שונות. באופן אקראי, חצי מהנסקרים קיבלו נוסח "מוטה בעד פתרון שתי המדינות", והחצי הנותרים קיבלו נוסח "מוטה נגד פתרון שתי המדינות". 34% ממי שקיבלו את הנוסח המוטה נגד היו "בעד", לעומת 54% ממי שקיבלו את הנוסח המוטה בעד. זה נושא חשוב, אבל לא נתמקד בו כאן, אלא בחלק השני – המדגם.

המדגם הוא רשימת האנשים שאותם נשאל את שאלות הסקר. אלה מחולקים למשיבים – מי שענו על הסקר, ולא-משיבים – מי שלא ענו על הסקר. אי-השבה יכולה לנבוע ממספר גורמים: יכול להיות שסירבתי להשתתף (איך לעזאזל עושים פה "הסר"?!) ויכול להיות שפשוט לא מצאו אותי. הסוקר הגיע אליי הביתה, אבל בדיוק יצאתי לריצה. הכישלון של הסקר האגדי של LD ושל אין-סוף סקרים אחרים טמון כאן – מה היא "רשימת האנשים" שאותם נשאל את שאלות הסקר? אם לא כולם ענו, מדוע חלק לא ענו?

הנשיא הבא: אלף לנדון

ה-LD שלח בדואר 10 מיליון גלויות, שהכילו שאלה אחת עיקרית ו-3 שאלות משניות: הראשונה, "מי המועמד לנשיאות אותו אתה מעדיף"? האחרות הן "למי הצבעת בבחירות הקודמות", "אם לא הצבעת, מדוע לא הצבעת" ו-"מאיזו מדינה (סטייט) אתה?".

מי הם אותם 10 מיליון שקיבלו את הגלויה? בשביל לשלוח גלויות צריך כתובת דואר. המגזין השיג 10 מיליון כתובות כאלה מכמה מקורות: ספרי טלפונים, בעלי רכבים, חברי מועדונים והתאגדויות, מצביעים רשומים, בעלי מקצוע רשומים, מנויים למגזינים שונים ואוספי כתובות עירוניים; כאשר הרוב הגיעו מספרי הטלפונים ובעלי רכבים. המור"ק הסטטיסטי הנפוץ בדרך כלל עוצר כאן ומבקש מהסטודנטים לחשוב רגע – האם מי שנמצא בספרי טלפונים ו/או יש להם רכב, חברים בכל מיני התאגדויות וכד' – מייצגים את כלל האוכלוסייה, ולכן גם את מגוון הדעות הפוליטיות בה, או שאלו קבוצות ייחודיות?

תארו לעצמכם שבבחירות האחרונות, היינו מרימים בישראל סקר עצום של מאות אלפי אנשים. אם, למשל, הם כולם היו מגיעים מתל-אביב, היינו חוזים ל"מחנה הדמוקרטי" 17 מנדטים, בניגוד ל-5 שהם קיבלו בפועל מבוחרים בתל-אביב ובשאר הארץ.

אם נחזור לארה"ב של שנת 1936 – התשובה השגורה לשאלה הזו היא – לא. מקבלי הגלויה לא מייצגים את כלל המצביעים באמריקה. רובם נלקחו מספרי טלפונים הרי. מי מופיע בספרי טלפונים? מי שיש לו טלפון. למי יש טלפון בשנות השלושים? למעמד הבינוני-גבוה ומעלה, ואלה נוטים יותר להיות רפובליקנים מאשר דמוקרטים. במילים אחרות: המגזין לא שאל את אמריקה למי הם יצביעו, אלא שאל את אמריקה העשירה והיותר רפובליקנית – ואין מה להיות מופתעים שהתשובה שקיבל היא... שהם מעדיפים את המועמד הרפובליקני. בדיוק כפי שאין מה להיות מופתעים אם נשאל את ישראל התל-אביבית למי הם יצביעו, ונסיק מכך על הישג חסר תקדים למר"צ.

עד כאן המור"ק הסטטיסטי כפי שלימדו אותו במשך עשורים, ועדיין מלמדים. האמת היא שיש כאן טעות, או לפחות חצי טעות. 40 שנה לאחר הסקר, בשנת 1976, פירסם הסטטיסטיקאי מוריס ברייסון מאמר קצרצר (2 עמודים) עם הכותרת הפרובוקטיבית (במונחים של מאמרים אקדמיים): "הסקר של Literary Digest: כיצד נוצר מיתוס סטטיסטי". ברייסון טען טענה פשוטה – בעלות על טלפון לא יכולה להסביר את הטעות של הסקר. למרות שכולם ידעו לדקלם שבתקופה הזו לא היו הרבה טלפונים – הם טעו. בערך 40% ממשקי הבית האמריקאים היו אז בעלי טלפונים – בטח לא "השכבות העליונות בלבד". בנוסף, לנדון קיבל רוב גדול דווקא במחוזות הכפריים – בהם שיעור בעלי הטלפון דווקא נמוך יותר. בנוסף טען – אם לנדון אכן קיבל 60% מקולות "בעלי הטלפונים", תוצאות הבחירות אומרות שבקרב מי שאין לו טלפון – רוזוולט קיבל 27 קולות על כל 2 קולות של לנדון – אפשרי, אבל בלתי סביר לחלוטין.

למעשה, סקר שנערך רק שנה לאחר מכן מצא שבכל הנוגע לרכבים וטלפונים, התמיכה ברוזוולט הייתה גדולה יותר מלבד אצל מי שהיה להם גם רכב וגם טלפון:

מדוע הסקר נכשל?

אז מהו כן ההסבר לכשל של הסקר? אמרנו שה-LD שלח 10 מיליון גלויות, שהן יותר מרבע מכמות המצביעים בבחירות שלפני כן. זהו המדגם. מה עם הפירוק למשיבים ולא-משיבים? ברייסון טען שכאן קבור הכלב – רק 2.5 מיליון מהנשאלים גם השיבו, ואף כי לעיתים רבות טוענים שמי שהשיב ומי שלא השיב דומים זה לזה – או במילים אחרות, מי שלא השיב, לא השיב בלי סיבה מיוחדת – נראה שכאן זה לא היה המצב, והיה הבדל גדול מבחינה פוליטית בין מי שהשיבו למי שלא השיבו לסקר.

היום, לענות לסקר קצר כזה זה ממש קל – ועדיין, חלק גדול מאיתנו בוחרים להתעלם או לנסות להסיר את עצמנו ממאגר הטלפונים של הסוקר התורן. ב-1936 זה היה סיפור גדול יותר – היה צריך למלא את הגלויה ולשלוח אותה בחזרה למגזין. אז, קודם כל: מי שלא הגיב (בניגוד למי שכלל לא קיבל) כבר, כנראה, קצת שונה ממי שכן הגיב על בסיס הטרחה נטו, אבל אם התפלגות חוסר-הרצון-לטרוח דומה בין הצדדים הפוליטיים, זה לא אמור לשנות יותר מדי.

התלהבות. ההתלהבות היא זו שהובילה לכשל הגדול של הסקר ולחיזוי השגוי שהמועמד הרפובליקני ינצח. רוזוולט עמד כאן לבחירות שניות, באמצע השפל הגדול ותוכניות הניו-דיל. לרוזוולט היה היתרון שהוא הנשיא המכהן ולכן מי שמרוצים מהדרך הנוכחית יכולים להביע בו אמון על ידי בחירה מחדש. אבל "לבחור מחדש" זה לא מלהיב כמו "לבחור בפעם הראשונה". ב-2008 אובמה נבחר על גל של אופטימיות והתלהבות עצומה; ב-2012 הוא נבחר למרות גל עייפות ופיהוק כללי. התומכים של לנדון, בדומה, למשל, לתומכים של זהות ושל כל מפלגה "חדשה" או מועמד "חדש", היו מאוד נלהבים. לא היה צריך לשאול אותם למי הם מתכוונים להצביע, הם כבר יודיעו לך. הם מילאו את הגלויות בהמוניהם וכך יצא שלנדון אמור לנצח – אבל לקלפי מגיעים לא רק המתלהבים אלא גם המפהקים, ובשקלול הכללי לנדון הפסיד. בגדול.

ראינו כבר שגם בעלי הטלפון שהואשמו על לא עוול בכפם בכך שהם עשירים גדולים ורפובליקנים נטו יותר דווקא לרוזוולט. אבל מה עם שיעור המשיבים לסקר של LD? כאן אנחנו מקבלים היפוך מוחלט של התרשים הקודם – התומכים של לנדון אכן היו מה"מתלהבים" – היה חשוב להם להביע את חוסר שביעות הרצון שלהם מהניו-דיל והתקווה שלהם לשינוי הדרך עם לנדון, ובאופן בלתי תלוי בבעלות שלהם על טלפון או רכב:

הסטטיסטיקאי לוסינצ'י חישב, על בסיס הממצאים הללו (ועוד כמה דברים שהעדפתי לא להיכנס אליהם ברשומה הזו), שאת הפער של 19.6 נקודות אחוז בין תוצאות האמת עבור רוזוולט (62.5%) לתוצאות בסקר של Literary Digest (42.9%) ניתן לפרק לחלק שנובע מהטיית המדגם (ההסבר המקובל) ולחלק שנובע מהטיית ההשבה או ההתלהבות. הטיית המדגם מסבירה 5.9 נקודות אחוז מהפער, בעוד שהטיית ההשבה מסבירה 13.7 נקודות אחוז מהפער. במילים אחרות: החלק הארי של הטעות של LD לא הגיע מכך שהסתמכו על ספרי טלפונים, אלא מכך שהדמוקרטים לא ששו לענות על הסקר, בעוד שהרפובליקנים התלהבו ו"שיתפו בכל הכוח".

השנה הנוכחית

איך כל זה רלוונטי להיום? קודם כל, מור"ק חלקי מעביר מסר חלקי – דורות של סטטיסטיקאים ומדעני חברה שמו דגש גדול (וחשוב) על כך שהמדגם שלהם יהיה מייצג, אך דגש חלקי יותר על טיפול סטטיסטי הולם באי-השבה.

שנית, שיטת הדגימה המודרנית, המתבססת על סקרים אינטרנטיים, יכולה לסבול מאותה בעיה בדיוק של שיעור השבה נמוך ומוטה. למשל, באחד מסקרי הבחירות האחרונים השיבו 605 איש מתוך מדגם מייצג של האוכלוסייה בישראל בגילאי 18 ומעלה. אבל למעשה, 3,656 התבקשו להשתתף – שיעור השבה של 16.5% בלבד. קיימות היום שיטות סטטיסטיות רבות ומגוונות להתמודד (עד כמה שניתן) עם אי-השבה שכזו, ואכן, ב-2017 פורסם מאמר שמראה איך בעזרת שיטות אלו ניתן אפילו לקבל מן הנתונים של LD שהמנצח הוא רוזוולט, ומציע שיטות תיקון דומות לסקרים מודרניים. ה-Literary Digest היה מודע לשיטות תיקון כאלה, אך גאוותו הייתה דווקא על כך שהוא לא נותן למומחים שלו להפעיל "שיקול דעת" שכזה, ומפרסם את התוצאות כפי שהן.

בישראל, המצב קצת שונה. ראשית, הבעיה היא בעיה קשה יותר – קל הרבה יותר לחזות איזה מועמד לנשיאות ינצח (או לפחות איזה יקבל את רוב הקולות). בארה"ב יש 3 אפשרויות מרכזיות (דמוקרטי, רפובליקני, לא מצביע) ומספר זניח של מועמדים ממפלגות זניחות (ליברטריאנים, סוציאליסטים, ירוקים וכו'). בישראל יש עשרות מפלגות שמקובצות במספר גדול של רשימות. בנוסף, ייתכן שבישראל בעיה גדולה יותר הייתה דווקא הפעלת "יתר שיקול דעת" מצד הסוקרים – הסוקרים לקחו את מי שאינם יודעים למי יצביעו, וחילקו אותם בין המפלגות השונות לפי מפתח לא ידוע כלשהו. הם גם דאגו יותר להיות דומים אחד לשני, כדי שלא יואשמו בכך שהם משרתים מטרה פוליטית כלשהי, ולכן גם אם סוקר כלשהו קיבל בסקר פער גדול מאוד בין כחול-לבן לליכוד, הוא העדיף להקטין אותו על ידי, למשל, חלוקת יותר מנדטים מהלא-יודעים לליכוד מאשר בדרך כלל. מי שרוצים לדעת יותר על תעשיית הסקרים בבחירות בישראל והחלטות הסוקרים, מוזמנים לקרוא את המאמר המצוין של הסקר השקוף. ועם זאת, המקרה של Literary Digest מספק לנו תשובה טובה לתהייה לאן נעלמו כל המנדטים של "זהות", "עוצמה יהודית" ומפלגות אחרות שהפציעו בסקרים כעוברות את אחוז החסימה. המצביעים שלהן היו הנלהבים וההחלטיים ביותר, אבל בקלפי – קולות המתלהבים והמפהקים נספרים גם יחד...

ההתלהבות הרגה את הסקר

פוסטים אחרונים

Comments