סטטיסטיקה בגובה העיניים

Oren Farber
לפני יומיים (2)
זמן קריאה 7 דקות

עודכן: לפני יום אחד (1)

מהפעמון של גלטון לפיצה של יניב

מה שכל אדם משכיל צריך לדעת על סטטיסטיקה

יש אנשים שמקבלים החלטות מתוך תחושת בטן.

ויש אנשים שמקבלים החלטות מתוך ניתוח של נתונים.

ההבדל ביניהם לא תלוי בכמה הם יודעים. הוא תלוי בכלי אחד פשוט שרובנו מעולם לא הפנמנו.

כשרופא אמר לכם "התרופה הזו מפחיתה סיכון ב-50%" - האמנתם לו? כשכתבה אמרה "המחירים עלו ב-8%" - הרגשתם את זה? כשחבר אמר "קראתי שרוב האנשים..." - עצרתם לשאול מי בדיוק נשאל?

רובנו לא עוצרים.

ולכן, בהיבט הזה, רובנו מתנהלים בעולם עם מפה שגויה.

הכלי שחסר לנו הוא סטטיסטיקה לא סטטיסטיקה של נוסחאות אלא סטטיסטיקה של חשיבה. של שאלות נכונות ויכולת לראות מה עומד מאחורי המספרים.

בואו נדבר על הכלי הזה.

סדר מתוך הכאוס

יש שאלה שרוב האנשים לא שואלים:

למה הדברים מתנהגים בצורה צפויה - גם כשנדמה שהכל אקראי?

תחשבו על תור בסופרמרקט.

כל אדם בתור הוא עולם בפני עצמו. אחד עצר לחפש ארנק. אחד שכח מוצר. אחת שילמה במזומן. כאוס מוחלט.

אבל אם תעמדו ליד הקופה שעה שלמה ותמדדו כמה זמן לוקחת כל קנייה - תגלו משהו מפתיע.

רוב האנשים לוקחים בין 3 ל-6 דקות. מעטים לוקחים דקה. מעטים לוקחים עשר.

וכולם יחד יוצרים צורה אחת מוכרת - ערימה גבוהה באמצע ונמוכה בצדדים.

פעמון!

זה קורה עם גבהי אנשים. עם ציוני מבחנים. עם לחץ דם. עם זמני משלוח.

הטבע אוהב סדר - גם כשנדמה לנו שיש כאוס.

וברגע שאתם יודעים שתופעה מתנהגת כמו פעמון - אתם פתאום יכולים לנחש. לתכנן. להחליט.

וזה לא גילוי של עידן הביג דאטה.

במאה ה-19 בנה המדען פרנסיס גלטון מכשיר עץ פשוט - לוח עם מסמרים קטנים בצורת משולש. הוא שחרר אלפי כדורי פלדה מלמעלה. כל כדור פגע במסמר ובחר באקראי - ימין או שמאל. כאוס מוחלט.

אבל בתחתית - תמיד, בלי יוצא מן הכלל - נוצר פעמון. גלטון גילה שהאקראיות אינה כאוס אלא סדר בתחפושת.

איך מגלים הרבה מתוך מעט?

לא שותים את כל הסיר כדי לדעת שהמרק מלוח.

טועמים כף אחת. זו דגימה. וזה עקרון שמניע כל מחקר, כל סקר, כל בדיקת מעבדה בעולם.

מרק זה טוב, אבל יש פה בעיה גדולה:

כפות מרק יכולות לשקר.

בשנות ה-30 בארה"ב, כתב עת גדול שלח שאלונים ל-10 מיליון איש. קיבל 2 מיליון תשובות. ניבא בביטחון שלאנסדון ינצח. אבל לתדהמת כולם רוזוולט ניצח - ובגדול.

מה קרה? הם שלחו שאלונים לרשימות טלפונים ובעלי מכוניות. אנשים יחסית אמידים . לא דגימה של האמריקאי הממוצע זכרו שאלו היו הימים של המשבר הגדול... ה"כף" שלהם שאבה רק מהשכבה העליונה של הסיר.

או במושגים ישראלים, זה כמו לעשות סקר בחירות רק בקפלן או רק בקריית ארבע.

מכאן אנחנו למדים שיש שני כשלים יסודיים שהורסים כל דגימה:

הטיה - אתם שואלים את האנשים הלא נכונים. מדגם קטן מדי - אתם שואלים מעט מדי.

למה זה נוגע לך: כל פעם שאתם קוראים "סקר מראה ש..." - השאלה הראשונה היא: מי נשאל? ואיך?

לא כל אקראיות נראית אותו דבר

יניב פתח פיצרייה בקריית אונו.

הוא רוצה להבין את העסק שלו. ומגלה שיש לו שלושה סוגים של שאלות - וכל אחת מהן מתנהגת אחרת לגמרי.

שאלה ראשונה: כן או לא?

"כמה לקוחות מזמינים תוספת גבינה?" מתוך 100 לקוחות - 40 אומרים כן. זו שפת ההסתברות הפשוטה ביותר.

שאלה שנייה: כמה פעמים קורה משהו?

"כמה הזמנות נכנסות בשעה?" בממוצע 8 - אבל לפעמים 3, לפעמים 14. אירועים שמגיעים בזרם בלתי סדיר. זו שפת התורים, התקלות, ההגעות.

שאלה שלישית: כמה זמן לוקח?

"כמה זמן ממתין לקוח?" רוב הלקוחות - בין 25 ל-35 דקות. מעטים מקבלים תוך 15. מעטים מחכים 50. פעמון. זה הפילוג הנפוץ ביותר בטבע.

שלוש שאלות. שלוש שפות. כל שפה דורשת כלים אחרים.

למה זה נוגע לך: כשאתם שומעים "ממוצע" - שאלו קודם: האם הנתונים בכלל מתנהגים כמו פעמון? אם לא - הממוצע מטעה.

המצפן והרעש

יניב מסתכל על נתוני השבוע. זמני המתנה: 22, 31, 28, 45, 24, 29, 33 דקות.

הוא מחשב ממוצע: יוצא 30 דקות.

אבל רגע - 45 דקות זה מוזר. בעיה אמיתית? או מקרה חד פעמי?

כאן נכנס מדד שני. לא מה המרכז - אלא כמה הנתונים מפוזרים סביבו.

דוגמה:

שתי פיצריות. שתיהן עם ממוצע המתנה של 30 דקות. אבל אצל יניב רוב הלקוחות מקבלים בין 27 ל-33 דקות. אצל המתחרה יש שמקבלים תוך 10 ויש שממתינים שעה.

ממוצע זהה. חוויה שונה לגמרי.

הממוצע לבד לא מספר את הסיפור. הפיזור סביבו - מספר את השאר. אנחנו קוראים לפיזור הזה: שונות (variance)

למה זה נוגע לך: כשאתם שומעים "הממוצע עלה" - שאלו: מה קרה לקצוות? אולי העשירים התעשרו והעניים התרוששו בזמן שהממוצע נשאר במקום.

שתי הבטחות מתמטיות

המתמטיקה לא נותנת הרבה הבטחות בחינם.

אבל יש שתיים ששווה לדעת.

הבטחה ראשונה: ככל שתדגום יותר תדייק יותר.

יניב דגם 40 הזמנות: קיבל 31 דקות. דגם 200: קיבל 29. דגם 1,000: קיבל 29.3.

ככל שהמדגם גדול יותר - הממוצע מתייצב. מתקרב לאמת. זו לא אינטואיציה - זו הוכחה. השם שלה הוא חוק המספרים הגדולים.

הבטחה שנייה: גם בלי לדעת הרבה - אפשר לדעת משהו.

לא משנה כמה הפילוג של יניב מוזר ולא סימטרי - רוב הנתונים שלו חייבים להימצא קרוב למרכז. זה עיקרון מתמטי שתמיד עובד. כמו שכפץ: לא אלגנטי, אבל אמין.

למה זה נוגע לך: סקר של 1,000 איש אמין יותר מסקר של 50 - תמיד. "מה גודל המדגם?" זו השאלה הראשונה שצריך לשאול.

הפרט בלתי צפוי, הקבוצה צפויה

יניב לא יכול לדעת אם הלקוח הבא יחכה 20 דקות או 45.

הפרט - בלתי צפוי לגמרי.

אבל אם יניב שואל: "מה יהיה ממוצע זמן ההמתנה של 200 הלקוחות הבאים?" - פתאום יש לו תשובה סבירה מאוד.

הקיצוניים מבטלים זה את זה. הקבוצה מתכנסת.

הפרט הוא כאוס. הקבוצה היא חוק.

חברות ביטוח בנויות על זה. אף אחד לא יודע מי ימות השנה. אבל כולם יודעים כמה, ועל הידיעה הזו בונים עסק.

למה זה נוגע לך: כשחברה, ממשלה, או קופת חולים מקבלת החלטות - היא מחליטה על הקבוצה, לא עליך. הסטטיסטיקה היא הכלי שלהם. כדאי שתבינו אותו גם אתם.

הנס שבלב הסטטיסטיקה

זהו הרגע בו הכול מתחבר.

בחזקה ליניב. זמני ההמתנה שלו מפוזרים בצורה מוזרה. לא פעמון נקי. לא סימטרי. סתם ערבוביה.

עכשיו יניב עושה משהו פשוט: הוא לוקח 40 הזמנות אקראיות ומחשב ממוצע. ואז עושה את זה שוב. ושוב. ושוב. מאה פעמים.

מה קורה עם מאה הממוצעים האלה?

הם מתפלגים בצורת פעמון מושלם.

גם אם הנתונים המקוריים לא היו פעמון כלל.

זה משפט הגבול המרכזי. וזה נס.

הוא אומר: העולם יכול להיות מבולגן ככל שירצה - אבל ממוצעים של מדגמים גדולים תמיד יתנהגו יפה. תמיד.

וחזרנו לגלטון: זה בדיוק מה שהוא ראה בכדורי הפלדה שלו. כאוס שנכנס - סדר שיוצא.

למה זה נוגע לך: זה הבסיס של כל מחקר רפואי, כל סקר בחירות, כל בדיקת מוצר. בלי המשפט הזה - אי אפשר ללמוד כלום מדגימה.

להודות בחוסר הוודאות - אבל בדיוק!

יניב מודד 40 הזמנות. הממוצע יוצא 29 דקות.

האם זה אומר שהממוצע האמיתי של כל הפיצרייה הוא 29? לא בדיוק. זה מדגם - לא המציאות המלאה.

אז מה יניב יכול לומר?

"אני בטוח ב-95% שהממוצע האמיתי נמצא בין 27 ל-31 דקות."

זה נשמע פחות נחרץ מ"הממוצע הוא 29". אבל הוא הרבה יותר מדויק.

שתי תובנות חשובות:

ראשית - טווח רחב הוא לא כישלון. הוא מידע. הוא אומר: המדגם קטן מדי.

שנית - ככל שהמדגם גדול יותר, הטווח מתכווץ. הדיוק עולה - זה לא קסם אלא עוד עבודת דגימה.

דוגמה מהחיים: כשאתם קוראים "תרופה מפחיתה סיכון ב-30%" שאלו: מה רווח הטעות? אם כתוב "בין 2% ל-58%" - זה טווח עצום. המחקר היה קטן מדי ולא ניתן להסיק ממנו כמעט כלום.

למה זה נוגע לך: כל מחקר שלא מציג טווח שגיאה מסתיר מידע חיוני. נקודה.

מתי כדאי להאמין למה שאתם שומעים?

יניב קנה תנור חדש. זמן אפייה לפני - ממוצע 30 דקות. אחרי התנור - ממוצע 26 דקות.

האם התנור באמת שינה משהו, או שמדובר במקרה?

השאלה "האם זה אמיתי או מזל?" - היא אחת השאלות החשובות ביותר שאדם יכול לשאול.

נניח שהתנור לא שינה כלום. אם יניב היה מודד 40 הזמנות שוב ושוב - לפעמים היה מקבל 28, לפעמים 32. רק מהמקרה.

השאלה עד כמה סביר לקבל תוצאה של 26 דקות במקרה?

אם הסיכוי הזה נמוך מאוד נוכל לומר שהתנור שינה משהו שקשה להסביר כמזל.

אבל:

"אמיתי" לא אומר "חשוב".

יניב יכול לקבל תוצאה "אמיתית" על הבדל של 30 שניות בלבד. מדגם ענק יכול להפוך כל הבדל זעיר לממצא. השאלה האמיתית היא לא רק "האם זה לא מקרה?" אלא גם "האם זה משנה משהו?"

דוגמה: "מחקר חדש: קפה מפחית סיכון לסרטן!" הממצא אמיתי, אבל לפני שאתם רצים להכין אספרסו, שימו לב: הפחתה של 0.3% לאדם בריא לא משנה כמעט כלום. זו תוצאה חסרת חשיבות.

הסטטיסטיקה עונה על "האם זה אמיתי?" השיפוט שלנו עונה על "האם זה חשוב?"

למה זה נוגע לך: כותרות אוהבות "מחקר חדש מראה". תמיד שאלו: כמה גדול ההבדל בפועל?

המפות שמשקרות

הכלים שלמדנו עובדים בתנאי שמשתמשים בהם ביושר.

שלוש מלכודות שכדאי להכיר מפני שהן קיימות בכל מקום:

קטיף בררני Cherry picking

חברת תרופות מנסה תרופה ב-20 ניסויים. ב-19 - אין השפעה. בניסוי אחד - יש תוצאה. הם מפרסמים רק את הניסוי האחד.

לא שקר טכני. מניפולציה מלאה.

כל פעם שאתם קוראים מחקר עם תוצאות יפות מדי - שאלו: כמה ניסויים לא פורסמו?

הטיית אישור Confirmation bias

יניב משוכנע שהתנור החדש טוב. הוא מסתכל על נתוני השבוע - 26 דקות. "ראיתם? עובד!" הוא לא מסתכל על השבוע הקודם שגם הוא היה 26 דקות - בלי תנור חדש.

כולנו כמו יניב...

הנטייה הטבעית היא להאמין לנתונים שמאשרים את מה שאנחנו כבר חושבים.

ברבור שחור Black swan

כאן נסים טאלב, בספרו רב המכר, נכנס עם אזהרה משמעותית.

הפעמון עובד יפה לתופעות רגילות: גבהי אנשים, זמני המתנה, ציוני מבחנים. עולמות שבהם הקצוות מתונים. גבר גבוה הוא 2.10 - לא 50 מטר.

אבל יש עולמות אחרים לגמרי: שוק ההון, מגפות, מלחמות, רשתות חברתיות. שם אירוע אחד קיצוני משנה הכל. עושר של אדם אחד יכול להיות שווה למיליון אחרים.

בעולמות האלה - הפעמון לא עובד. המודלים לא עובדים. וכל מי שמנסה לחזות אותם בכלים הרגילים - מתאכזב בצורה כואבת.

הסטטיסטיקה היא מפה מצוינת לחיי היומיום. אבל מפה אינה השטח עצמו.

למה זה נוגע לך: כשמישהו אומר "המודל שלנו מראה ש..." - שאלו: האם המודל הזה בנוי לעולם רגיל, או לעולם שבו ברבורים שחורים קיימים?

סיכום: הרישיון לחשוב בצלילות

גלטון שחרר אלפי כדורים לתוך הכאוס וקיבל סדר מפתיע.

יניב דגם 40 פיצות וקיבל החלטה מושכלת.

זה כל הסיפור של הסטטיסטיקה:

לא לחסל את חוסר הוודאות - אלא לנהל אותו ביושר.

הכלים שראינו כאן לא דורשים נוסחאות. הם מעודדים הרגלי חשיבה:

כשאתם קוראים מחקר - שאלו מי נדגם ואיך.

כשאתם שומעים ממוצע - שאלו מה הטווח.

כשאתם רואים "מובהק" - שאלו כמה גדול ההבדל בפועל.

כשמודל מנבא - שאלו אם הוא בנוי לעולם שבו ברבורים שחורים קיימים.

בפעם הבאה שתקראו "מחקר מראה ש..." - עצרו

לא כדי להיות ציניים כדי להיות מדויקים. זה ההבדל בין אדם המגיב לכותרות לבין אדם הקורא את המציאות.