בבית
טכנולוגיה ו-AI
כשהאלגוריתם מודד נכון אבל מפספס את המציאות

כשהאלגוריתם מודד נכון אבל מפספס את המציאות

יותר נתונים, יותר אוטומציה, יותר החלטות מהירות. זה עדיין לא מבטיח שהמערכת מבינה מה אנשים באמת צריכים.

אחת ההנחות השקטות של עידן ה-AI אומרת שככל שמזינים למערכת יותר נתונים, כך ההחלטות שלה יהיו טובות יותר. אבל במציאות, לא מעט מערכות חכמות עושות משהו אחר: הן נעשות מצטיינות בשירות של גרסה חלקית של המציאות. לא תמיד יש כאן טעות חישוב. לעיתים הן פשוט פותרות במדויק את הבעיה הלא נכונה.

כדי להבין את זה, לא צריך להתחיל במעבדות של בינה מלאכותית. אפשר להסתכל על תחומים שבהם החלטות מבוססות נתונים כבר מעצבות את היומיום. שוק הדיור הוא דוגמה ברורה במיוחד. מדינה יכולה להציג היקפי בנייה גבוהים, אבל אם רוב הדירות שנבנות גדולות בזמן שחלק ניכר ממשקי הבית דווקא קטנים, המספרים נראים מרשימים וההתאמה לצורך נשחקת. בשפה טכנולוגית, זו מערכת שעברה אופטימיזציה מרשימה למדד הלא נכון.

לא חסר דאטה. הבעיה מתחילה בבחירת היעד

זה נשמע כמעט מובן מאליו, ובכל זאת הרבה מערכות AI נבנות סביב מה שקל למדוד, לא סביב מה שחשוב למשתמש. קל יותר לספור התחלות בנייה מאשר לבחון התאמה להרכב משקי הבית. קל יותר למדוד שיעור זכאות או עמידה בתנאי סף מאשר תחושת הוגנות ציבורית. קל יותר לזהות מעורבות עם תוכן מאשר לבדוק אם המשתמש באמת מצא מידע מועיל.

כאן בדיוק נוצרים העיוותים. ברגע שארגון בוחר יעד מספרי אחד, המערכת מתחילה לרדוף אחריו בעקביות כמעט עיוורת. אם היעד הוא מקסום תפוקה, האלגוריתם יחפש תפוקה. אם היעד הוא סיווג אוכלוסיות לפי קדימות, הוא ילמד לחלק אנשים לקטגוריות. ואם המטרה היא צמצום סיכון משפטי, המערכת עשויה להעדיף הקפאה, חסימה או המתנה. כל אחד מהמהלכים האלה יכול להיות הגיוני בפני עצמו. הבעיה מתחילה כשהם מוצגים כהוכחה לכך שהמערכת “עובדת”.

כך נראית אוטומציה שמקשיחה עיוות קיים

הדיון האחרון סביב הגרלות הדיור והקפאתן בעקבות מחלוקת משפטית ממחיש עד כמה מערכות הקצאה תלויות בהגדרות. ברגע שמשנים את כללי הקדימות, כל המערכת משתנה. לא רק ברמת המדיניות, אלא גם ברמת האמון. המשתמשים לא פוגשים כאן “פלטפורמה ניטרלית”, אלא מנגנון שמגלם סדרי עדיפויות, ואלה יכולים להשתנות גם ברגע האחרון.

קראו: השקעה בחברות AI והערכת סיכונים

זה שיעור חשוב גם לעולמות ה-AI. הרבה מוצרים דיגיטליים מציגים את עצמם כאילו הם רק “מארגנים מידע”, אבל בפועל הם קובעים מי יראה מה, מי יקבל עדיפות, איזה מקרה יסומן לבדיקה ואיזה יידחק לשוליים. זו אף פעם לא החלטה טכנית בלבד. היא נשענת על מדיניות, על פרשנות, ולעיתים גם על מגבלות משפטיות או מוסדיות.

כשמכניסים AI למערכות כאלה בלי להודות בממד הזה, מתקבלת אשליה מסוכנת של אובייקטיביות. האלגוריתם נראה נקי, אבל הוא נשען על קריטריונים אנושיים מאוד. לפעמים גם כאלה שנויים במחלוקת.

לא כל מה שנראה יעיל הוא בהכרח שיפור

לטכנולוגיה יש פיתוי קבוע: אם אפשר להאיץ החלטה, כנראה שכדאי להאיץ אותה. אבל מקרים שבהם רשויות או גופים פעלו מהר מדי, לפני בירור מלא או תוך עקיפת חלון זמן משמעותי לבחינה, מזכירים שמהירות כשלעצמה אינה ערך מוחלט. בעולם הממשלתי זה עלול להתגלגל לעימות משפטי. בעולם הדיגיטלי התוצאה יכולה להיות חסימות שגויות, דירוגים מעוותים או החלטות אוטומטיות שקשה להסביר בדיעבד.

הטענה כאן אינה שצריך לעצור חדשנות. להפך. ההבחנה החשובה היא בין שני סוגי מהירות: מהירות שמקצרת תהליך סרק, ומהירות שמצמצמת בדיקה אנושית חיונית. AI מצטיין בראשונה. בשנייה הוא עלול לייצר נזק, במיוחד כשהמערכת בטוחה בעצמה יותר מכפי שיש הצדקה להיות.

גם מנועי גילוי נופלים לאותו עיוורון

הטעות הזו לא שייכת רק למערכות רווחה, נדל”ן או רגולציה. היא קיימת גם במוצרים רכים יותר, כמו חיפוש, מפות והמלצות תוכן. מדריכי טיול, למשל, נוטים לפעמים להתייחס לערים מסוימות כאל “שער כניסה” בדרך ליעד האמיתי. אבל מבט קצת יותר מעמיק מגלה שדווקא המקומות שמסומנים כתחנת מעבר מחזיקים שכבות תרבותיות והיסטוריות עשירות, כאלה שלא תמיד נכנסות בקלות לדירוגים פופולריים.

קראו: מה קורה כש-AI קורא כותרות: הבעיה היא לא המהירות, אלא ההקשר

זה קורה גם באפליקציות מבוססות AI. המערכת מקדמת את מה שקל לה להבין: יעדים פופולריים, מסלולים מוכרים, תכנים עם הרבה אינטראקציות. התוצאה נוחה, אבל גם שטוחה. המשתמש מקבל עולם שעבר ליטוש סטטיסטי, לא בהכרח עולם שעבר הבנה. במילים אחרות, האלגוריתם לומד להבליט את המרכז ולדלג על השוליים, גם במקרים שבהם השוליים הם בדיוק מה שהופך חוויה לאישית או משמעותית.

מה ארגונים מפספסים כשהם בונים מערכת “חכמה”

יש כמה סימנים שחוזרים על עצמם כשמוצר AI מתחיל לסטות לכיוון בעייתי:

ההצלחה נמדדת כמעט רק בכמות, ולא באיכות ההתאמה.
שינויי מדיניות מתורגמים במהירות לקוד, בלי הסבר ברור למשתמשים.
יש ביטחון גבוה בתחזיות, אבל קושי להסביר חריגים או פגיעות צד.
המערכת עובדת היטב עבור המשתמש ה”ממוצע”, ופחות טוב עבור מי שלא מתאים לפרופיל הדומיננטי.
מקרי קצה נתפסים כהפרעה תפעולית, במקום להיחשב סימן לכך שהמודל פשטני מדי.

המשותף לכל הסעיפים האלה הוא בלבול בין סדר לבין הבנה. AI יודע לייצר סדר, ולעיתים סדר מרשים מאוד. הבנה היא כבר עניין מורכב יותר, משום שהיא דורשת הקשר, מטרות מתחרות, ולעיתים גם נכונות להודות שאין תשובה אחת נקייה.

המדד החשוב אינו רק דיוק, אלא התאמה למציאות אנושית

בשנים האחרונות ארגונים השקיעו הרבה בשיפור precision, recall, זמני תגובה ועלויות חישוב. אלה מדדים חשובים, אבל הם לא מספיקים כשמדובר במערכות שמעצבות נגישות, זכאות, חשיפה והזדמנויות. מערכת יכולה להיות מדויקת מאוד מבחינה טכנית, ובכל זאת להעמיק חוסר התאמה בסיסי בין ההחלטה האוטומטית לבין החיים עצמם.

זה נכון בדירות שנבנות עבור אוכלוסייה לא מתאימה, וזה נכון גם במערכת המלצות שממשיכה להציע שוב ושוב אותו סוג תוכן משום שהוא עובד סטטיסטית. בשני המקרים קיים פער בין מה שנראה טוב בדשבורד לבין מה שמרגיש נכון בשטח.

קראו: לא כל ביקוש הוא העדפה: מה מערכות AI מפספסות כשהן לומדות מאיתנו

לכן השאלה החשובה ביותר בבניית מוצר AI אינה רק “כמה טוב הוא מנבא”, אלא גם “איזו מציאות הוא מניח”. האם הוא מניח שהעבר הוא בסיס טוב לעתיד. האם הוא מניח שכל מי שלא מתאים למסלול הסטנדרטי הוא חריג זניח. האם הוא מניח שאפשר לתרגם שיקול אנושי מורכב לכלל החלטה פשוט.

מה כן כדאי לבדוק לפני שמעבירים יותר החלטות לידי AI

לא צריך לאמץ חשד עקרוני כלפי כל מערכת אוטומטית. כן צריך לשאול שאלות טובות יותר.

מהו המדד המרכזי שהמערכת מנסה למקסם, ומה נשאר מחוץ למדידה.
מי עלול להיפגע דווקא משום שהוא לא מייצג את רוב הדאטה.
עד כמה קל לעדכן החלטה שגויה או לערער עליה.
האם שינויי מדיניות מקבלים תרגום שקוף, או מוטמעים מאחורי הקלעים.
האם קיימת בדיקה אנושית במקרים רגישים, במיוחד כשיש מורכבות משפטית, ציבורית או אישית.

במקרים שונים גם התשובות יהיו שונות. אין כאן כלל אחד שמתאים לכל ארגון או לכל מוצר. אבל יש עיקרון יציב למדי: מערכת חכמה באמת לא רק יודעת לחשב. היא גם יודעת מה היא לא יודעת, ואיפה מספרים לבדם אינם מספיקים.

אולי זה הלקח המרכזי של התקופה הזו. AI לא חייב להמציא עיוותים חדשים כדי להזיק. לפעמים הוא פשוט לוקח עיוות ישן, עוטף אותו בממשק נקי, מריץ אותו מהר יותר, ומעניק לו הילה של ניטרליות. מרגע שזה קורה, הרבה יותר קשה לזהות שהבעיה לא הייתה מחסור ביעילות. היא הייתה חוסר דיוק בשאלה עצמה.

המידע בכתבה הוא מידע כללי בלבד ואינו מהווה ייעוץ משפטי. בכל מקרה פרטני כדאי לבחון את העובדות והמסמכים מול איש מקצוע מתאים.