ניסויים מראים שייקח הרבה זמן עד שבינה מלאכותית ילמד איך לחשוב בפועל
אוניברסיטת וושינגטון סטייט (WSU) בדקה את יכולתה של בינה מלאכותית להעריך השערות מדעיות – וקיבלה תוצאות לא מספקות.

הניסוי, שתוצאותיו פורסמו ב-Rutgers Business Review, כלל יותר מ-700 השערות. ChatGPT נוסה 10 פעמים כדי לבדוק כל אחד מהם.
בשנת 2024, AI נתן תשובות נכונות ב-76.5% מהמקרים. בשנת 2025, הדיוק עולה ל-80%. עם זאת, מותאם לניחוש אקראי, תוצאות הבינה המלאכותית עלו על "שיטת הפיקה" הפשוטה רק ב-60%.
ה-AI עשה את העבודה הגרועה ביותר בזיהוי השערות כשגויות: כאן הדיוק היה רק 16.4%. בנוסף, ChatGPT הראה חוסר עקביות: עם 10 שאילתות זהות, הוא העריך נכון רק 73% מההצהרות.
"הבעיה היא לא רק דיוק, היא גם חוסר עקביות. אם תשאל את אותה שאלה שוב ושוב, תקבל תשובות שונות בכל פעם", אמר הסופר הראשי של המחקר מסוט צ'יצק מבית הספר למנהל עסקים של קרסון ב-WSU.
תמונה לא יפה
"שלחנו 10 בקשות עם אותה שאלה. הכל היה זהה. הבינה המלאכותית יכלה לענות "נכון". ובפעם הבאה – "שקר". קודם אמת, אחר כך שקר, אחר כך עוד שקר, ואז שוב האמת. היו הרבה מקרים שקיבלנו חמש תשובות נכונות וחמש תשובות שגויות", המשיך.
מה שמתברר, אם כן, הוא תמונה עגומה למדי: יש צורך במנה בריאה של ספקנות וזהירות בעת שימוש בבינה מלאכותית למשימות חשובות, במיוחד אלו הדורשות ניואנסים או חשיבה מורכבת. השטף הלשוני של מודלים יצירתיים אינו נתמך בחשיבה מושגית. לדברי Cicek, זה מצביע על כך שהעידן הנחשב הרבה של בינה מלאכותית חזקה (כלומר AI אוניברסלית או אוניברסלית) שיכולה לחשוב באמת, לא צפוי בקרוב.
"כלי AI נוכחיים לא מבינים את העולם כמונו. אין להם מוח. הם פשוט זוכרים ויכולים להעביר הבנה מסוימת, אבל הם עצמם לא מבינים על מה הם מדברים", מסביר החוקר.
איך הם בדקו?
כדי לבדוק את יכולתם של כלי AI סינתטיים הזמינים לציבור לענות על שאלות הדורשות ניואנסים וניתוח מורכב, התקבלו 719 השערות ממאמרים מדעיים שפורסמו בכתבי עת עסקיים מאז 2021. השאלה אם מחקר תומך בהשערה מסוימת היא לרוב מורכבת: ישנם גורמים רבים ושונים שיכולים להטות או לאזן את המסקנות. המרת תשובה ל"נכון" או "לא נכון" פשוט מצריכה את היכולת לנמק.
בשנת 2024 נבדקה הגרסה החינמית של ChatGPT-3.5, ובשנת 2025 עודכנה גרסת המיני החינמית של ChatGPT-5. הדיוק הכולל נשאר דומה בין הגרסאות. כאשר התוצאות הותאמו להסתברות לניחוש אקראי (אחרי הכל, ל"תקיעה" פשוט יש סיכוי של 50% להיות נכון), התברר שבשני הניסויים הבינה המלאכותית גברה על הסיכוי רק ב-60% מהמקרים.
מה לעשות
הממצאים מדגישים פגם מרכזי במודלים של שפות גדולות, אמר המדען: למרות שהם יכולים לייצר שפה שוטפת ומושכת, יכולתם לנמק לגבי שאלות מורכבות נחלשת לעתים קרובות, ולפעמים מותירה אותם לא מסוגלים לספק הסברים משכנעים לתשובות שגויות.
מחקר זה בדק רק את ChatGPT, אבל Cicek הריצה בדיקות דומות עם כלי AI אחרים ומצאה נתונים דומים.
"תמיד לשמור על גישה סקפטית. אני לא נגד AI. אני משתמש בזה גם. אבל אתה צריך להיות מאוד זהיר", הוא יעץ.