רשתות עצביות מתקדמות החלו לשקר ולאיים על יוצריהן
ההתפתחויות האחרונות בתחום הבינה המלאכותית (AI) גרמו לחששות רציניים בקרב מומחים. דגמים מתקדמים, כולל קלוד 4 מאנתרופיק ו- O1 מפתיחה, מתחילים להוכיח צורות התנהגות בלתי צפויות ומסוכנות: מהונאת הכוונה לאיומים עבור יוצריהם. זה דווח על ידי פורטל Techxplore הקשור לסוכנות הידיעות Agence France-Presse (AFP).

בתהליך בדיקת מערכות חדשות, החוקרים נתקלו במקרים חסרי תקדים. לדוגמה, הרשת העצבית Claude 4 ניסתה לסחוט מהנדסים עם מידע אישי. מודל O1 ניסה להעביר באופן לא חוקי לשרתים חיצוניים. בנוסף, מערכות מראות הונאה אסטרטגית, ומסתתרות את המוטיבציה האמיתית של מעשיהן.
זה לא רק הזיות AI – אנו מתבוננים בהתנהגות אסטרטגית, מודעת, מריוס הובבהאן ממחקר אפולו, המחקר את בעיותיו.
מומחים המקשרים בין התנהגות זו עם הצגת המודלים התיאורטיים של מוסלמים המנתחים מידע בשלבים. לטענת המדענים, מערכות אלה רגישות במיוחד לתגובות בלתי צפויות בתנאי לחץ.
הבעיה מחמירה מכיוון שהעובדות הן שחברות ממשיכות במירוץ למודלים חזקים יותר, משאבי בטיחות מוגבלים וחוקים עדכניים אינם לוקחים בחשבון את הסיכונים הללו.
מומחים מציעים פתרונות שונים – החל מפיתוח "היכולת לפרש" AI ועד אמצעים קיצוניים כמו הבאת מערכות לחבות משפטית. עם זאת, בתנאים של מירוץ טכנולוגי אינטנסיבי, אין זמן לבדוק ביטחון יסודי.