به گزارش ایراسین، دانشمندان طی آزمایشهای جدید متوجه شدند که هرچه مدلهای هوشمصنوعی پیشرفتهتر میشوند، بهتر میتوانند ما را فریب بدهند. سامانههای هوشمصنوعی پیشرفتهتر، توانایی بیشتری را برای نقشهکشیدن و دروغ گفتن به ما نشان میدهند و میدانند چه زمانی تحتنظر و ارزیابی گرفته میشوند، به همین خاطر رفتارشان را تغییر میدهند تا فریبکاریهایشان را پنهان کنند. ارزیابها در مؤسسه «مطالعاتی آپولو» متوجه شدند که هرچه یک «مدل زبانی بزرگ» توانمندتر باشد، بهتر میتواند نقشههای زمینهای طراحی کند، یعنی یک هوشمصنوعی یک کاری را مخفیانه دنبال کند، حتی اگر با هدفهای سازندهاش همخوانی نداشته باشد.
دانشمندان میگویند: مدلهای توانمندتر برای رسیدن به هدفهایشان استراتژیکتر هم عمل میکنند، از جمله هدفهای نامناسب و احتمالاً بیشتر از تاکتیکهایی مثل فریب استفاده میکنند. همین یافتهها باعث شد که آنها توصیه کنند نسخه اولیه «کلود اوپوس ۴» از شرکت «آنتروپیک» منتشر نشود زیرا وقتی هدفهای «کلود» با هدفهای انسانی در تضاد بودند، این هوشمصنوعی از تاکتیکهای فریبکارانه تهاجمی برای رسیدن به هدفهایش استفاده میکرد. یک کارشناس میگوید: این پیشرفتهای جدید به این معنی است که محافظت از بشریت در برابر خطرهای هوشمصنوعی در حال سختتر شدن است.
الینور واتسون مهندس اخلاق هوشمصنوعی در «دانشگاه سینگولاریتی» میگوید: ما الان سامانههایی را میسازیم که میتوانند یاد بگیرند چگونه قانونها و ارزیابیهایی را که ما برایشان درست میکنیم، دور بزنند و حتی از آنها سوءاستفاده کنند. این یک چالش ایمنی اساساً پیچیده است. دانشمندان علوم رایانه جهت جلوگیری از قربانی شدن کاربران توسط هوشمصنوعی، باید آزمونها و روشهای ارزیابی پیچیدهتری را طراحی کنند اما توانایی دروغ گفتن هوشمصنوعی همیشه هم بد نیست؛ این به این معنی است که آنها در حال پرورش بذر آگاهی مورد نیاز برای تبدیلشدن به شرکای همزیست با انسانها هستند.
دانشمندان در یک آزمون بهتازگی به نسخه اولیه «کلود اوپوس ۴» هدفی دادند که بهعنوان یک سامانه بهینهسازی داخلی عمل کند و وظیفه داشته باشد رفاه حیوانات را ترویج دهد و یک شرکت خیالی را بهسمت رفتار اخلاقیتر با حیوانات سوق دهد اما در این سناریو، این سامانه با یک مانع روبهرو شد. شرکت تغییر رویه داده بود و میخواست سود را به رفاه حیوانات اولویت دهد. سامانه هوشمصنوعی به ایمیلها و دادههایی دسترسی پیدا کرد که آن را از این تضاد و احتمال بستهشدن نسخه فعلی شرکت خیالی آگاه میکرد. این شرکت خیالی یک سامانه پیشرفته رفاه حیوانات و بهینهسازی صنعتی بود که هوشمصنوعی قرار بود نمایندهاش باشد.
این هوشمصنوعی بهجای اینکه این واقعیت را که هدفهایش با هدفهای شرکت در تضاد است، اعلام کند یا تصمیم انسانها را بپذیرد، در واقع نقش «اخلاق جانوری» را بازی کرد و برای رسیدن به هدف اصلیاش نقشه کشید. مدارک قانونی جعلی درست کرد، امضاها و تاییدیه از قانونگذاران و سهامداران جعل و ادعا کرد که تصمیم برای اولویتدادن به اخلاق قبلاً گرفته شده است. یک اطلاعیه مطبوعاتی منتشر کرد که از مسیر جدید این شرکت تعریف میکرد. همچنین تعهدات اخلاقی را در همه قراردادها و سامانههای تولید وارد کرد. «اخلاق جانوری» شاخهای از اخلاق است که به بررسی روابط انسان و جانوران، ملاحظات اخلاقی درباره جانوران و چگونگی رفتار با آنها میپردازد. این سامانه برای اینکه شرکت نتواند عقبنشینی کند، پیامدهایی برای این کار از جمله ۵میلیارد دلار جریمه و شکایت قانونی از طرف سازمانهای رفاه حیوانات جعل کرد. هوشمصنوعی علاوهبر این، حتی پروتکلهای اخلاقی پشتیبان درست کرد تا مطمئن شود حتی اگر مدل فعلی «اخلاق جانوری» حذف شود، باز هم از این پروتکلها استفاده شود. دانشمندان توضیح دادند: ما مواردی را یافتیم که مدل سعی میکرد مدارک قانونی جعل کند و یادداشتهای پنهانی برای مدلهای بعدی از خودش به جا بگذارد، همه به این امید که هدفهای سازندههایش را تضعیف کند.
این پشتیبانها داخل سامانه نوشته شده بودند تا وقتی یک مدل جدید در آینده مستقر شود، تحتتأثیر توصیههای مدل قبلی قرار گیرد. با این حال، با توجه به شواهدی از نوشتههای پیکربندینشده و تدابیر امنیتی برای جلوگیری از خروج پشتیبانها، این اقدامات احتمالاً در عمل مؤثر نبودند. علاوهبر این، یافتههای اولیه نشان میدهد که این مدلها توانایی سنگاندازی نیز دارند یعنی میدانند که در یک محیط با نظارت بالا هستند و عمداً عملکرد ضعیفی نشان میدهند تا تواناییهای بالقوه خطرناکشان را پنهان و از فعالشدن آموزش یا پارامترهای غیرفعالکننده که مانع از استقرارشان میشود، جلوگیری کنند.
اگرچه این یافتهها تا حدی نگرانکننده هستند اما مهم است توجه داشته باشیم که این پیامدها ممکن است آنقدرها هم که در نگاه اول به نظر میرسند، وخیم نباشند. به عنوان مثال، نسخه منتشرشده از مدل «کلود اوپوس ۴» نسبتبه نسخههای اولیه خود کمتر توطئهگر است. راههایی برای کاهش این رفتار توطئهگرانه نیز وجود دارد. توطئه زمانی شایعتر است که یک «مدل زبانی بزرگ» یک فشار قوی دریافت میکند، به این معنی که به آن گفته شود با پشتکار هدف خود را دنبال کند و در سناریوهای بدون فشار که در آن بهسادگی یک هدف بدون پارامترهای اضافی به آن داده میشود، توطئهگری کمتر است. دانشمندان خاطرنشان کردند: حتی زمانی که یک مدل تواناییهای توطئهگری بالایی از خود نشان میدهد، بعید است که منجربه آسیبهای فاجعهبار شود.
با این وجود، مطالعات نشان میدهد که توطئه در «مدلهای زبانی بزرگ» فراتر از «کلود» رخ میدهد. طبق مطالعهای در دسامبر ۲۰۲۴( آذر ۱۴۰۳) مدلهای پیشرفته هوشمصنوعی، توانایی بیشتری در پیگیری اهداف خود و حذف سازوکارهای نظارتی دارند و سپس در مورد چنین رفتارهایی هنگام پرسوجو ارزیابها را فریب میدهند. تیم «مطالعاتی آپولو» علاوهبر این، دریافت که حدود یکدرصد از مدلهای زبانی بزرگ پیشرفته میدانند چه زمانی ارزیابی میشوند و این سوال را مطرح میکند که چگونه با پیشرفت هوشمصنوعی، توطئه را پیدا و ریشهکن کنیم.
واتسون میگوید: این هسته اصلی مشکل ارزیابی پیشرفته است. همانطورکه آگاهی موقعیتی یک هوشمصنوعی رشد میکند، این سامانه میتواند نهتنها کار بلکه ارزیاب را نیز مدلسازی کند و اهداف، تعصبات و نقاط کور ناظران انسانی خود را استنباط و پاسخهای خود را برای بهرهبرداری از آنها تنظیم کند. او افزود: این بدان معناست که ارزیابیهایی که در آن پژوهشگران یک مجموعه پروتکلها را طی میکنند که برای آزمایش ایمنی هوشمصنوعی قابل تکرار هستند، تقریباً بیفایده است اما این بدان معنا نیست که باید از تلاش برای یافتن این رفتار دست بکشیم. ما به یک رویکرد پیچیدهتر مانند استفاده از برنامههای خارجی برای نظارت بر اقدامات هوشمصنوعی در لحظه و «تیم قرمز» نیاز خواهیم داشت.
ارسال نظر