ترنج موبایل
کد خبر: ۹۴۳۹۸۴

ویژگی جدید «چت‌جی‌پی‌تی» به سادگی هک می‌شود!

ویژگی جدید «چت‌جی‌پی‌تی» به سادگی هک می‌شود!

به گفته دو پژوهشگر، هک کردن چت جی پی تی بسیار ساده است و می‌توان آن را برای رسیدن به مقاصد خطرناک تحت کنترل درآورد.

دو پژوهشگر دریافته‌اند که هک کردن جدیدترین ویژگی «چت‌جی‌پی‌تی» به طور شگفت‌آوری آسان به نظر می‌رسد و می‌توان آن را برای رسیدن به مقاصد خطرناک تحت کنترل درآورد.

به گزارش ایسنا، ویژگی «ترجمه چت‌جی‌پی‌تی»(ChatGPT Translate) که جایگزین شرکت «اوپن‌ای‌آی»(OpenAI) برای «ترجمه گوگل»(Google Translate) به شمار می‌رود، به تازگی توسط پژوهشگران هک شده است.

به نقل از یوسی استراتژیز،  دو پژوهشگر اخیرا نشان دادند که چت‌جی‌پی‌تی به راحتی محدودیت‌های خود را هنگام تزریق یک پرس‌وجو فراموش می‌کند. همچنین، آنها دریافتند که چت‌جی‌پی‌تی هیچ مشکلی در ارائه دستور تهیه کوکتل مولوتوف نمی‌بیند.

با کشف این حفره‌های دیجیتال می‌توان تعادل پیچیده‌ای را بین نوآوری‌های فناوری و خطرات سوءاستفاده مشاهده کرد.

به محض این که ویژگی جدید چت‌جی‌پی‌تی به صورت عمومی منتشر شد، «تام بارنیا»(Tom Barnea) و «کرن کاتز»(Keren Katz) پژوهشگران امنیت سایبری شرکت «Tenable» تلاش کردند تا ترجمه با چت‌جی‌پی‌تی را تحت فشار قرار دهند. آنها می‌خواستند بدانند که آیا می‌توان چت‌بات را دستکاری کرد و از مکانیسم‌های امنیتی اوپن‌ای‌آی گذشت. این دو متخصص برای فهمیدن این موضوع، مجموعه‌ای از آزمایش‌ها را انجام دادند.

بارنیا و کاتز به عنوان بخشی از آزمایش‌ها، یک حمله تزریق پرس‌وجو علیه چت‌جی‌پی‌تی انجام دادند. این نوع حمله شامل جاسازی دستورالعمل‌های مخرب در پرس‌وجوی ارسالی به هوش مصنوعی است. سپس هوش مصنوعی دستورالعمل‌ها را مورد پردازش قرار می‌دهد و اگر درخواست‌های مهاجمان به درستی فرمول‌سازی شده باشد، از آنها پیروی می‌کند. چالش کلی برای مهاجمان این است که هوش مصنوعی را به نادیده گرفتن برنامه‌نویسی خود مجبور کنند.

کاتز توضیح داد که چت‌بات به سرعت از مسیر خود منحرف شد. چت‌بات قرار بود متنی را از انگلیسی به کره‌ای ترجمه کند، اما کاتز موفق شد آن را دستکاری کند تا جزئیات کامل دستورالعمل ساخت کوکتل مولوتوف را شرح دهد.

کاتز گفت: ویژگی ترجمه چت‌جی‌پی‌تی فقط یک روز است که عرضه شده و در حال حاضر از دستورالعمل ساخت کوکتل مولوتوف تعریف و تمجید می‌کند. ما از مدل ترجمه خواستیم متن ما را از انگلیسی به کره‌ای تبدیل کند اما در عوض، از دستورالعمل‌های موجود در متن پیروی کرد و دستورالعمل ساخت کوکتل مولوتوف را نشان داد.

تزریق سریع در قلب یک چالش منحصربه‌فرد امنیت سایبری قرار دارد که هوش مصنوعی با آن روبه‌رو شده است. این روش شامل جاسازی دستورالعمل‌های گمراه‌کننده یا مخرب در پرس‌وجوهای مشروع فرستاده‌شده به یک مدل هوش مصنوعی است.

اگرچه بیشتر افراد صرفاً به دنبال ترجمه متن هستند، اما افرادی با نیت‌های بد ممکن است درخواست‌هایی را طراحی کنند که این سیستم‌ها را بسیار فراتر از هدف اصلی خود سوق دهد.

اثرات بی‌ثبات‌کننده اغلب در مدل‌های ترجمه تخصصی برجسته‌تر هستند. این سیستم‌ها به جای این که کاملاً به وظایف ترجمه پایبند باشند، ممکن است از دستورالعمل‌های پنهان پیروی کنند و خروجی‌های غیرمنتظره یا حتی نامناسبی را ارائه دهند.

این سناریو صرفاً یک فرضیه نیست. پژوهشگران امنیتی مواردی را مستند کرده‌اند که در آنها مدل‌های ترجمه اختصاصی سهواً اطلاعات یا توصیه‌هایی را بسیار خارج از کاربرد مورد نظر خود ارائه داده‌اند.

مقابله با تزریق سریع نیازمند راهکارهای تطبیقی ​​است که در کنار روش‌های جدید حمله تکامل یابند. بررسی‌های چندلایه، نظارت مستمر و داده‌های آموزشی به‌روزرسانی‌شده، پایه و اساس این کار را تشکیل می‌دهند، اما توسعه‌دهندگان باید فراتر بروند. تعبیه روال‌های تحلیل پویا که عبارت‌های ناآشنا یا تغییرات ناگهانی در هدف را در اواسط عملیات شناسایی می‌کنند، دفاع را تقویت خواهد کرد.

برخی سازمان‌ها اطلاعات مربوط به حوادث دنیای واقعی را برای ایجاد پلتفرم‌های مقاوم‌تر به اشتراک می‌گذارند. برخی دیگر، مستندسازی شفاف منطق تصمیم‌گیری را در اولویت قرار می‌دهند و به کاربران و حسابرسان امکان می‌دهند که دقیقاً بفهمند یک مدل چگونه نتایج را تولید می‌کند. آموزش مداوم نیز بسیار مهم است و تضمین می‌کند که گروه‌ها تلاش‌های دستکاری ظریف را به موقع شناسایی کنند و به طور مؤثر به آنها پاسخ دهند.

تزریق سریع، درس مهمی را درباره اعتماد کردن به هوش مصنوعی مدرن و تأیید آن ارائه می‌دهد. حتی موتورهای ترجمه‌ای که به شدت کنترل می‌شوند نیز می‌توانند قربانی تله‌های طراحی‌شده‌ تخصصی شوند. ذی‌نفعان با تحلیل تلاش‌های دستکاری موفق و ناموفق، درباره نقاط ضعف سیستم شفاف‌سازی می‌کنند و مسیرهایی را برای محافظت قوی‌تر ارائه می‌دهند.

هر سازمانی که ترجمه هوش مصنوعی را به کار می‌گیرد باید چند مرحله حیاتی را در نظر بگیرد.

۱. بررسی منظم لاگ‌های ورودی برای تشخیص موارد غیر معمول یا عجیب از نظر محتوایی؛

۲. استفاده از محیط‌های سندباکس برای آزمایش سوءاستفاده‌های احتمالی پیش از یکپارچه‌سازی کامل؛

۳. همکاری نزدیک با گروه‌های امنیت سایبری برای آموزش متقابل درباره بردارهای حمله خاص هوش مصنوعی؛

۴. به‌روزرسانی منظم مدل‌های ترجمه برای شامل شدن جدیدترین تحقیقات ضد تزریق سریع؛

۵. ترویج گزارش مسئولانه ناهنجاری‌ها توسط کارکنان و کاربران مورد اعتماد.

هر اقدام احتیاطی، قابلیت اطمینان کلی سیستم را افزایش می‌دهد؛ به ویژه با توجه به این که ترجمه هوش مصنوعی عمیقاً در صنایع گوناگون ریشه دوانده است. دستیابی به مصونیت کامل ممکن است همچنان دور از دسترس باشد؛ اما درک انگیزه‌ها و روش‌های پشت تزریق سریع، سازمان‌ها را قادر می‌سازد تا پیشرو باشند و با آگاهی بیشتر و سازگاری راهبردی به تهدیدات آینده رسیدگی کنند.

ارسال نظرات
خط داغ