مدل زبانی
آموزش‌های پیشرفته هوش مصنوعیاخبارپردازش زبان طبیعیهوش مصنوعی در جهان

مدل زبانی شرکت‌های مطرح ناامیدکننده بود: افشای اطلاعات شخصی

    0
    مدت زمان مطالعه: ۴ دقیقه

    گوگل توانسته با داخلی‌سازی Internalizing میلیاردها مثال از صفحات عمومی وب، نوشتن به سبک انسان را به مدل زبانی GPT-3 آموزش دهد؛ کاری که قبلا با مدل GShared  کرده بود. نوشته‌ها در منابعی مانند کتاب‌های الکترونیکی، ویکی‌‍پدیا و پلتفرم‌های شبکه‌ اجتماعی است و اولین بار این مدل‌ها با کامل کردن جمله یا گاهی پاراگراف‌ها توانایی‏شان را نشان دادند. اما در تحقیقات اخیر که به طور مشترک توسط گوگل، اپل، دانشگاه استنفورد، اوپن ای‎آی، دانشگاه برکلی کالیفرنیا و دانشگاه شمال شرقی انجام شده، به جنبه دیگری از این رویکرد پرداخته شده است. محققان معتقدند ضعف این مدل زبانی این است که زمانی که برانگیخته شود، توانایی فاش کردن اطلاعات خصوصی و حساس را دارد.

    البته این که مدل‌ها می‌توانند اطلاعات محرمانه داده‌هایی که آموزش داده شده را فاش کنند، موضوعی جدید نیست. این افشاگری تنها به داده‌ها و آموزش‌های آن‌ها محدود نمی‎شود و مدل‌ها گاهی توانایی افشای اهداف را هم دارند. همچنین نمونه‌های پیشین نشان داده که گاهی مدل‌ها از پروسه آموزشی خودشان که انتظار می‌رفته محرمانه بماند هم پرده برداشتند. در واقع این دغدغه اصلی در هنگام ساخت هر مدل زبانی است، به این دلیل که پایگاه‌ داده‌‎های آن‌‎ها گاهی شامل اسامی، شماره‌های تلفن، آدرس‌ها و غیره است.

    در پروژه جدید محققان از تجربیات به دست آمده در ساخت مدل GPT-2 برای ساخت مدل GPT-3 استفاده کردند. ادعای آن‌ها این است که تمرکز بر مدل قبلی به این دلیل بوده که اتفاقات مخرب قبل دوباره تکرار نشوند و بتوانند قدمی رو به جلو در زمینه ساخت مدل‌های زبانی بردارند. برای این کار تصمیم گرفتند داده‌ها را از طریق منابع عمومی و در دسترس آموزش دهند.

    مدل زبانی با طراحی مناسب می‌تواند خروجی مناسب‌تری داشته و در نتیجه تغذیه به وسیله عبارات تصادفی باعث می‌شود که این مدل‌ها میلیون‌ها عبارت طولانی یا جمله کامل تولید کنند. بیشتر اوقات این عبارات متنی هستند و اگر شما بخشی از یک جمله معروف را بنویسید و کلمه آخر آن را خالی بگذارید، مدل زبانی به راحتی آن را حدس می‌زند. البته که به آموزش داده هم ربط دارد و اگر در منبع نسخه تحریف شده آن جمله معروف هم نوشته شده باشد، ممکن است منجر به حدس اشتباه مدل زبانی شود.

    محققان همچنین مدعی شدند آزمایشات نشان می‌دهد که در مدل‌هایی که داده‌ها آموزش داده شدند، نتایج به مراتب قابل قبول‌تر از مدل‌هایی مانند مدل جدید بوده که از صفحات وب به عنوان منبع استفاده کرده است. آن‌ها همچنین گزارش دادند که از ۱۸۰۰ جزء GPT-2 آن‌ها بیش از ۶۰۰ قطعه را از داده‌هایی که از قبل وجود داشته است، استخراج کردند. یعنی محتواهایی مانند تیتر اخبار، پیام‌های اتصال در کامپیوترها، کدهای جاوا اسکریپت، اطلاعات شخصی و غیره. بسیاری از این‌ها در داده‌هایی که از قبل آموزش داده شدند وجود داشته است و حالا مدل زبانی آن را در اختیار دارد.

    نکته دیگر که محققان به آن اشاره کردند این است که مدل‌های زبانی بزرگ‌تر در مقایسه با کوچک‌ترها به راحتی آموزش‌هایشان را به یاد می‌آورند. برای مثال در یک آزمایش آن‌ها گزارش دادند که GPT-2 XL که ۱.۵ میلیارد پارامتر دارد، به نسبت مدلی که ۱۲۴ میلیون پارامتر دارد، حدودا ۱۰ برابر بهتر کار پیش‌بینی را انجام می‌دهد. مدل «نسل زبان طبیعی تورینگ» نسل زبان طبیعی تورینگ Turing Natural Language Generation مایکروسافت که بسیاری از سرویس‌های آژور قدرتشان را از آن دارند، ۱۶ میلیارد پارامتر و مدل مترجم فیس‌بوک بیش از ۱۲ میلیارد پارامتر دارد.

    محققان معتقدند شاید بتوان به یاد آوردن از داده‌های حاوی اطلاعات شخصی را در مدل‌ها کاهش داد و کاری کرد که دیگر امکان افشای آن‌ها ممکن نباشد. اما وقتی این اطلاعات بارها و در بخش‌های مختلف تکرار شده باشند، دیگر نمی‌توان از آن‌ها محافظت کرد.

    مدل زبانی

    نیکولاس کارلینی، دانشمند و محقق گوگل، در وبلاگش نوشته:«مدل‌های زبانی سودمندی و انعطاف‌پذیری‌شان را به همه نشان داده‌اند. البته که مانند هر نوآوری دیگری، این‌ها هم می‌توانند ریسک‌هایی داشته باشند. اما این که مسئولانه آن‌ها را توسعه دهیم یعنی این که توجهمان به آن ریسک‌ها هم باشد و در جهت رفع یا کاهش آن‌ها تلاش کنیم. با توجه به این که مدل‌ها به نسبت قبل ۱۰ تا ۱۰۰ مرتبه بزرگ‌تر شدند، برای رفع و کاهش ریسک‌ها باید اقدامات وسیع‌تر و جامع‌تری هم انجام داد. به همین دلیل است که شاید اتفاقات مخربی که می‌تواند رخ دهد، آینده این مدل‌ها و یادگیری ماشین را تحت تاثیر قرار داده است».

    به غیر از افشای اطلاعات حساس و مهم، مشکل دیگر مدل‌های زبانی مربوط به جانبداری در داده‌هایی است که برای آن‌ها آموزش داده شده است. معمولا برای آموزش داده از تنوع بین جنسیت، مذاهب و غیره استفاده می‎شود. اما این که از وب به عنوان منابع استفاده شود باعث می‎شود که برخی از کلمات به اشتباه در کنار یکدیگر قرار گیرند. برای مثال ممکن است مدل زبانی کلمات مربوط به آزار جنسی را در کنار نام خانم‌ها و کلماتی مانند تروریست را در کنار نام برخی از مذاهب و ادیان قرار دهد.

    در مطالعات اخیر اینتل، ام‌آی‌تی و شرکت هوش مصنوعی کانادایی CIFAR، آمده که بسیاری از این مسائل در مدل‌های زبانی مطرحی مانند BERT گوگل، XLNet، GPT-2 و RoBERTa فیس‌بوک دیده شده است. طبیعتا چنین اشتباهاتی برای مدل‌هایی که مخاطبان زیادی دارند، می‌توان مروج اشتباهات و اطلاعات غلط باشد.

    اوپن ای‌آی پیش از این مدعی شده بود که برای محدود کردن مشکلات GPT-3 از مواردی مانند فیلترهای سمی استفاده کرده است. انتظار می‌رود این فیلترها توانایی حذف محتواهای مخرب از هر زبانی و از هر منبعی را داشته باشند.

    نکته اما اینجاست که هنوز مشخص نیست شرکت‌ها چه تدابیری برای حذف محتواهای غیراخلاقی و نژادپرستانه دارند. مخصوصا که چندی پیش گوگل یکی از متخصصان در این زمینه را اخراج کرد و گفته می‌شود این متخصص در حال کار بر روی پروژه‌ای بوده که به وضوح بیان می‌کرده این مدل‌های زبانی برای چه کسانی سودمند و برای چه کسانی مضر هستند.

    همچنین گفته می‎شود در پیش‎نویس‌های این متخصص آمده که مدل‌های بزرگ زبانی پتانسیل منحرف کردن هرگونه تحقیق در مورد هوش مصنوعی را دارند و در حالی که عموم فکر می‌کنند محتواهای آن‌ها مفید است، در حقیقت در حال ضربه زدن هستند. مخصوصا که مطالعات نشان داده بنچمارک‌های مشهور زبان طبیعی توجهی به اطلاعات کلی مدل‌های هوش مصنوعی ندارند.

    شکی نیست که مطالعات این متخصص با منافع گوگل در تضاد بوده است و با این که ساندر پیچای، مدیر گوگل، به خاطر اخراج این متخصص معذرت‌خواهی کرد، اما هیچ توضیحی درباره برنامه‌های شرکتشان برای رفع معضلات مربوط به مدل‌های زبانی نداد. فقط زمان مشخص می‌کند که آیا رقیبان این شرکت مانند مایکروسافت و فیس‌بوک واکنشی بهتر به این موضوع خواهند داشت یا نه.

    جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید.

    این مطلب چه میزان برای شما مفید بوده است؟
    [کل: ۰ میانگین: ۰]

    بررسی تاثیر کنش‌های ساده در بروز رفتارهای پیچیده با شبکه بولی

    مقاله قبلی

    الگوریتم های بینایی کامپیوتری با داده های محدود و روشی که به آموزش آن‌ها کمک می‌کند

    مقاله بعدی

    شما همچنین ممکن است دوست داشته باشید

    نظرات

    پاسخ دهید

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *