هوش مصنوعی، چگونگی پردازش زبان در مغز را روشن میسازد
هوش مصنوعی جنبههایی جدید از پردازش زبان در مغز را روشن میسازد. پژوهشگران اعلام کردند که احتمالاً مغز انسان، کلمه بعدی را پیشبینی میکند، تا پردازش زبان را پیش ببرد.
در چند سال گذشته، مدلهای هوش مصنوعیِ زبان در انجام برخی تکالیف بسیار پیشرفت کردهاند. نکتۀ قابلتوجه این است که این مدلها در پیشبینی کلمه بعدی در زنجیره جمله بسیار خوب عمل میکنند؛ این فناوری به موتورهای جستوجو و نرمافزارهای پیامک کمک میکند که کلمه بعدیای که قصد تایپ آن را دارید، پیشبینی کنند.
به نظر میرسد، جدیدترین نسل مدلهای زبانی پیشبینیکننده، میتوانند مطالبی در خصوص معنای زیرساختی زبان هم بیاموزند. این مدلها نهتنها کلمه بعدی را پیشبینی میکنند، بلکه تکالیفی را هم انجام میدهند که به نظر نیازمند مقداری فهم واقعی هستند، مانند پاسخگویی به پرسش، خلاصه کردن اسناد و کامل کردن داستان.
این چنین مدلهایی با هدف بهینه کردن انجام کارهایی خاص مانند پیشبینی متن، طراحی شدند و هیچ قصدی برای تقلید روش مغز انسان در انجام این تکالیف یا فهم زبان، وجود نداشتند؛ اما مطالعه جدیدی که از سوی عصبشناسان MIT انجام شده، نشان میدهد که عملکرد بنیادی این مدلها مشابه عملکرد مراکز پردازش زبان در مغز انسان است.
مدلهای کامپیوتری که در انجام دیگر تکالیف زبانی، خوب عمل میکنند، چنین شباهتی با مغز انسان ندارند و این امر شاهدی است مبنی بر اینکه احتمالاً مغز انسان برای پیشبرد پردازش زبان از پیشبینی کلمه بعدی استفاده میکند.
نانسی کنویشر، استاد علوم اعصابشناختی Walter A. Rosenblith، عضو مؤسسه تحقیقات مغز MIT’s McGovern و مرکز مغزها، ذهنها و ماشینها (CBMM) و نویسنده این پژوهش جدید میگوید: «هر چقدر مدلی در پیشبینی کلمه بعدی بهتر عمل کند، به مغز انسان شبیهتر است. این همه شباهت مدلها هیجانانگیز است و خیلی غیرمستقیم بیانگر این نکته است که احتمالاً کار نظام زبانی انسان، پیشبینی قدم بعدی است.»
جاشوآ تننبائوم، استاد علومشناختی محاسباتی MIT، عضو CBMM و آزمایشگاه هوش مصنوعی (CSAIL)؛ اولینا فدورنکو، فردریک ای و کرول جی. میدلتون، دانشیار توسعه شغلی در علوم اعصاب و یکی از اعضای مؤسسه McGovern، نویسندگان ارشد این پژوهش هستند که در مجله Proceedings of the National Academy of Sciences به چاپ میرسد. مارتین شریمف، دانشجوی ارشد MIT که در CBMM کار میکند، نویسنده اول مقاله است.
پیشبینی کردن
مدلهای جدید و با کارایی بالای پیشبینی کلمه بعدی، متعلق به ردهای از مدلها با نام شبکههای عصبی عمیق هستند. این شبکهها شامل «گره»های محاسباتی هستند. گرهها اتصالاتی با قدرتهای متفاوت، لایههایی را شکل میدهند که اطلاعات را میان یکدیگر به شکل تجویزشده تبادل میکنند.
طی دهه گذشته، دانشمندان از شبکههای عصبی عمیق برای ایجاد مدلهای بیناییای استفاده کردهاند که اشیا را مشابه مغز نخستیها (یکی از راستههای پستانداران، شامل تمامی میمونها، کپیها و انسان) تشخیص میدهند. پژوهش MIT نیز نشان داده است که عملکرد بنیادیِ مدلهای بینایی تشخیص اشیا، منطبق بر سازمانبندی قشر بینایی نخستیهاست، با وجود اینکه این مدلهای کامپیوتری با هدف تقلید مغز، طراحی نشده بودند.
گروه MIT در پژوهش جدید خود از رویکردی مشابه برای مقایسه مراکز پردازش زبان در مغز انسان با مدلهای پردازش زبان، استفاده کردهاند. این پژوهشگران 43 مدل زبانی متفاوت را که شامل چندین مدل بهینهشده برای پیشبینی کلمه بعدی است، تجزیه و تحلیل کردهاند. از جمله این مدلهای بهینهشده میتوانGPT-3 را نام برد (مبدل از پیشآموزش دیده زایشی 3) که با یک فرمان میتواند متنی مشابه با متن انسانی، تولید کند. دیگر مدلها به این منظور طراحی شده بودند، تا تکالیف زبانی مختلفی، مانند پر کردن جای خالی در یک جمله را انجام دهند.
چون به هر کدام از مدلها یک رشته از کلمات ارائه شده بود، پژوهشگران فعالیت گرههایی که شبکه را میسازند، اندازه گرفتند. سپس این الگوها را با فعالیت مغز انسان مقایسه کردند؛ اطلاعات مربوط به مغز انسان از آزمودنیهایی اندازهگیری شده بودند که سه تکلیف زبانی را انجام میدادند: گوش دادن به داستان، خواندن جملههای ناپیوسته، خواندن جملههایی که کلمات آن یکییکی نشان داده میشدند. این مجموعهدادههای انسانی شامل دادههای تشدید مغناطیسی کارکردی (fMRI) و ارزیابیهای الکتروکورتیکوگرافیکی درون جمجمهای بودند که از افراد تحت عمل جراحی مغز برای درمان صرع، گرفته شده بودند.
پژوهشگران دریافتند که بهترین عملکرد را مدلهای پیشبینی کلمه بعدی دارند که الگوی فعالیت آنها بسیار مشابه چنین عملی در مغز انسان است. همچنین فعالیت این مدلها، با مقیاسهای رفتارهای انسانی مانند سرعت خواندن متن، همبستگی زیادی داشت.
شریمف میگوید: «ما دریافتیم مدلهایی که به خوبی واکنشهای عصبی را پیشبینی میکنند، اغلب واکنشهای رفتاری انسان را نیز در بیشتر زمانهای خواندن، به خوبی پیشبینی میکنند و هر دوی این موارد از روی عملکرد مدل در پیشبینی کلمه بعدی، قابلتوضیح هستند. این مثلث همه چیز را به هم پیوند میدهد.»
[irp posts=”20237″]عامل تحولآفرین
یکی از کلیدیترین ویژگیهای مدلهای پیشبینیکننده مانندGPT-3 ، عنصری است که با عنوان مبدل پیشبینیکننده یکطرفه به جلو شناخته میشود. این نوع مبدل میتواند بر اساس توالیهای پیشین، آنچه را که در پی میآید، پیشبینی کند. ویژگی شاخص این مبدل این است که میتواند بر اساس بافت پیشینی خیلی طولانی (صدها کلمه) و نه فقط آخرین کلمات، عمل پیشبینی را انجام دهد.
تننبائوم میگوید: «پژوهشگران هیچ مدار مغزی یا سازوکار یادگیریای را نیافتهاند که مشابه این نوع پردازش باشد. با وجود این، یافتههای جدید با فرضیههایی که در گذشته ارائه شدهاند، سازگار هستند. این فرضیهها بیان میکنند که پیشبینی، یکی از کارکردهای کلیدی در پردازش زبان است. یکی از چالشهای پردازش زبان جنبه بیدرنگ بودنِ آن است. زبان وارد میشود و باید با آن همراه شوید و بتوانید بیدرنگ آن را درک کنید.»
مدلهای کامپیوتری که دیگر انواع تکالیف زبانی را انجام میدهند، چنین شباهتی با مغز انسان نشان نمیدهند و همین امر گواه این است که احتمالاً مغز انسان از پیشبینی کلمه بعدی برای پیشبرد پردازش زبان، استفاده میکند.
علاوه بر این، پژوهشگران قصد دارند که این مدلهای زبانی با کارایی بالا را با برخی مدلهای کامپیوتری آزمایشگاه تننبائوم که پیش از این ایجاد شده بودند، ترکیب کنند. این مدلهای کامپیوتری میتوانند دیگر انواع تکالیف مانند ساخت بازنمایی ادراکی جهانِ فیزیکی را انجام دهند.
تننبائوم میگوید: «اگر بتوانیم بفهمیم این مدلهای زبانی چه کاری انجام میدهند و چگونه میتوانند به مدلهایی متصل شوند که کارهایی شبیه به ادراک و تفکر را انجام میدهند، این فهم، مدلهای منسجمتری از چگونگی انجام کارها در مغز به ما ارائه میدهد و نسبت به گذشته، ما را به سمت مدلهای هوش مصنوعی بهتر، مدلهای بهتر از چگونگی فعالیتهای بیشتری از مغز و چگونگی پیدایش هوش عمومی میبرد.» نویسندگان دیگر این مقاله، دکتر ایدان بلنک و دانشجویان تحصیلات تکمیلی گرتا توکوت، کارینا کاف و اقبال حسینی هستند.