مدلهای زبانی بزرگ درکی از جهان ندارند!
مدلهای زبانی بزرگ این روزها میتوانند کارهای چشمگیری انجام دهند؛ مانند نوشتن شعر یا برنامهنویسی و حتی پیشبینی کلماتی که میخواهید به زبان بیاورید. ممکن است اینطور به نظر برسد که مدلهای زبانی بزرگ به طور ضمنی در حال یادگیری حقایق کلی درباره جهان هستند، اما طبق تازهترین مطالعاتی که صورت گرفته است، اینطور نیست!
محققان در تازهترین بررسیهای خود، دریافتند که یک مدل از هوش مصنوعی، میتواند مسیرهای رانندگی در شهر نیویورک را با دقت تقریباً کاملی ارائه دهد؛ با وجود توانایی عجیب این مدل در جهتیابی موثر، زمانی که محققان برخی از خیابانهای نیویورک را بستند و مسیرهای انحرافی را اضافه کردند، عملکرد این مدل به شدت کاهش یافت.
این میتواند پیامدهای جدی برای مدلهای هوش مصنوعی مولد مستقر در دنیای واقعی داشته باشد، زیرا مدلی که به نظر میرسد در یک زمینه خوب عمل میکند، در صورت تغییر جزئی کار یا محیط ممکن است عملکردش تضعیف شود.
از آنجایی که شگفتیآفرینی مدلهای زبانی بزرگ، در زبان آنها نمایان میشود، استفاده از این ابزار میتواند در سایر بخشها درهای امید را به روی محققان باز کند.
گروهی از محققان بر روی نوعی از مدل هوش مصنوعی مولد به نام ترانسفورماتور تمرکز کردند که ستون فقرات مدلهای زبانی بزرگ مانند GPT-4 است. ترانسفورماتورها بر روی حجم عظیمی از دادههای مبتنی بر زبان آموزش میبینند تا نشانه بعدی را در یک دنباله، مانند کلمه بعدی در یک جمله، پیش بینی کنند.
اما اگر دانشمندان بخواهند تعیین کنند که آیا یک مدل زبانی بزرگ، درک دقیقی از جهان دارد یا خیر، باید دقت پیشبینی آن را اندازهگیری کنند.
بهطور شگفتانگیزی، محققان دریافتند که ترانسفورماتورهایی که بهطور تصادفی انتخاب میکنند، مدلهای جهانی دقیقتری را تشکیل میدهند، شاید به این دلیل که در طول آموزش، طیف گستردهتری از مراحل را مشاهده کردند.
ترانسفورماتورها میتوانند به طرز شگفتآوری در وظایف خاصی بدون درک قوانین عمل کنند؛ محققان میگویند اگر دانشمندان بخواهند مدلهای زبانی بزرگی را بسازند که بتواند مدلهای دقیق جهان را ثبت کند، باید رویکرد متفاوتی در پیش بگیرند.
اغلب، ما میبینیم که این مدلها کارهای چشمگیر انجام میدهند و فکر میکنیم که حتماً چیزی در مورد جهان فهمیدهاند اما هنوز برای اینکه بتوانیم چنین نتیجهگیری انجام دهیم، زود است!