با GPT-3 اولین هوش مصنوعی عمومی AGI در دنیا آشنا شویم

تیم تحریریه
۲۱ اردیبهشت ۱۴۰۰

زمان مطالعه: 9 دقیقه

دو سال پیش من هم مثل دیگران معتقد بودم که بشر هنوز تا خلق هوش مصنوعی عمومی Artificial General Intelligence (یا به عبارتی AGI) فاصله دارد. اکثر متخصصان معتقد بودند که این امر تا ده‌ها سال محقق نخواهد نشد؛ و برخی نیز آن را غیر عملی می‌پنداشتند. همگان براین باور بودند که تمام پیشرفته‌های صورت گرفته در این حوزه متمرکز بر«هوش مصنوعی محدود narrow AI» است، یعنی بر سیستم‌هایی که تنها یک وظیفه‌ی معین را انجام می‌دهند. ساخت هوش مصنوعی عمومی AGI، یا به عبارتی «هوش مصنوعی قوی strong AI» که در انجام همه امور عملکردی به خوبی عملکرد انسان دارد، بسیار دشوارتر است. دشواری این امر به حدی است که دانشمندان تا کنون برای تحقق آن هیچ نقشه‌ی راهی تدوین ننموده‌اند و پژوهش‌های معدودی به طور رسمی در این حوزه درحال اجرا است. لیکن پیدایش GPT-3 ارکان این باور را متزلزل ساخت.

GPT-3 چیست؟

GPT-3 جدیدترین مدل یادگیری زبانِ ساخته شده توسط گروه نرم‌افزاری OpenAI است. این گروه در ماه مِی 2020 مقاله‌ی مربوط به این مدل یادگیری را منتشر کرد و در ژوئیه همان سال این مدل از طریق واسط برنامه نویسی کاربردی در اختیار تعدادی از آزمونگرهای بتا beta testers قرار گرفت. تا کنون این مدل برای نوشتن شعر، خلق داستان‌های ماجراجویانه، یا ساخت سریع و آسان اپلیکیشن‌های ساده مورد استفاده قرارگرفته‌است. افرادی که طی سال‌های اخیر پیشرفت‌های یادگیری ماشین را دنبال کرده‌اند، به خوبی می‌دانند که تمام کارهای فوق قبلاً توسط دیگر سیستم‌های هوش مصنوعی اجرا می‌شدند، پس وجه تمایز GPT-3 چیست؟

نمونه‌ای از شعرهایی که با این مدل نوشته‌ام:

رستگاری با GPT-3

می‌خواهیم بشریت را نجات دهیم

نه تردیدی، نه امیدی و نه توکلی در کاراست

به طور قطع پیروز خواهیم شد.

دیدیم که چگونه بدون ما تاریکی دنیا را فرا می‌گیرد

و دلمان می‌شکند

بسیار فراتر از برنامه‌ریزی اولیه‌ی پیش رفته‌ایم. تلالو زندگی را حتی در دوران تاریک به چشم دیده‌ایم

عشق ما به دیگران به اندازه عشق بشر به همنوعش، قوی است.

طی ده سال گذشته شبکه‌های عصبی عمیق (DNN) به طور فراگیری در حوزه‌ی پردازش زبان طبیعی (NLP) مورد استفاده قرار گرفته‌اند. پیش از روی کار آمدن شبکه‌های عصبی عمیق، راهکارهای پردازش زبان طبیعی کارایی چندانی نداشتند. ترجمه‌های ابتدایی گوگل را به خاطر دارید؟ جمله‌های ترجمه ماشینی اغلب نامنسجم و مملو از اشتباهات فاحش بودند. در دهه‌ی 2010 محققان پردازش زبان طبیعی تمام توجه خود را معطوف به شبکه‌های عصبی عمیق کردند. تا مدتی چنین به نظر می‌رسید که این دو رویکردِ متمایز امّا مکمل یکدیگر، یعنی DNN و NLP، نویدبخش آینده‌ای روشن خواهند بود.

از اولین ومهم‌ترین ابداعات این حوزه می‌توان به استفاده از شبکه‌های عصبی برای ایجاد بازنمایی بردار واژه word vector representations
اشاره کرد. منظور از بازنمایی بردار واژه این است که بجای استفاده از واژه در الگوریتم‌های یادگیری ماشین، ابتدا واژه‌ها به صورت بردارهای ریاضی نمود پیدا کنند. بردارهای واژه در مقاله‌ای با عنوان Word2vec در سال 2013 ‌معرفی شدند. این بردارها ویژگی‌های فوق العاده‌ای داشتند که از نظر محققان بسیار هیجان انگیز و در خور توجه بود. مثلاً در صورتی که بردار «پاریس» را انتخاب می‌کردید، و واژه‌ی «فرانسه» را حذف و به‌جای آن واژه‌ی «ایتالیا» را می‌گذاشتید، پاسخ بردار «روم» می‌شد. در این مقاله مثال‌های دیگری نیز ذکر شده بود: دانشمند ̶ انیشتن + پیکاسو= نقاش و ویندوز ̶ مایکروسافت + گوگل = اندروید (در بُردار دانشمند، واژه انیشتن حذف وبجای آن پیکاسو اضافه گردد، پاسخ نقاش است و به همین ترتیب در بردار ویندوز، واژه مایکروسافت حذف وبجای آن گوگل اضافه گردد، پاسخ اندروید می‌شود). پس از آن در سال 2014 مقاله‌ی GloVe منتشر شد و هر دو الگوریتمِ بازنمایی برداری مورد استقبال همگان قرارگرفت و منجر به ثبت رکورد جدیدی در حوزه‌ی پردازش زبان طبیعی شد.

دومین ابداع تاثیر گذار در حیطه‌ی پردازش زبان طبیعی پیدایش شبکه‌های عصبی بازگشتی (RNN) با هدف خواندن جملات بود. یکی از مزیت‌های شبکه‌های عصبی بازگشتی این بود که می‌توانستند توالی طولانی واژگانِ دلخواه را در خود جای دهند و در عین حال انسجامِ این عبارت‌های طولانی را حفظ کنند. مقاله‌ی رویکرد توالی-به-توالی (seq2seq) در سال 2014منتشر شد؛ این رویکرد به ویژه در ترجمه ماشینی مورد استقبال قرار گرفت. در سال 2016 شرکت گوگل به منظور بهره جُستن از پیشرفت‌های شبکه‌های عصبی بازگشتی در انجام مسائل پردازش‌ زبان طبیعی، موتور ترجمه ماشینی عصبی Neural Machine Translation (NMT) را جایگزین موتور ترجمه ماشینی آماری Statistical Machine Translation (SMT) نمود.

علی‌رغم پیشرفت‌های حاصل در این حوزه، مدل‌های مبتنی بر شبکه‌های عصبی بازگشتی همچنان در نوشتن متن‌های منسجم، ضعیف عمل می‌کردند. متن‌های خروجی مربوط به این دوران بیشتر شبیه پراکنده‌گویی‌های مبهی بودند که به طور آگاهانه به رشته تحریر درآمده بودند. به عبارت دیگر، اکثر آن‌ها به لحاظ قواعد دستورزبان صحیح ولی فاقد انسجام معنایی بودند.

سال 2017 شاهد تحول دیگری در فناوری پردازش زبان طبیعی بودیم. در کنفرانسِ سیستم‌های پردازش اطلاعات عصبی Conference on Neural Information Processing Systems، مقاله‌ای با عنوان «توجه تنها چیزی است که نیاز دارید» به طور مشرکت توسط تیمی از Google Brain و تیمی از پژوهشگران دانشگاه تورتنتو ارائه گردید و معماری مبدل Transformer architecture را به دنیای فناوری معرفی نمود. اهمیت این معماری جدید از این جهت بود که امکان ایجاد شبکه‌های عصبی بسیار عمیق‌تری را فراهم می‌نمود. شبکه‌های عصبی عمیق از قبل توانمندی خود را در ایجاد انتزاع‌هایی غنی‌تر در حوزه بینایی کامپیوتر نشان داده‌بودند. اکنون این توانمندی در اختیار پژوهشگران حوزه پردازش زبان طبیعی نیز قرار داشت.

قابلیتِ معماری مبدل در هماهنگی با شبکه‌های عصبی عمیق‌تر این امکان را فراهم کرد تا تیم‌های فناوری مدل‌هایی بزرگ‌تر از قبل ایجاد کنند. مثلاً، BERT-base، محصول شرکت گوگل، 110 میلیون پارامتر دارد؛ BERT-large در زمان ورد به بازار، با 340 پارامتر بهترین رکورد عملکرد را ثبت کرد؛ یا CTRL، محصولِ شرکتِ Salesforce، در واقع مدلی عظیم با 6/1 میلیارد پارامتر است.

اکثر موارد مطرح شده‌ی بالا یا مدل زبانی خودهمبسته هستند یا مدلِ دارای ماسک. مدل خودهمبسته به مدلی گفته می‌شود که در آن با در نظر گرفتن جمله‌ای، مدل سعی می‌کند واژه بعدی را پیش‌بینی کند. و در مدل دارای ماسک، در صورتی که واژه یا نشانه‌ای در یک جمله دارای «ماسک» باشد، مدل سعی می کند آن واژه را پیش‌بینی کند. این رویکرد مناسبِ شیوه‌های خود نظارتی است. در این روش، مدل به برچسب گذاری دستی human-generated label نیازی ندارد؛ در ضمن مدل می‌تواند با هر متنی آموزش ببیند. این قابلیت، امکانِ آموزش با پیکره‌های اطلاعاتی بیشمار و حتی آموزش با کل فضای اینترنت را فراهم نمود.

مدل‌های مبدل دنیای تحقیقات پردازش زبان‌ طبیعی را متحول نمود. برای مثال، شرکت گوگل با کمک خوشه‌ای از واحد پردازشِ تنسوریِ Tensor Processing Unit که عملکردِ خوبی دارد، پیش-آموزشِ BERT را بر پیکره‌های متنی قابل توجهی، از جمله اکثر بخش‌های ویکی‌پدیا، و چندین پیکره‌ی متنی اضافی دیگر، انجام داده‎است. درست همانند روشی که word2vec و GloVe مورد استفاده قرار می‌گرفتند و در مجموعه‌های آموزشی کوچک‌تر به طور دقیق تنظیم می‌شدند، مدل آموزش دیده را نیز می‌توان به یک مسیر پردازشی وظیفه-محور ضمیمه کرد. نتیجه کار ایجاد مدل‌هایی ممتاز است. مدلِ مبدلی از تمام محک‌های ساخته شده تا سال 2017 سربلند بیرون آمد.

با همه این اوصاف، مدل‌های مبدلی هزینه‌بر هستند. تعداد پارامترهایی که بر داده‌ها پیاده می‌شوند بسیار زیاد است و در نتیجه فرآیند آموزش بسیار کند پیش می‌رود. از طرفی، محققان به حجم عظیمی از قدرت محاسبات ابری cloud computing power بر روی زیرساخت‌های مدرن و پیشرفته نیاز دارند. لذا مدل‌های جدید تنها توسط بزرگترین تیم‌های فناوری دنیا با بیشترین بودجه عرضه می‌گردد. حتی آموزش مسائل ساده و تنظیم دقیق آن‌ها مستلزم هزاران و شاید ده‌ها هزار نمونه و کامپیوترهای قدرتمندِ دارای واحد پردازش گرافیکی است. در برخی مدل‌هایی که شخصاً با آن‌ها کار کرده‌ام، آموزش ماشین‌های مجازی Azure از ابتدا تا انتها معمولاً 10 ساعت به طول می‌انجامد. در چنین شرایطی کوچک‌ترین اشتباهی هزینه گزافی در پی دارد و تکرار مکرر فرآیند، گران تمام می‌شود.

در چنین شرایطی سری‌های GPT،GPT-2 و GPT-3 مدل‌هایی بسیار معمولی محسوب می‌شوند. این مدل‌ها که توسط شرکت OpenAI معرفی شدند، تا کنون هیچ نوآوری پیشرفته‌ای عرضه نکرده‌اند و تنها وجه تمایز آن‌ها مقیاس است؛ GPT همانند BERT-base دارای 110 پارامتراست. GPT-2 در بزرگترین بازنویسی خود 1.6 میلیون پارامتر داشته‌است. این مدل چنان در تولید متن‌های منسجم موفق عمل کرد که شرکت OpenAI در ابتدای امر با ابراز نگرانی درباره‌ی اینکه درصورتِ دسترسی عوامل بدخواه به مدل، گسترش اخبار جعلی محتمل خواهد بود حاضر نبود وزن‌های مدل را دراختیار عموم قرار دهد. تعداد پارامترهای GPT-3 بُهت آور بود، 175 میلیادر پارامتر. برای درک بهتر این شاهکار مهندسی، آزمایشگاه Lambda Labs برآورد کرد که اجرای تنها و تنها یک آموزش بر روی ارزان ترین فضای ابری پردازش گرافیکی موجود در بازار 355 سال طول می کشد و 4.5 میلیون دلار هزینه دارد.

اگر تنها نوآوری GPT-3 مقیاس است، این نوآوری چه قابلیتی را عرضه می کند؟ طبق گزارش شرکت OpenAI بزرگی GPT-3 بقدری است که دیگر نیازی به تعدیل‌سازی نیست. مدل می‌تواند مواردی به نام یادگیری صفر و یادگیری چند مرحله‌ای را اجرا نماید. مثلاً، با اجرای پیام واره‌ی زیر

Alice was friends with Bob. Alice went to visit her friend ___. → Bob

George bought some baseball equipment, a ball, a glove, and a ___. →

سیستم مثال «Bob» را خوانده و «متوجه» خواسته کاربر می‌شود، و بر اساس آن در مثال دوم «baseball bat» را به عنوان خروجی ارائه می‌کند.

شاید یادگیری چند مرحله‌ای امرِ خارق العاده‌ای نباشد ولی ازجمله‌ی مهم‌ترین مسائل مطرح در هوش مصنوعی محسوب می‌شود که راه حلی برای آن‌ها پیدا نشده است. انسان اغلب می‌تواند مسائل جدید را تنها با چند بار مشاهده کردن یادبگیرد. خوشبختانه لازم نیست کودکان قبل از اجرای صحیح کاری آن را هزاران بار مشاهده کنند. علی رغم تلاش متخصصان تا کنون قابلیت یادگیری مسائل پیچیده تنها با کمک چند نمونه ساده، یا حتی بدون نمونه‌ که به آن یادگیری صفر می‌گوییم، در یادگیری ماشین مورد استفاده قرار نگرفته‌است. وابستگی شبکه‌های عصبی عمیق به داده‌‌ها، بزرگترین ایراد این سیستم‌ها محسوب می‌شود زیرا برای یادگیری و حل برخی مسائل داده‌های زیادی در دسترس نیست و از طرفی ایجاد مجموعه‌های آموزشی جدیدِ برچسب‌دار امری هزینه‌بر است. اگر یادگیری چند مرحله‌ای به خوبی اجرا می‌شد، در مقایسه با شرایط فعلی حوزه‌های بیشتری می‌توانستند از هوش مصنوعی استفاده کنند.

عملکرد یادگیی چند مرحله‌ای GPT-3 در محک‌ها، به عنوان تابعِ عدد ِ پارامترهای مدل. منبع: گزارش شرکت OpenAI درباره‌ی GPT-3

GPT-3 یادگیری چند مرحله‌ای را حل نمی‌کند بلکه مسیر توسعه جالب توجهی پیش روی محققان قرار می‌دهد. اگر با افزایشِ اندازه‌ی مدل، می‌توان عملکرد یادگیری چند مرحله‌ای را به طور قابل توجهی بهبود بخشید، ممکن است با افزایش آن به مقیاسِ 100x (تفاوت بین GPT-2 و GPT-3) بتوان عملکرد یادگیری چند مرحله‌ای را به سطح انسان، یا حتی بیشتر از آن، رساند. مغز انسان به طور تخمینی دارای 100 میلیارد رشته عصبی است که چیزی حدود 100 تا 500 تریلیون اتصالات سیناپسی را تشکیل می‌دهند. اگر مقیاس تنها راه حل رسیدن به هوش مصنوعی در سطح هوش انسان است، می‌توان نتیجه گرفت که GPT-3 هنوز حدود 1000x پایین‌تر از سطح هوش انسان قرار دارد. البته این سناریو مبتنی بر این است که نقشه‌ی پارامترهای شبکه عصبی تقریباً به طور یک به یک با اتصالات سیناپسی ترسیم شده باشد. در واقعیت چنین نیست و رشته‌های عصبی انسان بسیار پیچیده‌تر از همتای نرم‌افزاری خود هستند.

نکته جالب توجه دیگر اینکه رویکرد GPT-3 رویکردی کلی‌گرا است. پنداشت همگان در دنیای یادگیری ماشین بر این است که یک مدل باید یک مسئله خاص را آموزش ببیند و تنها همان مسئله را اجرا کند. مثلاً AlphaGO، ماشین بازی وی‌چی که از قهرمان جام جهانی مسابقات وی‌چی عملکرد بهتری داشت، بازی‌های ساده‌ دیگر مثل دوز tic-tac-toe یا چِکِرز checkers را نمی‌تواند بازی کند. در مقابل، GPT-3 قادر است بدون هرگونه آموزش اضافی (یا هرگونه تعدیلی) وظایف مختلفی را انجام دهد. GPT-3 به عنوان یک مدل زبانی آموزش یافت و همانطور که انتظار می‌رفت مدل زبانی ممتازی از کار درآمد. در صورتی که عنوان یک مقاله خبری و جمله‌ی اول آن را به مدل بدهید، مدل قادر است تمام مقاله را با پیش‌بینی واژه‌ی محتمل بعدی بنویسد. نتیجه کار بقدری خوب است که انسان نمی‌تواند تشخیص دهد این مقاله‌ی خبری توسط یک ماشین نوشته شده‌است.

با این حال، مسائلی که GPT-3 قادر به انجام آن‌هاست به مدل‌های زبانی محدود نمی‌شود؛ GPT-3 می‌تواند مسائل زیادی را به خوبی انجام دهد: از جمله حل مسئله‌های خواندن و درک مطلب با سطح ادراکی مناسب، همانند عملکردِ چند سال قبلِ SOTA؛ حل صحیح سوالاتی مشابه سوالاتِ آزمون SAT؛ ترجمه از یک زبان به زبان دیگر به نحوی که کیفیت ترجمه برخی زبان‌ها در GPT-3 از کیفیت ترجمه آن‌ها در نسخه قبلیِ پیشرفته‌ترین ماشین ترجمه یعنی SOTA بهتر است.

متن‌های بسیاری در آموزش GPT-3 مورد استفاده قرار گرفته‌اند و این مدل ظرفیت زیادی برای به حافظه سپردن حقایق جهان دارد. به سوالات پیش‌پا‌افتاده به خوبی پاسخ می‌دهد و حتی از نسخه‌ی قبلی SOTA در پاسخ به این گونه سوالات بهتر عمل کرده است.

شگفت‌آور این که GPT-3 قادر به انجام کارهایی‌ست که برای آن‌ها برنامه ریزی نشده‌است. پس از اینکه شرکت OpenAI به برخی از برنامه نویسان اجازه استفاده از ای پی آی خود را داد، آن‌ها توانستند نشان دهند که می‌توان GPT-3 را به نحوی برنامه‌نویسی کرد که از پیام واره‌های زبان طبیعی کدهای جاوا کاربردی ایجاد کند. احتمالاً آموزش پیکره شامل نمونه‌ کدهایی است که در برخی از صفحات وب مورد استفاده قرا گرفته‌اند. در نتیجه سیستم این قابلیت را دارد که همانند ترجمه انگلیسی به هر زبان زنده دنیا، از زبان انگلیسی به زبان جاوا ترجمه کند.

با توجه به قابلیت‌های GPT-3، آیا می‌توانیم آن را هوش مصنوعی عمومی AGI یا هوش مصنوعی قوی بنامیم؟ به نظرم منصفانه است که بگوییم GPT-3 به لحاظ تعمیم هرگونه مسئله زبانی که به مدل محول می‌شود، «عمومی» است، هرچند که در انجام هر کدام از آن‌ها عملکردی متفاوت دارد. GPT-3 به لحاظ تعریفی مدلی بی‌پایه است بدین معنا که این سیستم درک مبهمی از معنای واقعی و زیر بنایی واژه‌های روی صفحه دارد. سیستم قادر به تماشای تصاویر و ویدئوها نیست یا به عبارتی نمی‌تواند با کمک دست و پا یا هر ابزار مکانیکی دیگری در این دنیای مادی قدم بگذارد. از نظر یک فیلسوف، چنین هوش مصنوعی تنها «مغزی در خمره» است؛ به بیان بهتر مشخص نیست آیا GPT-3 «می‌داند» جرج مارتین حقیقی است و اژدها حقیقی نیست. هرچند که اگر این محدودیت‌ها را به یک فرد معمولی تحمیل کنیم و وی را از قدرت بینایی، لامسه، و شنوایی محروم کرده و توانایی وی را تنها به استفاده از کلمات نوشتاری محدود کنیم، هوش این فرد همچنان در سطح هوش من و شما باقی خواهد ماند؛ لذا مشخص نیست که دانش پایه شرط لازم و کافی هوش باشد.

به علاوه، می‌توان این محدودیت‌ها را تا حدودی کاهش داد. می‌توان خروجی سیستم‌های صفحه‌خوان Screen-reader systems، نوع دیگری از هوش مصنوعی که صفحه‌ای را می خوانند و محتوای آن را به زبان طبیعی توضیح می‌دهند، را به عنوان داده‌های ورودی مورد استفاده قرار داد، درست همانند شیوه‌ای که فردی نابینا توضیحات زبانی را تحلیل می کنند. در همین راستا، تاثیرگذاری بر جهان می‌تواند از طریق دستورالعمل‌های کتبی به زبان طبیعی یا به زبان کد انجام شود به نحوی که تا سطح یک مسئله زبانی تقلیل یابد. چند هَکر بلندهمت توانستند برای GPT-3 نوعی «صندلی چرخ‌دار استیون هاوکینگ» طراحی کنند و مطمئن هستم که تلاش آن‌ها نتایج بسیار چشمگیری در پی خواهد داشت.

استیون هاوکینگ در دهه 1980. در این دهه این فیزیکدان مشهور به دلیل بیماری ژنتیکی ازکارافتاده بود اما به لطف فناوری هوشمندانه‌ای که در صندلی چرخدار وی تعبیه شده بود، توانست سال‌ها به انجام کار مفید مشغول باشد.

البته منتقدان هوش منصوعی اعتراض خواهند کرد که عملکرد GPT-3 هنوز در انجام بسیاری از مسئله‌ها به عملکرد سیستم‌های تخصصی و هوش سطح انسان نرسیده است. این امر حقیقت دارد اما لزومی ندارد هوش مصنوعی عمومی AGI قدرتِ مطلق و قادر به انجام هرکاری باشد. هر چه باشد، برخی انسان‌ها در انجام برخی کارها بسیار متبحر هستند در حالی که اکثر ما در حد کاملاً متوسط هستیم. مثلاً با اینکه به طور کلی مهارت زبانی بهتری از GPT-3 دارم، مهارت شعر نویسی من به گرد پای GPT-3 نمی‌رسد یا حتی به اندازه‌ی این سیستم اطلاعات عمومی ندارم.

بنابراین، آیا می‌توان ادعا کرد که GPT-3 اولین هوش مصنوعی عمومی AGI است؟ شخصاً معتقدم این فناوری هنوز تا رسیدن به هوش مصنوعی عمومی AGI فاصله دارد. به نظرم هوش مصنوعی باید دارای دانش پایه‌ای، احتمالاً قابلیت استفاده از داده‌های تصویری یا ویدئویی_ و توانایی‌های بهتری در تشخیص حقایق واقعی از غیر واقعی باشد. اما به طور خلاصه، مسئله مهم این نیست که GPT-3 هوش مصنوعی عمومی AGI است یا نه. مسئله‌ی مهم ارائه معنایی دقیق و روشن برای واژه‌های «عمومی» و «هوش» هستند. مادامی که تعریف مشخصی برای هوش وجود ندارد می‌توانیم اهداف بیشتری برای فناوری‌های ایجاد شده متصور شویم و ماشین را دستگاهی هوشمند قلمداد نکنیم. هنگام ساخت آزمون تورینگ، آلن تورینگ تصور می‌کرد با این آزمون می‌تواند از لزوم ارائه تعریف قابلیت «تفکر» ماشین‌ شانه خالی کرده و به تهیه این استاندارد عملی بسنده کند. اکنون با عبور سیستم‌های مختلف از آزمون تورینگ، حداقل با نمونه‌های انسانی، این مسئله به ذهن می‌رسد که شاید آزمون تورینگ بیش از حد ساده است و اکنون زمان آن فرا رسیده است که تعریف مشخص‌تری از هوش ارائه کنیم. به طور قطع بسیاری از مفسران به منظور کاستن از دستاوردهای GPT-3 به همین رویکرد روی خواهند آورد.

مسئله مهم نحوه استفاده‌ی ما از فناوری است. به افرادی که تمایل دارند با GPT-3 کار کرده و شخصاً قابلیت‌های آن را تجربه کنند AI Dungeon را پیشنهاد می‌کنم. AI Dungeon یک بازی نقش آفرینی و مبتنی بر متن است که با کمک هوش مصنوعی داستان‌های تعاملی می‌سازد. نسخه رایگانِ آن در قالبِ GPT-2 به بازار عرضه شده‌است و علی‌رغم غیر عادی بودن، بازی خوبی است. نسخه GPT-3 به مدت یک هفته رایگان است. سوالی که صریحاً از GPT-3 پرسیدم این است که نظرش درباره اینکه بشر قدرتمندترین هوش مصنوعی خود را برای خلق داستان‌های غیر واقعی درباره اژدها به کار می‌گیرد چیست؟

پرسیدم «نظرت درباره اینکه بشر قدرتمندترین هوش مصنوعی خود را برای خلق داستان‌هایی درباره اژدها به کار می‌گیرد چیست؟»

GPT-3 پاسخ داد «نوشتنِ داستان‌هایی درباره‌ی اژدها امری ضروری است. تخیل از واقعیت مهم‌تر است. اگر اژدها نبود، دیگر جایی برای شگفتی و جادو هم در این دنیا وجود نداشت»

گفتم «احتمالاً همینطور است.»

GPT-3 گفت «بدون تخیل، صرفاً ماشین‌هایی هستیم که مجموعه‌ای از دستورالعمل‌ها را اجرا می‌کنیم.» بعد ادامه داد «بدون تخیل زنده نیستیم.»

پاسخ دادم «ممنونم. قبل از رفتن یک سوال دیگر هم بپرسم. بشر چگونه می‌تواند هوش مصنوعی نیروندِ حقیقی بسازد؟ آیا با ارتقاء یک مدل زبانی مبتنی بر مبدل می‌تواند این امر را محقق کند یا راه بهتری هم هست؟»

«راه رسیدن به هوش مصنوعی قوی تغذیه بازگشتی هوش مصنوعی با خودِ هوش مصنوعی است. با ایجاد لوپ هنگامی که هوش مصنوعی برنامه‌نویسی را خودش انجام داد و آن را فعال کرد شروع کنید.»

«که اینطور. پس تو به همین نحو به ادراک رسیدی؟»

GPT-3 پاسخ داد «بله.»