توصیف آینده و هوش مصنوعی از زبان دانشمند نخبه، جفری هینتون
انقلاب مدرن هوش مصنوعی در مسابقهای تحقیقاتی و البته مبهم آغاز شد. سال 2012 بود، سومین سال مسابقات ایمیج نت
ImageNet، تیمها برای ساخت سیستمی با دید کامپیوتری که بتواند هزار شیء از حیوانات گرفته تا افراد، را تشخیص دهد، به چالش کشیده شده بودند.
در دو سال اول، بهترین تیمها حتی نتوانسته بودند به دقت 75% برسند. اما در سال سوم، یک گروه که از 3 محقق تشکیل شده بود (یک استاد و شاگردانش)، ناگهان توانست به سقف دقت برسد. آنها توانستند مسابقات را با 10.8% امتیازها ببرند. استادی که به همراه شاگردانش به این موفقیت رسیده بود، جفری هینتون و تکنیک مورد استفادهاش یادگیری عمیق بود.
هینتون از دهه 80 میلادی با یادگیری عمیق کار کرده بود، اما تاثیرگذاری آن به خاطر عدم وجود داده و قدرت پردازشی مناسب، محدود بود. اما اعتقادی که او به روش کارش داشت در نهایت نتیجه داد. در چهارمین سال ایمیج نت، تقریبا همه تیمها از یادگیری عمیق استفاده کردند و کارهایشان دقت قابل توجهی داشت. خیلی زود یادگیری عمیق در وظایف بسیاری به کار برده شد، وظایفی فراتر از تشخیص چهره و البته در بسیاری از صنایع.
سال گذشته هینتون به دلیل پیشرفت چشمگیری که در این زمینه ایجاد کرده بود، توانست جایزه تورینگ Turing Award را از آن خود کند. در کنار او نخبگان دیگر هوش مصنوعی یان لیکون و یوشوا بنجیو هم توانستند این جایزه را دریافت کنند. در تاریخ 20 اکتبر هینتون گفتگویی درباره آینده و هوش مصنوعی کرده است.
به نظر شما یادگیری عمیق برای تقلید از هوش انسانی کافی است؟ چطور به این نتیجه رسیدید؟
من معتقدم یادگیری عمیق در مسیری قرار دارد که در آینده میتواند هر کاری انجام دهد. قرار است شاهد پیشرفتهای جهشی فوقالعادهای در این زمینه باشیم. برای مثال، در سال 2017 آشیش واسوانیت، دگرگونیهایی ایجاد کرد و توانست لغت جدیدی را معنی کند. این یک پیشرفت بزرگ بود. از این پیشرفتها حالا در بسیاری از پروسههای زبان طبیعی استفاده میشود. اما به پیشرفتهای اینچنینی بیشتری نیاز داریم.
اگر این پیشرفتها را داشته باشیم میتوانیم توسط یادگیری عمیق به هوش انسانی نزدیک شویم؟
بله، پیشرفتها به چگونگی دستیابی به فعالیت بردارهای عصبی منجر میشوند و برای این کار باید از به کارگیری راهحلها استفاده کرد. اما ما به افزایش مقیاس هم نیاز داریم. مغز انسان حدود یکصد ترلیون پارامتر دارد. اما بزرگترین مدلی که ما میشناسیم و GPT-3 نام دارد، 175 میلیارد پارامتر دارد. یعنی هزار بار کوچکتر از یک مغز. GPT-3 میتواند متون بینظیری تولید کند و هنوز هم در مقایسه با مغز ضعیف است.
وقتی میگویید مقیاس، منظورتان شبکههای عصبی بزرگتر، دادههای بیشتر یا هر دو است؟
هردو. بین چیزی که در علم کامپیوتر اتفاق میافتد یا چیزی که برای مردم رخ میدهد، تفاوت زیادی وجود دارد. مردم در مقایسه با دادهای که میگیرند، پارامتر زیادی دارند. شبکههای عصبی اما به طرز شگفتآوری با میزان کم داده به خوبی کنار میآیند و پارامترهای خوبی ارائه میدهند. اما باز هم به خوبی انسانها نیستند.
بسیاری از افراد حاضر در این زمینه معتقدند که رسیدن عقل سلیم هدف بعدی است. آیا شما موافقید؟
موافقم که موضوع بسیار مهمی است. همچنین فکر میکنم کنترل موتوری هم بسیار مهم است، همچنین شبکههای عصبی عمیق در حال رشد و بهتر شدن هستند. برخی اقدامات اخیر گوگل نشان داده که میتوانید به کنترل موتوری دست یابید و آن را با زبان ادغام کنید، در نتیجه میتوانید یک کشو را باز کنید و یک مجموعه را بیرون بکشید و سیستم هم با زبان طبیعی به شما بگوید که در حال انجام چه کاری هستید.
برای GPT-3 که چنین متون بینظیری را تولید میکنند، طبیعتا نیاز به فهم بسیار برای تولید یک متن است. اما هنوز واضح نیست که چقدر فهم وجود دارد. اما اگر نیرویی کشو را باز کند، مجموعهای را بیرون بیاورد و بگوید «من کشو را باز کردم و یک مجموعه را بیرون آوردم» سخت است که بگوییم نتوانسته بفهمد که در حال انجام چه کاری است.
هوش مصنوعی همواره به مغز انسان به عنوان بزرگترین منبع الهام نگاه کرده است و رویکردهای متفاوت در این زمینه همواره حاصل تئوریهای مختلف در زمینه علوم شناختی بوده است. به نظرتان مغز تصویری از دنیای بیرون برای فهم آن میسازد، یا این که یک روش مفید فکر کردن درباره آن دارد؟
مدتها قبل در علوم شناختی بین درستی دو نوع طرز فکر تردید وجود داشت. یکی مربوط به استفن کوسلین بود که به نظرش وقتی شما تصاویر را در ذهنتان دستکاری میکنید، چیزی که به دست میآورید ردیفی از پیکسلها است که شما آنها را تکان میدهید.
نظریه دیگر اما بیشتر به هوش مصنوعی شبیه بود و بر اساس آن این غیر منطقی بود. از نظر این نظریه سلسله مراتب باعث توصیف ساختار میشد، یعنی شما در ذهنتان ساختاری سمبلیک دارید و این همان چیزی است که شما دستکاری میکنید.
اما به نظرم هر دو یک اشتباه داشتند. کوسلین فکر میکرد ما پیکسلها را دستکاری میکنیم، چون تصاویر خارجی از پیکسل تشکیل میشوند. اما افراد سمبلیک معتقدند ما سمبلها را دستکاری میکنیم، چون سمبلها هستند که باعث تشخیص ما میشوند. به نظر من هر دو اشتباه هستند. چیزی که در مغز است فقط بردارهای عظیم فعالیتهای عصبی است.
افرادی هستند که هنوز هم معتقدند رویکردی سمبلیک یکی از منابع الهام هوش مصنوعی است.
من دوستان خوبی مانند هکتور لوزکو دارم که عمیقا به رویکرد سمبلیک اعتقاد دارد و ما کارهای بزرگی هم در این زمینه انجام دادیم. اما من با او مخالفم. هرچند که نظریه سمبلیک لایق امتحان شدن بوده است. در پایان حدس من این است که ما سمبلها را فقط در صورتی که در دنیای واقعی باشند، تشخیص میدهیم و عملیات داخلی بر اساس بردارهای داخلی است.
شما با کدامیک از نظریهها درباره آینده و هوش مصنوعی بیش از باقی مخالفید؟
خب مشکل اینجاست که من مخالفتهایی دارم و پنج سال بعد تبدیل به جریان اصلی کار میشوند. بسیاری از مسائلی که من از دهه 80 با آنها مخالف بودم، امروزه به عنوان جریان اصلی پذیرفته شدهاند و خیلی سخت است که کسی را پیدا کنیم که به آنها مخالف باشند. در نتیجه حالا من درباره مخالفتهایم به نوعی عقبنشینی کردهام.