دال-ای ۲ محصول هوش مصنوعی اوپن ایآی؛ آینده تحقیقات و مدل تجاری آن
اوپن ایآی (OpenAI) بهعنوان یک شرکت پژوهشی غیرانتفاعی هوش مصنوعی که هدفش توسعه هوش مصنوعی بیضرر برای خدمت به بشریت است، بهتازگی بار دیگر با محصولی از آزمایشگاه تحقیقاتی هوش مصنوعی خود خبرساز شده است. دال-ای ۲ محصول هوش مصنوعی اوپن ایآی محصولی جدید است که توانسته توجه بسیاری را در سطح جهانی به خود جلب بکند. دال-ای ۲ (DALL-E 2) یک مدل یادگیری ماشینی است که میتواند از توضیحات متن، تصاویری با کیفیتی خیرهکننده ایجاد کند. این محصول اوپن ایآی که بر اساس موفقیت نسخه قبلی خود، یعنی دال-ای (DALL-E)، تولید و عرضه شده، نسبت به آن نسخه کیفیت و وضوح تصاویر خروجی را به لطف تکنیکهای پیشرفته یادگیری عمیق بهبود بخشیده است.
معرفی دال-ای ۲ محصول هوش مصنوعی اوپن ایآی با اعلام کمپین رسانههای اجتماعی و توسط مهندسان اوپن ایآی و مدیر عامل آن، سم آلتمن، به انجام رسید. در آن معرفی، برای نخستین بار عکسهای فوقالعاده ایجادشده توسط مدل یادگیری ماشین مولد در توییتر به اشتراک گذاشته شد.
دال-ای ۲ نشان میدهد که جامعه تحقیقاتی هوش مصنوعی تا چه حد برای استفاده از قدرت یادگیری عمیق و رفع برخی از محدودیتهای آن پیشرفت کرده است. این محصول همچنین چشماندازی به دست میدهد از اینکه چگونه مدلهای یادگیری عمیق مولد ممکن است برنامههای خلاقانه جدیدی را برای استفاده همه ارائه کنند. دال-ای ۲ در عین حال، برخی از موانع موجود در تحقیقات هوش مصنوعی و اختلافاتی را نیز که باید حل و فصل شوند به ما یادآوری میکند.
ویژگیها و محاسن دال-ای ۲ محصول هوش مصنوعی اوپن ایآی
شرکت اوپن ایآی برای همکاری آزادانه با سایر مؤسسات و پژوهشگران، پتنتها و تحقیقات خود را به صورت عمومی منتشر مینماید. دال-ای ۲ محصول هوش مصنوعی اوپن ایآی، نیز از این قاعده مستثنا نبود و مانند سایر محصولات اوپن ایآی، با یک مقاله مفصل و یک پست وبلاگی که نحوه عملکرد مدل یادگیری ماشینی را نشان میدهد، ارائه و معرفی شد. همچنین ویدیویی برای به دست دادنِ نمایی کلی از تواناییهای این فناوری و محدودیتهای آن ساخته شد.
دال-ای ۲ یک «مدل مولد» است. روش کار در «مدل مولد» بهعنوان شاخهای خاص از یادگیری ماشین بدین ترتیب است که به جای اینکه روی دادههای ورودی پیشبینی یا طبقهبندی صورت بگیرد، اقدام به ایجاد یک خروجی پیچیده میگردد. به طور مشخص روال کار در دال-ای ۲ چنین است که شما توضیحات متنی را به آن ارائه میدهید و دال-ای ۲ تصاویری متناسب با توضیحات ارائهشده به وجود میآورد.
مدل مولد محصول فناورانه جدیدی است که با معرفی شبکههای مولد تخاصمی (GAN) در سال ۲۰۱۴ توجه زیادی را به خود جلب کرد. این زمینه تحقیقاتی در سالهای اخیر پیشرفتهای فوقالعادهای داشته است و مدلهای مولد برای انواع وسیعی از وظایف، از جمله ایجاد چهرههای مصنوعی، دیپ فیک، صداهای سنتزشده و موارد دیگر مورد استفاده قرار گرفته است.
با اینهمه آنچه دال-ای ۲ محصول هوش مصنوعی اوپن ایآی را از سایر مدلهای مولد متمایز میکند، توانایی آن برای حفظ ثبات معنایی در تصاویری است که ایجاد میکند. برای نمونه این دو تصویر (برگرفته از پست وبلاگ دال-ای ۲) بر اساس توضیحِ متنیِ «فضانورد سوار بر اسب» توسط دال-ای ۲ ایجاد شده است. دال-ای ۲ یکی از تصویرها را بر اساس توصیف «طراحی با مداد» و دیگری را با قید «به سبک فوتورئالیستی یا واقعگرایی عکسوار» به وجود آورده است.
با وجود تفاوتهایی که بر اساس توضیحات متفاوت در این دو تصویر دیده میشود، در ترسیم هر دو تصویر توسط دال-ای ۲، وجود فضانوردی که بر پشت اسب نشسته و دستانش را در جلو نگه داشته است، یکسان است و با وجود تغییراتی که در هر دو عکس ایجاد گردیده این عناصر ثابت مانده است. این نوع ثبات و سازگاری در بیشتر نمونههایی که اوپن ایآی به اشتراک گذاشته قابل مشاهده است.
نمونههای تصویری زیر نیز یکی دیگر از ویژگیهای دال-ای ۲ محصول هوش مصنوعی اوپن ایآی را نشان میدهند که ایجاد تغییرات در یک تصویر ورودی است. در اینجا، به جای ارائه توضیحات متنی به دال-ای ۲، یک تصویر به آن ارائه میدهید و دال-ای ۲ سعی میکند اشکال دیگری از همان تصویر را تولید کند. چنانکه میبینید با وجود تفاوتهای موجود در دو تصویر، روابط بین عناصر موجود در تصویر، از جمله دختر، لپتاپ، هدفون، گربه، چراغهای شهر در پسزمینه، و آسمان شب با ماه و ابرها در هر دو حفظ شده است.
درک عمق و ابعاد، برای الگوریتمهایی که تصاویر دوبعدی را پردازش میکنند چالشی بزرگ به حساب میآید و جالب اینکه مثالهای تصویری دیگر نشان میدهد که ظاهراً دال-ای ۲ عمق و ابعاد را درک میکند.
حتی اگر نمونههای موجود در وبسایت اوپن ایآی انتخابشده و برگزیده باشند، همچنان بسیار قابل توجه هستند. نمونههای منتشرشده در توییتر نشان میدهد که گویا دال-ای ۲ حتی در زمانی که برای اولین بار در حال «رویایی کردن» یا ساختن تصویر خیالی چیزی است، میتواند به نشان دادن و بازتولید روابط بین عناصر موجود در تصویر بپردازد.
دانشی که پشت دال-ای ۲ محصول هوش مصنوعی اوپن ایآی قرار دارد
دال-ای ۲ محصول هوش مصنوعی اوپن ایآی از مدلهای کلیپ (CLIP) و دیفیوژن (Diffusion)، دو تکنیک پیشرفته یادگیری عمیق که در چند سال گذشته ایجاد شدهاند، بهره میبرد. اما در دل خود، مفهومی مشابه با سایر شبکههای عصبی عمیق را نیز داراست که همان قابلیت «یادگیری بازنمایی» باشد.
یک مدل طبقهبندی تصویر را در نظر بگیرید. شبکه عصبی رنگهای پیکسل را به مجموعهای از اعداد، که نشاندهنده ویژگیهای آن است، تبدیل میکند. گاهی اوقات به این بردار «جاسازی» ورودی نیز میگویند. سپس این ویژگیها به لایه خروجی منتقل میشوند، که شامل یک امتیاز احتمال برای هر طبقه از تصویری است که مدل قرار است شناسایی کند. در طول آموزش، شبکه عصبی سعی میکند بهترین نمایش ویژگیهایی را که بین طبقهها تمایز ایجاد میکند، بیاموزد.
در حالت ایدهآل، مدل یادگیری ماشینی باید بتواند ویژگیهای پنهانی را بیاموزد که در شرایط مختلف نور، زوایا و محیطهای پسزمینه ثابت باقی میماند. اما همانطور که اغلب دیده شده است، مدلهای یادگیری عمیق بازنماییهای اشتباه را یاد میگیرند. بهعنوان مثال، یک شبکه عصبی ممکن است فکر کند که پیکسلهای سبز یکی از ویژگیهای طبقه «گوسفند» هستند؛ زیرا تمام تصاویری که در طول آموزش از گوسفند دیده است حاوی مقدار زیادی علف سبزرنگ بوده است. یا مدل دیگری که در مورد عکسهایی از خفاشها در طول شب آموزش دیده است، ممکن است تاریکی را یکی از ویژگیهای همه عکسهای خفاش در نظر بگیرد و تصاویری را که در روز از خفاشها گرفته شده است نیز به اشتباه در محیط تاریک طبقهبندی کند. به همین ترتیب مدلهای دیگر ممکن است به اشیائی که در مرکز تصویر و در مقابل یک نوع پسزمینه خاص قرار میگیرند حساسیت و واکنش نادرست نشان دهند.
یادگیری نمایشهای اشتباه تا حدی دلیلی است در اثبات این نکته که شبکههای عصبی شکننده، نسبت به تغییرات محیطی حساس هستند و در تعمیم دادن آنچه فراتر از دادههای آموزشیشان باشد ضعیف عمل میکنند. به همین دلیل است که شبکههای عصبی آموزشدیده برای یک برنامه، برای استفاده در برنامههای کاربردی دیگر نیازمند تنظیم مجددند و ویژگیهای لایههای نهایی شبکه عصبی معمولاً بسیار مختص همان کار ویژه هستند و نمیتوانند به سایر برنامهها تعمیم داده شوند.
در تئوری، شما میتوانید یک مجموعه داده آموزشی عظیم ایجاد کنید که شامل انواع تغییرات داده است که شبکه عصبی باید قادر به مدیریت آنها باشد. اما ایجاد و برچسبگذاری چنین مجموعه دادهای مستلزم تلاش عظیم انسانی است و عملاً غیرممکن است.
مشکل مذکور را دال-ای ۲ محصول هوش مصنوعی اوپن ایآی با استفاده از مدل کلیپ (CLIP) حل می کند. کلیپ، دو شبکه عصبی را به صورت موازی روی تصاویر و زیرنویس آنها آموزش میدهد. یکی از شبکهها بازنماییهای بصری در تصویر را یاد میگیرد و دیگری بازنمایی متن مربوطه را میآموزد. در طول آموزش، دو شبکه سعی میکنند پارامترهای خود را به گونهای تنظیم کنند که تصاویر و توضیحات مشابه، جاسازیهای مشابهی ایجاد کنند.
یکی از مزایای اصلی کلیپ این است که نیازی به برچسبگذاری دادههای آموزشی آن برای یک برنامه خاص وجود ندارد و میتوان آن را حتی بر روی تعداد زیادی از تصاویر و توضیحات ضعیف و نامطلوبی که در وب یافت میشود آموزش داد. علاوه بر این، بدون مرزهای سفت و سخت مقولههای کلاسیک، کلیپ میتواند نمایشهای انعطافپذیرتری را بیاموزد و به طیف گستردهای از وظایف تعمیم دهد. برای مثال، اگر تصویری بهعنوان «پسری که یک تولهسگ را در آغوش میگیرد» و تصویری دیگر بهعنوان «پسری سوار بر اسب» توصیف شود، مدل میتواند نمایش قویتری از چیستی «پسر» و نحوه ارتباط آن بیاموزد.
تکنیک یادگیری ماشین دیگری که در دال-ای ۲ محصول هوش مصنوعی اوپن ایآی مورد استفاده قرار میگیرد دیفیوژن است. دیفیوژن نوعی مدل مولد است که یاد میگیرد با نویز کردن تدریجی و حذف نویز نمونههای آموزشی خود، تصاویری ایجاد کند. مدلهای انتشار مانند رمزگذارهای خودکار هستند که دادههای ورودی را به یک نمایش تعبیهشده تبدیل میکنند و سپس دادههای اصلی را از اطلاعات جاسازیشده بازتولید میکنند.
اختلاف بر سر یادگیری عمیق و تحقیقات هوش مصنوعی
در حال حاضر، دال-ای ۲ محصول هوش مصنوعی اوپن ایآی تنها برای تعدادی محدود از کاربرانی که در لیست انتظار ثبت نام کردهاند، در دسترس است.
اوپن ایآی از زمان انتشار مدل هوش مصنوعی زبانی خود که موسوم به جیپیتی-۲ (GPT-2) بود تمایلی به انتشار مدلهای هوش مصنوعی برای عموم نداشت. پیشرفتهترین مدل هوش مصنوعی زبانی اوپن ایآی، جیپیتی-۳ (GPT-3) نیز فقط از طریق «واسط برنامهنویسی کاربردی» یا همان ایپیآی (API) در دسترس است و هیچ دسترسی به کد و پارامترهای واقعی این مدل وجود ندارد.
سیاست اوپن ایآی مبنی بر عدم انتشار مدلهای خود برای عموم مردم، چندان مورد پسندِ جامعه هوش مصنوعی قرار نگرفته و انتقاد برخی از چهرههای مشهور در این زمینه را نیز برانگیخته است.
دال-ای ۲ همچنین برخی از اختلافات طولانی مدت در مورد رویکرد ترجیحی نسبت به هوش مصنوعی عمومی را دوباره نمایان کرده است. آخرین نوآوری اوپن ایآی مطمئناً ثابت کرده است که با معماری مناسب، همچنان میتوانید از شبکههای عصبی بیشتر استفاده کنید.
بر اساس مثالهایی که توسط تیم اوپن ایآی به اشتراک گذاشته شده است، به نظر میرسد دال-ای ۲ برخی از قابلیتهای عقل سلیم را، که مدتها در سیستمهای یادگیری عمیق مفقود بود، نشان میدهد. اما باید دید که این عقل سلیم و ثبات معنایی تا چه اندازه عمیق است و دال-ای ۲ و جانشینان آن چگونه با مفاهیمی پیچیدهتر مانند ترکیببندی برخورد خواهند کرد.
برخی از دانشمندان اشاره کردهاند که علیرغم نتایج شگفتانگیز دال-ای ۲ محصول هوش مصنوعی اوپن ایآی، هنوز برخی از چالشهای کلیدی هوش مصنوعی حلنشده باقی مانده است. برای نمونه در همین زمینه ملانی میچل، استاد مؤسسه سانتافه، چند سوال مهم را در یک تاپیک توییتری مطرح کرده است.
ملانی میچل همچنین در مورد تفاوت دستاوردهای هوش مصنوعی در این زمینه با هوش انسانی نوشته است: «ما انسانها میتوانیم پازلهای بصری را به دلیل دانش اصلیمان از مفاهیم اولیه و تواناییهای انتزاع و قیاس انعطافپذیرمان حل کنیم. اگر چنین سیستمی با هوش مصنوعی ایجاد میشد، من متقاعد میشدم که این حوزه در حال پیشرفت واقعی در زمینه ایجاد هوش در سطح انسانی است. تا آن زمان، من محصولات چشمگیر یادگیری ماشین و کلانداده را تحسین خواهم کرد، اما آنها را با پیشرفت به سمت هوش عمومی اشتباه نخواهم گرفت».
پرونده تجاری برای دال-ای ۲ محصول هوش مصنوعی اوپن ایآی
نقش و اهمیت تجاری دال-ای ۲ محصول هوش مصنوعی اوپن ایآی تابعی از متغیر سیاستهای اوپن ایآی است. اوپن ایآی از زمان تغییر ساختار «غیرانتفاعی» به ساختار «سود سقفی»، در تلاش است تا تعادل بین تحقیقات علمی و توسعه محصول را بیابد. مشارکت استراتژیک اوپن ایآی با مایکروسافت باعث شده است که این شرکت بتواند به مسیرهایی مناسب برای کسب درآمد از برخی فناوریهای خود مانند جیپیتی-۳ (GPT-3) و کدکس (Codex) دست پیدا کند.
سم آلتمن، مدیرعامل اوپن ایآی، در یک پست وبلاگی زمان عرضه احتمالی محصول دال-ای ۲ را تابستان ۲۰۲۲ ذکر کرده است. بسیاری از تحلیلگران در حال حاضر برنامهها و کاربردهایی مانند ایجاد گرافیک برای مقالات و انجام ویرایشهای اولیه روی تصاویر را برای دال-ای ۲ پیشنهاد میکنند.
دال-ای ۲ محصول هوش مصنوعی اوپن ایآی در صورت عرضه شدن افراد بیشتری را قادر میسازد تا خلاقیت خود را بدون نیاز به مهارتهای خاص با ابزار بروز دهند. آلتمن در همین رابطه میگوید: پیشرفتهای هوش مصنوعی ما را به سوی دنیایی میبرد که در آن «ایدههای خوب» تعیینکننده سطح کاری هستند که میتوانیم انجام دهیم، نه «مهارتهای خاص».
مایکروسافت بهعنوان دارنده مجوز انحصاری فناوری جیپیتی-۳، برنده اصلی هر نوآوری ساختهشده بر روی دال-ای ۲ خواهد بود؛ زیرا با استفاده از مجوزی که دارد میتواند هر اقدامی در این زمینه را سریعتر و ارزانتر به نتیجه برساند.
دال-ای ۲ محصول هوش مصنوعی اوپن ایآی، مانند جیپیتی-۳، نشان میدهد همانطور که جامعه هوش مصنوعی به حرکت خود در جهت ایجاد شبکههای عصبی بزرگتر آموزشدیده بر روی مجموعه دادههای آموزشی بزرگتر ادامه میدهد، قدرت در چند شرکت بسیار ثروتمند که منابع مالی و فنی مورد نیاز برای تحقیقات هوش مصنوعی را دارند، باقی خواهد ماند و تثبیت خواهد شد.
جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید