دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی؛ آینده تحقیقات و مدل تجاری آن

تیم تحریریه
۴ اردیبهشت ۱۴۰۱

زمان مطالعه: 8 دقیقه

اوپن ای‌آی (OpenAI) به‌عنوان یک شرکت پژوهشی غیرانتفاعی هوش مصنوعی که هدفش توسعه هوش مصنوعی بی‌ضرر برای خدمت به بشریت است، به‌تازگی بار دیگر با محصولی از آزمایشگاه تحقیقاتی هوش مصنوعی خود خبرساز شده است. دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی محصولی جدید است که توانسته توجه بسیاری را در سطح جهانی به خود جلب بکند. دال-ای ۲ (DALL-E 2) یک مدل یادگیری ماشینی است که می‌تواند از توضیحات متن، تصاویری با کیفیتی خیره‌کننده ایجاد کند. این محصول اوپن ای‌آی که بر اساس موفقیت نسخه قبلی خود، یعنی دال-ای (DALL-E)، تولید و عرضه شده، نسبت به آن نسخه کیفیت و وضوح تصاویر خروجی را به لطف تکنیک‌های پیشرفته یادگیری عمیق بهبود بخشیده است.

معرفی دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی با اعلام کمپین رسانه‌های اجتماعی و توسط مهندسان اوپن ای‌آی و مدیر عامل آن، سم آلتمن، به انجام رسید. در آن معرفی، برای نخستین بار عکس‌های فوق‌العاده ایجادشده توسط مدل یادگیری ماشین مولد در توییتر به اشتراک گذاشته شد.

دال-ای ۲ نشان می‌دهد که جامعه تحقیقاتی هوش مصنوعی تا چه حد برای استفاده از قدرت یادگیری عمیق و رفع برخی از محدودیت‌های آن پیشرفت کرده ‌است. این محصول همچنین چشم‌اندازی به دست می‌دهد از اینکه چگونه مدل‌های یادگیری عمیق مولد ممکن است برنامه‌های خلاقانه جدیدی را برای استفاده همه ارائه کنند. دال-ای ۲ در عین حال، برخی از موانع موجود در تحقیقات هوش مصنوعی و اختلافاتی را نیز که باید حل و فصل شوند به ما یادآوری می‌کند.

فهرست مقاله پنهان

1 ویژگی‌ها و محاسن دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی

2 دانشی که پشت دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی قرار دارد

3 اختلاف بر سر یادگیری عمیق و تحقیقات هوش مصنوعی

4 پرونده تجاری برای دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی

ویژگی‌ها و محاسن دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی

شرکت اوپن ای‌آی برای همکاری آزادانه با سایر مؤسسات و پژوهشگران، پتنت‌ها و تحقیقات خود را به صورت عمومی منتشر می‌نماید. دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی، نیز از این قاعده مستثنا نبود و مانند سایر محصولات اوپن ای‌آی، با یک مقاله مفصل و یک پست وبلاگی که نحوه عملکرد مدل یادگیری ماشینی را نشان می‌دهد، ارائه و معرفی شد. همچنین ویدیویی برای به دست دادنِ نمایی کلی از توانایی‌های این فناوری و محدودیت‌های آن ساخته شد.

دال-ای ۲ یک «مدل مولد» است. روش کار در «مدل مولد» به‌عنوان شاخه‌ای خاص از یادگیری ماشین بدین ترتیب است که به جای اینکه روی داده‌های ورودی پیش‌بینی یا طبقه‌بندی صورت بگیرد، اقدام به ایجاد یک خروجی پیچیده می‌گردد. به طور مشخص روال کار در دال-ای ۲ چنین است که شما توضیحات متنی را به آن ارائه می‌دهید و دال-ای ۲ تصاویری متناسب با توضیحات ارائه‌شده به وجود می‌آورد.

مدل مولد محصول فناورانه جدیدی است که با معرفی شبکه‌های مولد تخاصمی (GAN) در سال ۲۰۱۴ توجه زیادی را به خود جلب کرد. این زمینه تحقیقاتی در سال‌های اخیر پیشرفت‌های فوق‌العاده‌ای داشته است و مدل‌های مولد برای انواع وسیعی از وظایف، از جمله ایجاد چهره‌های مصنوعی، دیپ فیک، صداهای سنتزشده و موارد دیگر مورد استفاده قرار گرفته است.

با این‌همه آنچه دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی را از سایر مدل‌های مولد متمایز می‌کند، توانایی آن برای حفظ ثبات معنایی در تصاویری است که ایجاد می‌کند. برای نمونه این دو تصویر (برگرفته از پست وبلاگ دال-ای ۲) بر اساس توضیحِ متنیِ «فضانورد سوار بر اسب» توسط دال-ای ۲ ایجاد شده است. دال-ای ۲ یکی از تصویرها را بر اساس توصیف‌ «طراحی با مداد» و دیگری را با قید «به سبک فوتورئالیستی یا واقع‌گرایی عکس‌وار» به وجود آورده است.

با وجود تفاوت‌هایی که بر اساس توضیحات متفاوت در این دو تصویر دیده می‌شود، در ترسیم هر دو تصویر توسط دال-ای ۲، وجود فضانوردی که بر پشت اسب نشسته و دستانش را در جلو نگه داشته است، یکسان است و با وجود تغییراتی که در هر دو عکس ایجاد گردیده این عناصر ثابت مانده است. این نوع ثبات و سازگاری در بیشتر نمونه‌هایی که اوپن ای‌آی به اشتراک گذاشته قابل مشاهده است.

نمونه‌های تصویری زیر نیز یکی دیگر از ویژگی‌های دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی را نشان می‌دهند که ایجاد تغییرات در یک تصویر ورودی است. در اینجا، به جای ارائه توضیحات متنی به دال-ای ۲، یک تصویر به آن ارائه می‌دهید و دال-ای ۲ سعی می‌کند اشکال دیگری از همان تصویر را تولید کند. چنان‌که می‌بینید با وجود تفاوت‌های موجود در دو تصویر، روابط بین عناصر موجود در تصویر، از جمله دختر، لپ‌تاپ، هدفون، گربه، چراغ‌های شهر در پس‌زمینه، و آسمان شب با ماه و ابرها در هر دو حفظ شده است.

درک عمق و ابعاد، برای الگوریتم‌هایی که تصاویر دوبعدی را پردازش می‌کنند چالشی بزرگ به حساب می‌آید و جالب اینکه مثال‌های تصویری دیگر نشان می‌دهد که ظاهراً دال-ای ۲ عمق و ابعاد را درک می‌کند.

حتی اگر نمونه‌های موجود در وب‌سایت اوپن ای‌آی انتخاب‌شده و برگزیده باشند، همچنان بسیار قابل توجه هستند. نمونه‌های منتشرشده در توییتر نشان می‌دهد که گویا دال-ای ۲ حتی در زمانی که برای اولین بار در حال «رویایی کردن» یا ساختن تصویر خیالی چیزی است، می‌تواند به نشان دادن و بازتولید روابط بین عناصر موجود در تصویر بپردازد.

دانشی که پشت دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی قرار دارد

دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی از مدل‌های کلیپ (CLIP) و دیفیوژن (Diffusion)، دو تکنیک پیشرفته یادگیری عمیق که در چند سال گذشته ایجاد شده‌اند، بهره می‌برد. اما در دل خود، مفهومی مشابه با سایر شبکه‌های عصبی عمیق را نیز داراست که همان قابلیت «یادگیری بازنمایی» باشد.

یک مدل طبقه‌بندی تصویر را در نظر بگیرید. شبکه عصبی رنگ‌های پیکسل را به مجموعه‌ای از اعداد، که نشان‌دهنده ویژگی‌های آن است، تبدیل می‌کند. گاهی اوقات به این بردار «جاسازی» ورودی نیز می‌گویند. سپس این ویژگی‌ها به لایه خروجی منتقل می‌شوند، که شامل یک امتیاز احتمال برای هر طبقه از تصویری است که مدل قرار است شناسایی کند. در طول آموزش، شبکه عصبی سعی می‌کند بهترین نمایش ویژگی‌هایی را که بین طبقه‌ها تمایز ایجاد می‌کند، بیاموزد.

در حالت ایده‌آل، مدل یادگیری ماشینی باید بتواند ویژگی‌های پنهانی را بیاموزد که در شرایط مختلف نور، زوایا و محیط‌های پس‌زمینه ثابت باقی می‌ماند. اما همان‌طور که اغلب دیده شده است، مدل‌های یادگیری عمیق بازنمایی‌های اشتباه را یاد می‌گیرند. به‌عنوان مثال، یک شبکه عصبی ممکن است فکر کند که پیکسل‌های سبز یکی از ویژگی‌های طبقه «گوسفند» هستند؛ زیرا تمام تصاویری که در طول آموزش از گوسفند دیده است حاوی مقدار زیادی علف سبزرنگ بوده است. یا مدل دیگری که در مورد عکس‌هایی از خفاش‌ها در طول شب آموزش دیده است، ممکن است تاریکی را یکی از ویژگی‌های همه عکس‌های خفاش در نظر بگیرد و تصاویری را که در روز از خفاش‌ها گرفته شده است نیز به اشتباه در محیط تاریک طبقه‌بندی کند. به همین ترتیب مدل‌های دیگر ممکن است به اشیائی که در مرکز تصویر و در مقابل یک نوع پس‌زمینه خاص قرار می‌گیرند حساسیت و واکنش نادرست نشان دهند.

یادگیری نمایش‌های اشتباه تا حدی دلیلی است در اثبات این نکته که شبکه‌های عصبی شکننده، نسبت به تغییرات محیطی حساس هستند و در تعمیم دادن آنچه فراتر از داده‌های آموزشی‌شان باشد ضعیف عمل می‌کنند. به همین دلیل است که شبکه‌های عصبی آموزش‌دیده برای یک برنامه، برای استفاده در برنامه‌های کاربردی دیگر نیازمند تنظیم مجددند و ویژگی‌های لایه‌های نهایی شبکه عصبی معمولاً بسیار مختص همان کار ویژه هستند و نمی‌توانند به سایر برنامه‌ها تعمیم داده شوند.

در تئوری، شما می‌توانید یک مجموعه داده آموزشی عظیم ایجاد کنید که شامل انواع تغییرات داده است که شبکه عصبی باید قادر به مدیریت آن‌ها باشد. اما ایجاد و برچسب‌گذاری چنین مجموعه داده‌ای مستلزم تلاش عظیم انسانی است و عملاً غیرممکن است.

مشکل مذکور را دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی با استفاده از مدل‌ کلیپ (CLIP) حل می کند. کلیپ، دو شبکه عصبی را به صورت موازی روی تصاویر و زیرنویس آن‌ها آموزش می‌دهد. یکی از شبکه‌ها بازنمایی‌های بصری در تصویر را یاد می‌گیرد و دیگری بازنمایی متن مربوطه را می‌آموزد. در طول آموزش، دو شبکه سعی می‌کنند پارامترهای خود را به گونه‌ای تنظیم کنند که تصاویر و توضیحات مشابه، جاسازی‌های مشابهی ایجاد کنند.

یکی از مزایای اصلی کلیپ این است که نیازی به برچسب‌گذاری داده‌های آموزشی آن برای یک برنامه خاص وجود ندارد و می‌توان آن را حتی بر روی تعداد زیادی از تصاویر و توضیحات ضعیف و نامطلوبی که در وب یافت می‌شود آموزش داد. علاوه بر این، بدون مرزهای سفت و سخت مقوله‌های کلاسیک، کلیپ می‌تواند نمایش‌های انعطاف‌پذیرتری را بیاموزد و به طیف گسترده‌ای از وظایف تعمیم دهد. برای مثال، اگر تصویری به‌عنوان «پسری که یک توله‌سگ را در آغوش می‌گیرد» و تصویری دیگر به‌عنوان «پسری سوار بر اسب‌» توصیف شود، مدل می‌تواند نمایش قوی‌تری از چیستی «پسر» و نحوه ارتباط آن بیاموزد.

تکنیک یادگیری ماشین دیگری که در دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی مورد استفاده قرار می‌گیرد دیفیوژن است. دیفیوژن نوعی مدل مولد است که یاد می‌گیرد با نویز کردن تدریجی و حذف نویز نمونه‌های آموزشی خود، تصاویری ایجاد کند. مدل‌های انتشار مانند رمزگذارهای خودکار هستند که داده‌های ورودی را به یک نمایش تعبیه‌شده تبدیل می‌کنند و سپس داده‌های اصلی را از اطلاعات جاسازی‌شده بازتولید می‌کنند.

اختلاف بر سر یادگیری عمیق و تحقیقات هوش مصنوعی

در حال حاضر، دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی تنها برای تعدادی محدود از کاربرانی که در لیست انتظار ثبت نام کرده‌اند، در دسترس است.

اوپن ای‌آی از زمان انتشار مدل هوش مصنوعی زبانی خود که موسوم به جی‌پی‌تی-۲ (GPT-2) بود تمایلی به انتشار مدل‌های هوش مصنوعی برای عموم نداشت. پیشرفته‌ترین مدل هوش مصنوعی زبانی اوپن ای‌آی، جی‌پی‌تی-۳ (GPT-3) نیز فقط از طریق «واسط برنامه‌نویسی کاربردی» یا همان ای‌پی‌آی (API) در دسترس است و هیچ دسترسی به کد و پارامترهای واقعی این مدل وجود ندارد.

سیاست اوپن ای‌آی مبنی بر عدم انتشار مدل‌های خود برای عموم مردم، چندان مورد پسندِ جامعه هوش مصنوعی قرار نگرفته و انتقاد برخی از چهره‌های مشهور در این زمینه را نیز برانگیخته است.

دال-ای ۲ همچنین برخی از اختلافات طولانی مدت در مورد رویکرد ترجیحی نسبت به هوش مصنوعی عمومی را دوباره نمایان کرده است. آخرین نوآوری اوپن ای‌آی مطمئناً ثابت کرده است که با معماری مناسب، همچنان می‌توانید از شبکه‌های عصبی بیشتر استفاده کنید.

اختلاف بر سر یادگیری عمیق و تحقیقات هوش مصنوعی

بر اساس مثال‌هایی که توسط تیم اوپن ای‌آی به اشتراک گذاشته شده است، به نظر می‌رسد دال-ای ۲ برخی از قابلیت‌های عقل سلیم را، که مدت‌ها در سیستم‌های یادگیری عمیق مفقود بود، نشان می‌دهد. اما باید دید که این عقل سلیم و ثبات معنایی تا چه اندازه عمیق است و دال-ای ۲ و جانشینان آن چگونه با مفاهیمی پیچیده‌تر مانند ترکیب‌بندی برخورد خواهند کرد.

برخی از دانشمندان اشاره کرده‌اند که علی‌رغم نتایج شگفت‌انگیز دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی، هنوز برخی از چالش‌های کلیدی هوش مصنوعی حل‌نشده باقی مانده است. برای نمونه در همین زمینه ملانی میچل، استاد مؤسسه سانتافه، چند سوال مهم را در یک تاپیک توییتری مطرح کرده است.

ملانی میچل همچنین در مورد تفاوت دستاوردهای هوش مصنوعی در این زمینه با هوش انسانی نوشته است: «ما انسان‌ها می‌توانیم پازل‌های بصری را به دلیل دانش اصلی‌مان از مفاهیم اولیه و توانایی‌های انتزاع و قیاس انعطاف‌پذیرمان حل کنیم. اگر چنین سیستمی با هوش مصنوعی ایجاد می‌شد، من متقاعد می‌شدم که این حوزه در حال پیشرفت واقعی در زمینه ایجاد هوش در سطح انسانی است. تا آن زمان، من محصولات چشمگیر یادگیری ماشین و کلان‌داده را تحسین خواهم کرد، اما آن‌ها را با پیشرفت به سمت هوش عمومی اشتباه نخواهم گرفت».

پرونده تجاری برای دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی

نقش و اهمیت تجاری دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی تابعی از متغیر سیاست‌های اوپن ای‌آی است. اوپن ای‌آی از زمان تغییر ساختار «غیرانتفاعی» به ساختار «سود سقفی»، در تلاش است تا تعادل بین تحقیقات علمی و توسعه محصول را بیابد. مشارکت استراتژیک اوپن ای‌آی با مایکروسافت باعث شده است که این شرکت بتواند به مسیرهایی مناسب برای کسب درآمد از برخی فناوری‌های خود مانند جی‌پی‌تی-۳ (GPT-3) و کدکس (Codex) دست پیدا کند.

سم آلتمن، مدیرعامل اوپن ای‌آی، در یک پست وبلاگی زمان عرضه احتمالی محصول دال-ای ۲ را تابستان ۲۰۲۲ ذکر کرده است. بسیاری از تحلیلگران در حال حاضر برنامه‌ها و کاربردهایی مانند ایجاد گرافیک برای مقالات و انجام ویرایش‌های اولیه روی تصاویر را برای دال-ای ۲ پیشنهاد می‌کنند.

پرونده تجاری برای دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی

دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی در صورت عرضه شدن افراد بیشتری را قادر می‌سازد تا خلاقیت خود را بدون نیاز به مهارت‌های خاص با ابزار بروز دهند. آلتمن در همین رابطه می‌گوید: پیشرفت‌های هوش مصنوعی ما را به سوی دنیایی می‌برد که در آن «ایده‌های خوب» تعیین‌کننده سطح کاری هستند که می‌توانیم انجام دهیم، نه «مهارت‌های خاص».

مایکروسافت به‌عنوان دارنده مجوز انحصاری فناوری جی‌پی‌تی-۳، برنده اصلی هر نوآوری ساخته‌شده بر روی دال-ای ۲ خواهد بود؛ زیرا با استفاده از مجوزی که دارد می‌تواند هر اقدامی در این زمینه را سریع‌تر و ارزان‌تر به نتیجه برساند.

دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی، مانند جی‌پی‌تی-۳، نشان می‌دهد همان‌طور که جامعه هوش مصنوعی به حرکت خود در جهت ایجاد شبکه‌های عصبی بزرگ‌تر آموزش‌دیده بر روی مجموعه داده‌های آموزشی بزرگ‌تر ادامه می‌دهد، قدرت در چند شرکت بسیار ثروتمند که منابع مالی و فنی مورد نیاز برای تحقیقات هوش مصنوعی را دارند، باقی خواهد ماند و تثبیت خواهد شد.

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید

https://hooshio.com/?p=25967

فعالان هوش مصنوعی

ایران و جهان

مجموعه وبینارهای هوش مصنوعی در عمل؛ از ایده تا اجرا

دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی؛ آینده تحقیقات و مدل تجاری آن

ویژگی‌ها و محاسن دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی

دانشی که پشت دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی قرار دارد

اختلاف بر سر یادگیری عمیق و تحقیقات هوش مصنوعی

پرونده تجاری برای دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی

گروه راک محبوب با یک میلیون شنونده، فقط توهم هوش مصنوعی بود

رمزعبور «۱۲۳۴۵۶» باعث افشای اطلاعات ۶۴ میلیون متقاضی مک‌دونالدز شد

از «ایلان» به «ماسک»

حقوق مهندسان گوگل در عصر طلایی هوش مصنوعی

مهندسی پرامپت را از نزدیک بشناسید

سفری در لبه همه چیز

۱۰ ابزار ویرایش عکس AI برای تحول تصاویر شما در ۲۰۲۵

هوش مصنوعی در کشاورزی و دامپروریی

انقلاب خاموش: چگونه هوش مصنوعی ذهن‌ها را تسخیر کرد؟

ایستادگی زیست بوم هوش مصنوعی ایران در شرایط جنگی

افتتاح حساب بانکی فقط با یک کلیک

«دیتاوست» ترکیب بهینه دارایی را پیشنهاد می‌دهد

گروه راک محبوب با یک میلیون شنونده، فقط توهم هوش مصنوعی بود

رمزعبور «۱۲۳۴۵۶» باعث افشای اطلاعات ۶۴ میلیون متقاضی مک‌دونالدز شد

از «ایلان» به «ماسک»

حقوق مهندسان گوگل در عصر طلایی هوش مصنوعی

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

مهندسی پرامپت را از نزدیک بشناسید

سفری در لبه همه چیز

گروه راک محبوب با یک میلیون شنونده، فقط توهم هوش مصنوعی بود

رمزعبور «۱۲۳۴۵۶» باعث افشای اطلاعات ۶۴ میلیون متقاضی مک‌دونالدز شد

از «ایلان» به «ماسک»

ویژگی‌ها و محاسن دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی

دانشی که پشت دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی قرار دارد

اختلاف بر سر یادگیری عمیق و تحقیقات هوش مصنوعی

پرونده تجاری برای دال-ای ۲ محصول هوش مصنوعی اوپن ای‌آی

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید