اوپنایآی با ژنراتورهای سهبعدی، دنیای هوش مصنوعی را طوفانی میکند
شرکت اوپنایآی OpenAI ، فناوری جدید خود Point-Eرا منتشر میکند؛ این فناوری جدید OpenAI یک فناوری مبتنی بر هوش مصنوعی است که مدلهای سهبعدی تولید میکند.
پیشرفت بعدی که دنیای هوش مصنوعی را طوفانی میکند، ممکن است ژنراتورهای مدل سهبعدی باشد.
در هفتهای که گذشت، شرکت OpenAI منبعِ بازِ محصول Point-E را منتشر کرد؛ این یک سیستم یادگیری ماشینی است که با یک پیام متنی، تصویر شیء را بهصورت سهبعدی ایجاد میکند.
طبق مقالهای که در کنار کد پایه منتشرشده است، Point-E میتواند مدلهای سهبعدی را در یک تا دو دقیقه روی یک واحد گرافیکی Nvidia V100 تولید کند.
Point-E اشیاء سهبعدی را به معنای سنتی ایجاد نمیکند، در عوض ابرهای نقطهای یا مجموعهای مجزا از نقاط داده در فضا تولید میکند که در کنار هم یک شکل سهبعدی را نشان میدهند و از این رو مخفف گسسته است. (حرف “E” در Point-E مخفف واژه «کارآمدی» است، زیرا ظاهراً سریعتر از رویکردهای قبلی تولید اشیاء سهبعدی عمل میکند.)
ترکیب ابرهای نقطهای از دیدگاه محاسباتی آسانتر است، اما آنها شکل یا بافت ریزدانه یک شیء را نمیگیرند که این یک محدودیت کلیدی Point-E در حال حاضر است. برای دور زدن این محدودیت، تیم Point-E یک سیستم هوش مصنوعی اضافی را آموزش داد تا ابرهای نقطهای Point-E را به «مِشهای خطی» تبدیل کند.
(مِشهای خطی، مجموعهای از رئوس، لبهها و وجههایی که یک شیء را تعریف میکنند، معمولاً در مدلسازی و طراحی سهبعدی استفاده میشوند.)
اما آنها در مقاله خاطرنشان میکنند که مدل گاهی اوقات ممکن است قسمتهای خاصی از اشیاء را از دست بدهد و درنتیجه شکلهای بلوک یا مخدوش ایجاد شوند.
خارج از مدل مولد مِش، که بهتنهایی وجود دارد، Point-E از دو مدل دیگر نیز تشکیلشده است: یکی مدلِ متن به تصویر و دیگری تصویرِ دوبعدی به سهبعدی.
مدل متن به تصویر، شبیه به سیستمهای تولیدگر هنری مانند DALL-E 2 و Stable Diffusion برای OpenAI است؛ برای درک ارتباط بین کلمات و مفاهیم بصری بر روی تصاویر برچسبگذاریشده آموزش داده است.
از سوی دیگر، مدل تصویر دوبعدی به سهبعدی، مجموعهای از تصاویر جفت شده با اشیاء سهبعدی را دریافت میکند تا یاد بگیرد که بهطور مؤثر بین این دو را ترجمه کند. هنگامیکه یک پیام متنی داده میشود، برای مثال، یک چرخدنده قابلِچاپ سهبعدی به قطر 3 اینچ و ضخامت نیم اینچ؛ مدل متن به تصویرِ Point-E یک شیء برای رندر مصنوعی تولید میکند که به مدل تصویر به سهبعدی تغذیه میشود و سپس یک مدل ابری نقطهای تولید میکند.
به گفته محققان OpenAI، پس از آموزش مدلها بر روی مجموعه دادهای از «چند میلیون» شیء سهبعدی و اَبَرداده مرتبط، Point-E میتواند مدلهای ابری-نقطهایِ رنگی تولید کند که اغلب با درخواستهای متنی مطابقت دارند.
و البته که سیستم همیشه خوب کار نمیکند و مدل تصویرِ دوبعدی به سهبعدی Point-E گاهی اوقات نمیتواند تصویر را از مدل متن به تصویر درک کند، درنتیجه شکلی ایجاد میشود که با درخواست متن مطابقت ندارد؛ بااینحال، حداقل طبق گفته تیمِ OpenAI، سرعت آن نسبت به فناوریهای قبلی پیشرفتهتر و بیشتر است.