آخرین اخبار درباره OpenAI، Google AI و معنای آن برای علم داده
هم گوگل AI و هم OpenAI سابقهای در ارائهی فناوریهای پیشرفتهی هوش مصنوعی دارند. با این حال، با معرفی ChatGPT، شرایط تغییر کرده است. این ابزار رقابت تازهای را آغاز کرده که در آن شرکتهای بزرگ فناوری مانند گوگل، بهسرعت در تلاشاند مدلهای مشابهی از هوش مصنوعی را عرضه کنند.
در این مطلب، با جدیدترین دستاوردهای OpenAI و Google AI آشنا میشویم و بررسی میکنیم که در آینده چه انتظاراتی میتوان داشت. همچنین میبینیم که پیشرفت در حوزهی هوش مصنوعی چگونه زمینهی علم داده (Data Science) را دگرگون کرده و چطور میتوان از آن برای افزایش بهرهوری استفاده کرد.
OpenAI
پلتفرم OpenAI API این امکان را فراهم میکند تا از طریق API به مدلهای مولد و پیشرفتهی هوش مصنوعی دسترسی داشته باشیم. با استفاده از DALLE-2 میتوان تصاویر باکیفیتی تولید کرد، GPT-3 قابلیت تولید متن و کد را دارد و از قابلیتهای embedding میتوان برای سایر وظایف زبانی بهره برد. افزون بر این، این پلتفرم امکاناتی مانند نظارت بر خروجیها، تعیین محدودیت در نرخ درخواستها، و تنظیم مدل بر پایهی دادههای خاص را نیز در اختیار میگذارد.
تمامی این محصولات، تجاری هستند و بر پایهی مدل پرداخت بهازای مصرف (Pay-as-you-go) عمل میکنند. با این حال، OpenAI هر از گاهی ابزارها و مدلهای متنباز نیز منتشر کرده است، از جمله:
- Whisper: مدل تشخیص گفتار که با بهرهگیری از نظارت ضعیف در مقیاس بالا آموزش دیده است.
- OpenAI Baselines: پیادهسازی الگوریتمهای یادگیری تقویتی (Reinforcement Learning).
- Gym: جعبهابزاری برای توسعه و ارزیابی الگوریتمهای یادگیری تقویتی.
- GPT-2: کد و مدل مربوط به مقالهی «مدلهای زبانی، یادگیرندههای چندوظیفهای بدون نظارت هستند».
- DALL-E: بستهی PyTorch برای پیادهسازی VAE گسسته که در DALL·E بهکار رفته است.
اگرچه APIها، جعبهابزارها، و مدلهای زبانی بزرگ ابزارهای بسیار قدرتمندی هستند، اما هیچکدام به موفقیت چشمگیر ChatGPT نرسیدهاند.
مدل ChatGPT با استفاده از تکنیک «یادگیری تقویتی با بازخورد انسانی» (RLHF) آموزش داده شده، مشابه با InstructGPT (نسخهی بهبود یافتهی GPT-3)، با این تفاوت که مرحلهی گردآوری دادهها در آن کمی متفاوت است.
چه چیزی این مدل را از نسلهای پیشین متمایز میکند؟
هوش مصنوعی گفتوگومحور توانایی دارد سوالهای پیدرپی بپرسد، به فرضیههای نادرست واکنش نشان دهد، اشتباهات خود را بپذیرد، و مکانیزمهای ایمنی را بهکار گیرد.
اخیراً شریک OpenAI، یعنی مایکروسافت، نسخهی بهبودیافتهای از ChatGPT را معرفی کرده است. با روند انتشار تدریجی OpenAI، شاهد موج جدیدی از فناوریهای هوش مصنوعی هستیم که نیازهای ما را بهتر درک میکنند و در انجام وظایف مختلف به ما کمک میرسانند.
GPT-4
جدا از ChatGPT، انتظار میرود GPT-4 بهعنوان پیشرفتهترین مدل زبانی بزرگ معرفی شود. در پادکست Greylock، «سم آلتمن»، مدیرعامل OpenAI، اطلاعات محدودی دربارهی GPT-4 ارائه کرد. او گفت: «شایعاتی که در توییتر دربارهی GPT-4 منتشر شده مانند داشتن ۱۰۰ تریلیون پارامتر – نادرست است و مردم باید برای ناامید شدن آماده باشند! همچنین اضافه کرد: «ما زمانی GPT-4 را منتشر میکنیم که مطمئن شویم این مدل ایمن و کاربردی است.»
چه انتظاری میتوان از GPT-4 داشت؟
- اندازهی مدل تفاوت زیادی با GPT-3 نخواهد داشت.
- از پارامتردهی بهینهشده با استفاده از روش μP (میکروپارامتردهی) برای بهرهوری بیشتر استفاده خواهد شد.
- آموزش مدل با استفاده از محاسبات بهینه انجام میشود؛ به این صورت که با افزایش تعداد توکنهای آموزشی، تلاش میشود کمترین میزان خطا حاصل شود.
- مدل فقط متنی خواهد بود و مانند DALL·E 2، چندرسانهای (multimodal) نیست.
- ممکن است از پراکندگی (sparsity) برای کاهش هزینههای محاسباتی استفاده کند.
- درست مانند ChatGPT، این مدل نیز هماهنگتر با اهداف انسانی طراحی شده تا بهتر مقاصد ما را دنبال کند و به ارزشهایمان پایبند بماند.
ایجاد AGI ایمن
در گفتوگویی با StrictlyVC، سم آلتمن دربارهی مسیر پیشرفت در دستیابی به هوش عمومی مصنوعی (AGI) نکاتی را مطرح کرد.
او گفت: «هرچه به AGI نزدیکتر میشویم، پاسخ دادن به این سؤال سختتر میشود. چون فکر میکنم این گذار بسیار تدریجیتر و مبهمتر از آن چیزی خواهد بود که مردم انتظار دارند.»
او همچنین برخی شایعات پیرامون AGI را رد کرد. به گفتهی او، OpenAI در حال حاضر هوش مصنوعیای ندارد که بتواند مانند انسانها یاد بگیرد.
این گفتهها نشان میدهد که با وجود پیشرفتهای چشمگیر، هنوز راه قابل توجهی تا دستیابی به AGI باقی مانده، و OpenAI با احتیاط در این مسیر گام برمیدارد.
OpenAI در مسیر درستی برای توسعهی AGI ایمن قرار دارد، اما هنوز با نقطهی ایدهآل فاصله دارد. AGIای که این روزها دربارهاش صحبت میشود، یک مدل چندرسانهای (Multimodal) است که قابلیت درک گفتار، متن، تصویر و ویدئو را بهصورت همزمان دارد. در واقع، ترکیبی از ChatGPT، DALL·E-2، Whisper، یک مدل تولید ویدئو و مجموعهای از الگوریتمهای یادگیری تقویتی خواهد بود.
مدلهای چند وجهی (Multimodal Models)
برای رسیدن به AGI واقعی، OpenAI باید فراتر از تبدیل متن به تصویر (text-to-image) حرکت کند و به سمت مدلهایی برود که تبدیل متن به ویدئو، صوت به ویدئو، و صوت به متن را نیز انجام دهند. این بدان معناست که در آینده میتوان با یک ربات که طبیعی صحبت میکند و چهرهای واقعگرایانه دارد، مکالمه کرد.
برخی توسعهدهندگان پیشاپیش در این مسیر گام برداشتهاند، مانند ساخت شخصیتهای استریمر در Twitch که کاملاً توسط هوش مصنوعی تولید شدهاند. اگرچه هنوز کامل نیستند، اما نشانهای از آغاز این مسیر هستند.
در برنامهی StrictlyVC، سم آلتمن تأیید کرد که OpenAI در حال کار بر روی یک مدل ویدئویی است. با توجه به اطلاعات موجود، بهاحتمال زیاد این مدل شامل تولید ویدئو از متن بههمراه صوت خواهد بود که پیچیدگیهای فنی زیادی بههمراه دارد. هماکنون نیز فناوریهای تولید ویدئو وجود دارند که در آن توسعهدهندگان فریمهایی را با استفاده از مدلهای مانند Stable Diffusion تولید و بهصورت پیوسته به ویدئو تبدیل میکنند.
Google AI
Google AI ستون فقرات اکوسیستم گوگل است و در سرویسهایی مانند Google Maps، Google Photos، اپلیکیشنها و Google Cloud کاربرد دارد. گوگل یکی از پیشگامان توسعهی ابزارها و مدلهای هوش مصنوعی بوده است. اکثر محصولات هوش مصنوعی آن از طریق Google Cloud در دسترس هستند، از AutoML گرفته تا پیشرفتهترین مدلهای زبانی و بصری.
گوگل همچنین ابزارها و مدلهای تحولآفرینی در زمینههای پردازش زبان طبیعی (NLP)، پردازش گفتار، و بینایی ماشین ارائه داده است. از TensorFlow گرفته تا BERT (نمایشگر رمزگذار دوجهته مبتنی بر ترنسفورمر)، گوگل مسیر تازهای در پژوهش و توسعهی هوش مصنوعی و یادگیری ماشین گشوده است.
در سال ۲۰۲۰، تیم تحقیقاتی گوگل مدل Meena را معرفی کرد؛ یک مدل گفتوگومحور عصبی که توانایی درک بافت گفتگو را دارد و پاسخهایی منطقی ارائه میدهد. پس از آن، گوگل مدل LaMDA را عرضه کرد که شباهت زیادی به ChatGPT دارد. این مدل، یک پیشرفت مهم در فناوری مکالمه بود که بر پایهی ترنسفورمرها ساخته شده، اما برخلاف مدلهای مشابه، بهصورت خاص با گفتوگوهای واقعی آموزش دیده است.
آیندهی هوش مصنوعی گوگل
هر ساله، شاهد معرفی فناوریهای جدیدی از سوی Google هستیم، و در آینده نیز انتظار میرود که موتور جستوجوی پیشرفتهتری با قدرتگرفتن از AI Bard، مدلهای زبانی، تصویری، تولیدی و چندرسانهای ارائه دهد. چنین پیشرفتی، هوش مصنوعی را به ابزاری چندمنظوره و منعطف تبدیل خواهد کرد.
Google AI Bard
با عرضهی ChatGPT، شایعاتی در فضای مجازی پیچید که این ابزار میتواند بهنوعی «قاتل گوگل» باشد. همکاری گستردهی مایکروسافت و OpenAI این تصور را تقویت کرد؛ چرا که مایکروسافت اکنون آمادهی رقابت جدی با گوگل در حوزهی موتور جستوجو از طریق Bing با پشتیبانی از OpenAI است.
در پاسخ به این موج، گوگل نیز Bard را معرفی کرد، نسخهی اختصاصی خودش از یک چتبات هوشمند، که بهنوعی معادل Google با ChatGPT محسوب میشود. برای مقایسهی دقیقتر Bard و ChatGPT میتوانید به مقالهی اختصاصی ما در این زمینه مراجعه کنید.
ویژگیهای Bard و قابلیتهای جدید گوگل در حوزهی هوش مصنوعی
در آخرین بهروزرسانیهای AI گوگل، «ساندار پیچای»، مدیرعامل Google و Alphabet، سرویس گفتوگوی آزمایشی جدیدی به نام Bard را معرفی کرد. Bard از مدل LaMDA قدرت میگیرد و بهطور اولیه در اختیار گروهی از کاربران مورد اعتماد قرار گرفته و قرار است در هفتههای آینده در دسترس عموم قرار بگیرد.
Bard برخلاف ChatGPT، اطلاعات خود را از وب دریافت میکند تا پاسخهایی با کیفیت بالا، دقیق و بهروز ارائه دهد. در واقع، Bard ترکیبی از دانش جهانی، قدرت پردازشی، هوش و خلاقیت است. گوگل در ابتدا نسخهای سبک از مدل LaMDA را برای Bard استفاده کرده و بهتدریج قصد دارد مدلهای زبانی قدرتمندتر را نیز به آن اضافه کند.
پیشرفت در مدلهای زبانی، بصری و تولیدی
بر اساس گزارشهای اخیر از Google Research، گوگل در حوزههای زیر پیشرفتهایی قابل توجه داشته است:
- فناوریهای زبانی پیشرفته (Language Technologies)
- بینایی ماشین (Computer Vision)
- مدلهای تولید محتوا (Generative Models)
این پیشرفتها پایهگذار نسل بعدی ابزارهای هوش مصنوعی گوگل هستند که میتوانند متن، تصویر، صدا، و حتی ویدئو را تولید، تحلیل و ترکیب کنند.
مدلهای زبانی بزرگ (Large Language Models)
مدلهای PaLM (Pathways Language Model) و LaMDA نتایج امیدوارکنندهای در زمینه هوش مصنوعی مکالمهمحور و پردازش زبان طبیعی (NLP) داشتهاند. در آینده میتوان انتظار مدلهای زبانی پیشرفتهتری را داشت که کاربردهایی فراتر از گفتوگو، مانند ترجمه، خلاصهسازی، پاسخ به سوالات، و تولید محتوا خواهند داشت.
بینایی ماشین (Computer Vision)
گوگل در حوزهی بینایی ماشین نیز دستاوردهای قابلتوجهی داشته:
- MaxViT: ترنسفورمر بینایی چندمحوره برای پردازش دقیقتر تصویر
- Pix2Seq: چارچوب مدلسازی زبانی برای تشخیص اشیاء
- پیشرفت در تبدیل تصاویر ۲ بعدی به ۳ بعدی با استفاده از مدلهای مبتنی بر حرکت و فریمهای متوالی
تولید تصویر (Image Generation)
مدلهای گوگل در زمینهی تولید تصویر با کیفیت واقعگرایانه شامل:
- Imagen: مدل دیفیوژن برای تولید عکس از متن
- Parti: معماری ترنسفورمر autoregressive برای تولید تصویر از متن
هر دو مدل با دریافت متن ورودی، تصویر پیکسلی تولید میکنند.
تولید ویدئو (Video Generation)
در سال گذشته، گوگل دو مدل مهم در زمینهی تولید ویدئو معرفی کرد:
- Imagen Video: استفاده از مدلهای دیفیوژن سلسلهمراتبی برای تولید ویدئو با وضوح بالا
- Phenaki: تولید ویدئوهای با طول متغیر با استفاده از توضیحات متنی باز و بدون محدودیت موضوعی
مدلهای چند وجهی (Multimodal Models)
بیشتر مدلهای یادگیری ماشین سنتی بر یک نوع داده خاص (modality) تمرکز دارند، مانند متن، تصویر یا صوت. اما مدلهایی مانند DALL-E 2 و Stable Diffusion باعث شدهاند توجه زیادی به مدلهای چندرسانهای جلب شود، چرا که این مدلها قابلیت درک و ترکیب چند نوع داده را دارند.
Google AI با استفاده از لایههای پردازش اختصاصی برای هر modality و ترکیب آنها در یک لایه مرکزی (bottleneck)، به پیشرفتهایی در این حوزه رسیده است. این ترکیب حتی میتواند عملکرد مدلها را در تکوظیفهها (مانند فقط تصویر یا فقط متن) نیز بهبود دهد.
جدیدترین پژوهشهای Google AI در زمینهی چندرسانهای:
- LiT (Locked-image Tuning): اضافه کردن درک زبان به مدلهای تصویری آموزشدیده
- PaLI: انجام چندوظیفهای در بیش از ۱۰۰ زبان، مانند پاسخ به سوال تصویری، شرح تصویر، تشخیص شیء و ترجمه
- VDTTS: تبدیل متن به گفتار بر پایهی ویدئو که لحن، احساسات و هماهنگی زمانی را حفظ میکند
- Look and Talk: ترکیب صوت و ویدئو برای مکالمه طبیعیتر با دستیار گوگل؛ تشخیص اینکه آیا کاربر واقعاً با دستیار صحبت میکند یا نه
- 4D-Net: ترکیب دادهی سهبعدی از سنسورهای خودروهای خودران با سایر اطلاعات برای درک بهتر محیط و تصمیمگیری دقیقتر
در آینده، احتمالاً شاهد ادغام این مدلها در محصولات گوگل خواهیم بود تا تجربه کاربری را ارتقاء داده و محصولات نوآورانهتری ایجاد کنند.
هوش مصنوعی و علم داده (AI and Data Science)
پیشرفت در هوش مصنوعی بدون علم داده، مهندسی داده و الگوریتمها امکانپذیر نیست. برای ساخت ابزارهایی مثل ChatGPT یا LaMDA باید از پایه شروع کرد:
- آشنایی با ساختار دادهها
- تسلط بر یادگیری ماشین و یادگیری عمیق
- شناخت معماری ترنسفورمرها
- درک روشهای بهینهسازی مدلها
- و استفاده از یادگیری تقویتی در کاربردهای واقعی
پاسخ به سؤال بزرگ: آیا هوش مصنوعی جایگزین دانشمندان داده، تحلیلگران یا مهندسان خواهد شد؟
پاسخ ساده این است: «خیر.» شاید در آیندهای دور، اما حتی در آن زمان هم شغلهایی جدید، خلاقانهتر و مبتنی بر تصمیمگیری ایجاد خواهد شد. با پیشرفت هوش مصنوعی، ما هم رشد خواهیم کرد.
ابزارهایی مثل GitHub Copilot، DALL·E 2، ChatGPT و دیگر فناوریهای پیشرفته، برای کمک به ما آمدهاند، نه برای جایگزینی. آنها بهرهوری ما را افزایش میدهند و باعث میشوند سریعتر، دقیقتر و هوشمندانهتر کار کنیم.
«آندری کارپاتی»، مدیر سابق هوش مصنوعی در تسلا و OpenAIمیگوید: «Copilot بهطرز چشمگیری سرعت کدنویسی من را بالا برده. تصور بازگشت به «کدنویسی دستی» برایم دشوار است. هنوز در حال یادگیری هستم اما اکنون حدود ۸۰٪ از کدم را Copilot مینویسد. دیگر کدنویسی نمیکنم؛ فقط prompt مینویسم و ویرایش میکنم.»
این یعنی بسیاری از افراد فنی، از هوش مصنوعی برای بهبود برنامهنویسی، تحلیل داده و تصمیمگیری استفاده میکنند.
چطور دانشمندان داده میتوانند از هوش مصنوعی استفاده کنند؟
- تولید دادههای شبیهسازیشده واقعی در عین حفظ حریم خصوصی کاربران
- نوشتن کدهای تمیز، سریع و بهینه
- نمونهسازی اولیه محصول (Prototyping)
- انجام تحلیل داده پیچیده تنها با نوشتن یک prompt
- تولید کوئریهای SQL پیچیده با زبان طبیعی
- تهیه گزارشهای قابلدرک برای ذینفعان غیرفنی
- انجام تحلیلهای آماری سطح بالا همراه با توضیح
- یادگیری زبانهای برنامهنویسی و فریمورکهای جدید
- استفاده از AutoML و ابزارهای بهینهسازی مدل برای ساخت راهحلهای یادگیری ماشین
- نوشتن اسکریپتهای خودکار برای صرفهجویی در زمان و کاهش خطا
آغاز عصر جدیدی از هوش مصنوعی
مایکروسافت با همکاری OpenAI، ChatGPT را در موتور جستجوی جدید Bing ادغام کرده و آن را «همیار وب» یا Bing Copilot نامیده است. با این اقدام، رقابت جدیدی در دنیای فناوری شروع شده است.
در این نسخه، کاربران میتوانند جستجو، نوشتن، ویرایش و خلق محتوا را تنها با یک گفتوگو با چتبات انجام دهند—بدون اینکه اپلیکیشن را ترک کنند.
در مقابل، گوگل نیز در رویداد پاریس، چتبات خود را با نام Google Bard معرفی کرد. Bard نیز با مدل سبک LaMDA اجرا میشود و عملکردی مشابه با Bing Copilot دارد؛ با این تفاوت که به موتور جستجوی گوگل متصل است.
چالشها و نگرانیها در برابر پیشرفت هوش مصنوعی
- گسترش اطلاعات نادرست: مدلهایی مثل GPT میتوانند در آینده برای کمپینهای اطلاعات نادرست استفاده شوند.
- تولید محتوای تقلبی: محتوای تولیدشده با هوش مصنوعی بهینهسازیشده برای موتورهای جستجو (SEO) است و تشخیص آن دشوار شده.
- مشکلات حقوقی: برخی از دادههایی که مدلها با آنها آموزش دیدهاند، تحت قانون کپیرایت هستند. استفاده از این محتوا بدون مجوز، خلاف است.
- پاسخهای نادرست: مدلها گاهی اطلاعات نادرست یا گمراهکننده تولید میکنند که در برخی حوزهها مانند حقوق و سلامت میتواند خطرناک باشد.
اما این مشکلات قابل حلاند. در آینده با قوانین جدید و سیاستهای استفاده از هوش مصنوعی روبهرو خواهیم بود. بسیاری از مدارس، دانشگاهها و شرکتها در حال تنظیم سیاستهای مربوط به محتوای تولیدشده توسط هوش مصنوعی هستند.
پس ما چه کاری از دستمان برمیآید؟
- یادگیری فناوریهای جدید
- استفاده مسئولانه و اخلاقمحور از هوش مصنوعی
- توسعه مهارتهایی که مکمل AI هستند، نه جایگزین آن