برترین متخصصین

از سراسر دنیا

مجموعه وبینارهای مدل‌های بزرگ زبانی (LLM)

Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش خبری
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
خطرات هوش مصنوعی
دیتاست
مدل‌های بنیادی
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
پیاده‌سازی هوش مصنوعی
گزارش
مصاحبه
هوش مصنوعی در عمل
 آخرین اخبار درباره OpenAI، Google AI و معنای آن برای علم داده

آخرین اخبار درباره OpenAI، Google AI و معنای آن برای علم داده

زمان مطالعه: 8 دقیقه

هم گوگل AI و هم OpenAI سابقه‌ای در ارائه‌ی فناوری‌های پیشرفته‌ی هوش مصنوعی دارند. با این حال، با معرفی ChatGPT، شرایط تغییر کرده است. این ابزار رقابت تازه‌ای را آغاز کرده که در آن شرکت‌های بزرگ فناوری مانند گوگل، به‌سرعت در تلاش‌اند مدل‌های مشابهی از هوش مصنوعی را عرضه کنند.

در این مطلب، با جدیدترین دستاوردهای OpenAI و Google AI آشنا می‌شویم و بررسی می‌کنیم که در آینده چه انتظاراتی می‌توان داشت. همچنین می‌بینیم که پیشرفت در حوزه‌ی هوش مصنوعی چگونه زمینه‌ی علم داده (Data Science) را دگرگون کرده و چطور می‌توان از آن برای افزایش بهره‌وری استفاده کرد.

OpenAI

پلتفرم OpenAI API این امکان را فراهم می‌کند تا از طریق API به مدل‌های مولد و پیشرفته‌ی هوش مصنوعی دسترسی داشته باشیم. با استفاده از DALLE-2 می‌توان تصاویر باکیفیتی تولید کرد، GPT-3 قابلیت تولید متن و کد را دارد و از قابلیت‌های embedding می‌توان برای سایر وظایف زبانی بهره برد. افزون بر این، این پلتفرم امکاناتی مانند نظارت بر خروجی‌ها، تعیین محدودیت در نرخ درخواست‌ها، و تنظیم مدل بر پایه‌ی داده‌های خاص را نیز در اختیار می‌گذارد.

تمامی این محصولات، تجاری هستند و بر پایه‌ی مدل پرداخت به‌ازای مصرف (Pay-as-you-go) عمل می‌کنند. با این حال، OpenAI هر از گاهی ابزارها و مدل‌های متن‌باز نیز منتشر کرده است، از جمله:

  • Whisper: مدل تشخیص گفتار که با بهره‌گیری از نظارت ضعیف در مقیاس بالا آموزش دیده است.
  • OpenAI Baselines: پیاده‌سازی الگوریتم‌های یادگیری تقویتی (Reinforcement Learning).
  • Gym: جعبه‌ابزاری برای توسعه و ارزیابی الگوریتم‌های یادگیری تقویتی.
  • GPT-2: کد و مدل مربوط به مقاله‌ی «مدل‌های زبانی، یادگیرنده‌های چندوظیفه‌ای بدون نظارت هستند».
  • DALL-E: بسته‌ی PyTorch برای پیاده‌سازی VAE گسسته که در DALL·E به‌کار رفته است.

اگرچه APIها، جعبه‌ابزارها، و مدل‌های زبانی بزرگ ابزارهای بسیار قدرتمندی هستند، اما هیچ‌کدام به موفقیت چشم‌گیر ChatGPT نرسیده‌اند.

مدل ChatGPT با استفاده از تکنیک «یادگیری تقویتی با بازخورد انسانی» (RLHF) آموزش داده شده، مشابه با InstructGPT (نسخه‌ی بهبود یافته‌ی GPT-3)، با این تفاوت که مرحله‌ی گردآوری داده‌ها در آن کمی متفاوت است.

چه چیزی این مدل را از نسل‌های پیشین متمایز می‌کند؟

هوش مصنوعی گفت‌وگومحور توانایی دارد سوال‌های پی‌در‌پی بپرسد، به فرضیه‌های نادرست واکنش نشان دهد، اشتباهات خود را بپذیرد، و مکانیزم‌های ایمنی را به‌کار گیرد.

اخیراً شریک OpenAI، یعنی مایکروسافت، نسخه‌ی بهبودیافته‌ای از ChatGPT را معرفی کرده است. با روند انتشار تدریجی OpenAI، شاهد موج جدیدی از فناوری‌های هوش مصنوعی هستیم که نیازهای ما را بهتر درک می‌کنند و در انجام وظایف مختلف به ما کمک می‌رسانند.

GPT-4

جدا از ChatGPT، انتظار می‌رود GPT-4 به‌عنوان پیشرفته‌ترین مدل زبانی بزرگ معرفی شود. در پادکست Greylock، «سم آلتمن»، مدیرعامل OpenAI، اطلاعات محدودی درباره‌ی GPT-4 ارائه کرد. او گفت: «شایعاتی که در توییتر درباره‌ی GPT-4 منتشر شده مانند داشتن ۱۰۰ تریلیون پارامتر – نادرست است و مردم باید برای ناامید شدن آماده باشند! همچنین اضافه کرد: «ما زمانی GPT-4 را منتشر می‌کنیم که مطمئن شویم این مدل ایمن و کاربردی است.»

چه انتظاری می‌توان از GPT-4 داشت؟

  • اندازه‌ی مدل تفاوت زیادی با GPT-3 نخواهد داشت.
  • از پارامتردهی بهینه‌شده با استفاده از روش μP (میکروپارامتردهی) برای بهره‌وری بیشتر استفاده خواهد شد.
  • آموزش مدل با استفاده از محاسبات بهینه انجام می‌شود؛ به این صورت که با افزایش تعداد توکن‌های آموزشی، تلاش می‌شود کمترین میزان خطا حاصل شود.
  • مدل فقط متنی خواهد بود و مانند DALL·E 2، چندرسانه‌ای (multimodal) نیست.
  • ممکن است از پراکندگی (sparsity) برای کاهش هزینه‌های محاسباتی استفاده کند.
  • درست مانند ChatGPT، این مدل نیز هماهنگ‌تر با اهداف انسانی طراحی شده تا بهتر مقاصد ما را دنبال کند و به ارزش‌هایمان پایبند بماند.

ایجاد AGI ایمن

در گفت‌وگویی با StrictlyVC، سم آلتمن درباره‌ی مسیر پیشرفت در دستیابی به هوش عمومی مصنوعی (AGI) نکاتی را مطرح کرد.

او گفت: «هرچه به AGI نزدیک‌تر می‌شویم، پاسخ دادن به این سؤال سخت‌تر می‌شود. چون فکر می‌کنم این گذار بسیار تدریجی‌تر و مبهم‌تر از آن چیزی خواهد بود که مردم انتظار دارند.»

او همچنین برخی شایعات پیرامون AGI را رد کرد. به گفته‌ی او، OpenAI در حال حاضر هوش مصنوعی‌ای ندارد که بتواند مانند انسان‌ها یاد بگیرد.

این گفته‌ها نشان می‌دهد که با وجود پیشرفت‌های چشمگیر، هنوز راه قابل توجهی تا دستیابی به AGI باقی مانده، و OpenAI با احتیاط در این مسیر گام برمی‌دارد.

OpenAI در مسیر درستی برای توسعه‌ی AGI ایمن قرار دارد، اما هنوز با نقطه‌ی ایده‌آل فاصله دارد. AGIای که این روزها درباره‌اش صحبت می‌شود، یک مدل چندرسانه‌ای (Multimodal) است که قابلیت درک گفتار، متن، تصویر و ویدئو را به‌صورت هم‌زمان دارد. در واقع، ترکیبی از ChatGPT، DALL·E-2، Whisper، یک مدل تولید ویدئو و مجموعه‌ای از الگوریتم‌های یادگیری تقویتی خواهد بود.

مدل‌های چند وجهی (Multimodal Models)

برای رسیدن به AGI واقعی، OpenAI باید فراتر از تبدیل متن به تصویر (text-to-image) حرکت کند و به سمت مدل‌هایی برود که تبدیل متن به ویدئو، صوت به ویدئو، و صوت به متن را نیز انجام دهند. این بدان معناست که در آینده می‌توان با یک ربات که طبیعی صحبت می‌کند و چهره‌ای واقع‌گرایانه دارد، مکالمه کرد.

برخی توسعه‌دهندگان پیشاپیش در این مسیر گام برداشته‌اند، مانند ساخت شخصیت‌های استریمر در Twitch که کاملاً توسط هوش مصنوعی تولید شده‌اند. اگرچه هنوز کامل نیستند، اما نشانه‌ای از آغاز این مسیر هستند.

در برنامه‌ی StrictlyVC، سم آلتمن تأیید کرد که OpenAI در حال کار بر روی یک مدل ویدئویی است. با توجه به اطلاعات موجود، به‌احتمال زیاد این مدل شامل تولید ویدئو از متن به‌همراه صوت خواهد بود که پیچیدگی‌های فنی زیادی به‌همراه دارد. هم‌اکنون نیز فناوری‌های تولید ویدئو وجود دارند که در آن توسعه‌دهندگان فریم‌هایی را با استفاده از مدل‌های مانند Stable Diffusion تولید و به‌صورت پیوسته به ویدئو تبدیل می‌کنند.

Google AI

Google AI ستون فقرات اکوسیستم گوگل است و در سرویس‌هایی مانند Google Maps، Google Photos، اپلیکیشن‌ها و Google Cloud کاربرد دارد. گوگل یکی از پیشگامان توسعه‌ی ابزارها و مدل‌های هوش مصنوعی بوده است. اکثر محصولات هوش مصنوعی آن از طریق Google Cloud در دسترس هستند، از AutoML گرفته تا پیشرفته‌ترین مدل‌های زبانی و بصری.

گوگل همچنین ابزارها و مدل‌های تحول‌آفرینی در زمینه‌های پردازش زبان طبیعی (NLP)، پردازش گفتار، و بینایی ماشین ارائه داده است. از TensorFlow گرفته تا BERT (نمایش‌گر رمزگذار دوجهته مبتنی بر ترنسفورمر)، گوگل مسیر تازه‌ای در پژوهش و توسعه‌ی هوش مصنوعی و یادگیری ماشین گشوده است.

در سال ۲۰۲۰، تیم تحقیقاتی گوگل مدل Meena را معرفی کرد؛ یک مدل گفت‌وگومحور عصبی که توانایی درک بافت گفتگو را دارد و پاسخ‌هایی منطقی ارائه می‌دهد. پس از آن، گوگل مدل LaMDA را عرضه کرد که شباهت زیادی به ChatGPT دارد. این مدل، یک پیشرفت مهم در فناوری مکالمه بود که بر پایه‌ی ترنسفورمرها ساخته شده، اما برخلاف مدل‌های مشابه، به‌صورت خاص با گفت‌وگوهای واقعی آموزش دیده است.

آینده‌ی هوش مصنوعی گوگل

هر ساله، شاهد معرفی فناوری‌های جدیدی از سوی Google هستیم، و در آینده نیز انتظار می‌رود که موتور جست‌وجوی پیشرفته‌تری با قدرت‌گرفتن از AI Bard، مدل‌های زبانی، تصویری، تولیدی و چندرسانه‌ای ارائه دهد. چنین پیشرفتی، هوش مصنوعی را به ابزاری چندمنظوره و منعطف تبدیل خواهد کرد.

Google AI Bard

با عرضه‌ی ChatGPT، شایعاتی در فضای مجازی پیچید که این ابزار می‌تواند به‌نوعی «قاتل گوگل» باشد. همکاری گسترده‌ی مایکروسافت و OpenAI این تصور را تقویت کرد؛ چرا که مایکروسافت اکنون آماده‌ی رقابت جدی با گوگل در حوزه‌ی موتور جست‌وجو از طریق Bing با پشتیبانی از OpenAI است.

در پاسخ به این موج، گوگل نیز Bard را معرفی کرد، نسخه‌ی اختصاصی خودش از یک چت‌بات هوشمند، که به‌نوعی معادل Google با ChatGPT محسوب می‌شود. برای مقایسه‌ی دقیق‌تر Bard و ChatGPT می‌توانید به مقاله‌ی اختصاصی ما در این زمینه مراجعه کنید.

ویژگی‌های Bard و قابلیت‌های جدید گوگل در حوزه‌ی هوش مصنوعی

در آخرین به‌روزرسانی‌های AI گوگل، «ساندار پیچای»، مدیرعامل Google و Alphabet، سرویس گفت‌وگوی آزمایشی جدیدی به نام Bard را معرفی کرد. Bard از مدل LaMDA قدرت می‌گیرد و به‌طور اولیه در اختیار گروهی از کاربران مورد اعتماد قرار گرفته و قرار است در هفته‌های آینده در دسترس عموم قرار بگیرد.

Bard برخلاف ChatGPT، اطلاعات خود را از وب دریافت می‌کند تا پاسخ‌هایی با کیفیت بالا، دقیق و به‌روز ارائه دهد. در واقع، Bard ترکیبی از دانش جهانی، قدرت پردازشی، هوش و خلاقیت است. گوگل در ابتدا نسخه‌ای سبک از مدل LaMDA را برای Bard استفاده کرده و به‌تدریج قصد دارد مدل‌های زبانی قدرتمندتر را نیز به آن اضافه کند.

پیشرفت در مدل‌های زبانی، بصری و تولیدی

بر اساس گزارش‌های اخیر از Google Research، گوگل در حوزه‌های زیر پیشرفت‌هایی قابل توجه داشته است:

  • فناوری‌های زبانی پیشرفته (Language Technologies)
  • بینایی ماشین (Computer Vision)
  • مدل‌های تولید محتوا (Generative Models)

این پیشرفت‌ها پایه‌گذار نسل بعدی ابزارهای هوش مصنوعی گوگل هستند که می‌توانند متن، تصویر، صدا، و حتی ویدئو را تولید، تحلیل و ترکیب کنند.

مدل‌های زبانی بزرگ (Large Language Models)

مدل‌های PaLM (Pathways Language Model) و LaMDA نتایج امیدوارکننده‌ای در زمینه هوش مصنوعی مکالمه‌محور و پردازش زبان طبیعی (NLP) داشته‌اند. در آینده می‌توان انتظار مدل‌های زبانی پیشرفته‌تری را داشت که کاربردهایی فراتر از گفت‌وگو، مانند ترجمه، خلاصه‌سازی، پاسخ به سوالات، و تولید محتوا خواهند داشت.

بینایی ماشین (Computer Vision)

گوگل در حوزه‌ی بینایی ماشین نیز دستاوردهای قابل‌توجهی داشته:

  • MaxViT: ترنسفورمر بینایی چندمحوره برای پردازش دقیق‌تر تصویر
  • Pix2Seq: چارچوب مدل‌سازی زبانی برای تشخیص اشیاء
  • پیشرفت در تبدیل تصاویر ۲ بعدی به ۳ بعدی با استفاده از مدل‌های مبتنی بر حرکت و فریم‌های متوالی

تولید تصویر (Image Generation)

مدل‌های گوگل در زمینه‌ی تولید تصویر با کیفیت واقع‌گرایانه شامل:

  • Imagen: مدل دیفیوژن برای تولید عکس از متن
  • Parti: معماری ترنسفورمر autoregressive برای تولید تصویر از متن

هر دو مدل با دریافت متن ورودی، تصویر پیکسلی تولید می‌کنند.

تولید ویدئو (Video Generation)

در سال گذشته، گوگل دو مدل مهم در زمینه‌ی تولید ویدئو معرفی کرد:

  • Imagen Video: استفاده از مدل‌های دیفیوژن سلسله‌مراتبی برای تولید ویدئو با وضوح بالا
  • Phenaki: تولید ویدئوهای با طول متغیر با استفاده از توضیحات متنی باز و بدون محدودیت موضوعی

مدل‌های چند وجهی (Multimodal Models)

بیشتر مدل‌های یادگیری ماشین سنتی بر یک نوع داده خاص (modality) تمرکز دارند، مانند متن، تصویر یا صوت. اما مدل‌هایی مانند DALL-E 2 و Stable Diffusion باعث شده‌اند توجه زیادی به مدل‌های چندرسانه‌ای جلب شود، چرا که این مدل‌ها قابلیت درک و ترکیب چند نوع داده را دارند.

Google AI با استفاده از لایه‌های پردازش اختصاصی برای هر modality و ترکیب آن‌ها در یک لایه مرکزی (bottleneck)، به پیشرفت‌هایی در این حوزه رسیده است. این ترکیب حتی می‌تواند عملکرد مدل‌ها را در تک‌وظیفه‌ها (مانند فقط تصویر یا فقط متن) نیز بهبود دهد.

جدیدترین پژوهش‌های Google AI در زمینه‌ی چندرسانه‌ای:

  • LiT (Locked-image Tuning): اضافه کردن درک زبان به مدل‌های تصویری آموزش‌دیده
  • PaLI: انجام چندوظیفه‌ای در بیش از ۱۰۰ زبان، مانند پاسخ به سوال تصویری، شرح تصویر، تشخیص شیء و ترجمه
  • VDTTS: تبدیل متن به گفتار بر پایه‌ی ویدئو که لحن، احساسات و هماهنگی زمانی را حفظ می‌کند
  • Look and Talk: ترکیب صوت و ویدئو برای مکالمه طبیعی‌تر با دستیار گوگل؛ تشخیص اینکه آیا کاربر واقعاً با دستیار صحبت می‌کند یا نه
  • 4D-Net: ترکیب داده‌ی سه‌بعدی از سنسورهای خودروهای خودران با سایر اطلاعات برای درک بهتر محیط و تصمیم‌گیری دقیق‌تر

در آینده، احتمالاً شاهد ادغام این مدل‌ها در محصولات گوگل خواهیم بود تا تجربه کاربری را ارتقاء داده و محصولات نوآورانه‌تری ایجاد کنند.

هوش مصنوعی و علم داده (AI and Data Science)

پیشرفت در هوش مصنوعی بدون علم داده، مهندسی داده و الگوریتم‌ها امکان‌پذیر نیست. برای ساخت ابزارهایی مثل ChatGPT یا LaMDA باید از پایه شروع کرد:

  • آشنایی با ساختار داده‌ها
  • تسلط بر یادگیری ماشین و یادگیری عمیق
  • شناخت معماری ترنسفورمرها
  • درک روش‌های بهینه‌سازی مدل‌ها
  • و استفاده از یادگیری تقویتی در کاربردهای واقعی

پاسخ به سؤال بزرگ: آیا هوش مصنوعی جایگزین دانشمندان داده، تحلیل‌گران یا مهندسان خواهد شد؟

پاسخ ساده این است: «خیر.» شاید در آینده‌ای دور، اما حتی در آن زمان هم شغل‌هایی جدید، خلاقانه‌تر و مبتنی بر تصمیم‌گیری ایجاد خواهد شد. با پیشرفت هوش مصنوعی، ما هم رشد خواهیم کرد.

ابزارهایی مثل GitHub Copilot، DALL·E 2، ChatGPT و دیگر فناوری‌های پیشرفته، برای کمک به ما آمده‌اند، نه برای جایگزینی. آن‌ها بهره‌وری ما را افزایش می‌دهند و باعث می‌شوند سریع‌تر، دقیق‌تر و هوشمندانه‌تر کار کنیم.

«آندری کارپاتی»، مدیر سابق هوش مصنوعی در تسلا و OpenAIمی‌گوید: «Copilot به‌طرز چشم‌گیری سرعت کدنویسی من را بالا برده. تصور بازگشت به «کدنویسی دستی» برایم دشوار است. هنوز در حال یادگیری هستم اما اکنون حدود ۸۰٪ از کدم را Copilot می‌نویسد. دیگر کدنویسی نمی‌کنم؛ فقط prompt می‌نویسم و ویرایش می‌کنم.»

این یعنی بسیاری از افراد فنی، از هوش مصنوعی برای بهبود برنامه‌نویسی، تحلیل داده و تصمیم‌گیری استفاده می‌کنند.

چطور دانشمندان داده می‌توانند از هوش مصنوعی استفاده کنند؟

  • تولید داده‌های شبیه‌سازی‌شده واقعی در عین حفظ حریم خصوصی کاربران
  • نوشتن کدهای تمیز، سریع و بهینه
  • نمونه‌سازی اولیه محصول (Prototyping)
  • انجام تحلیل داده پیچیده تنها با نوشتن یک prompt
  • تولید کوئری‌های SQL پیچیده با زبان طبیعی
  • تهیه گزارش‌های قابل‌درک برای ذی‌نفعان غیر‌فنی
  • انجام تحلیل‌های آماری سطح بالا همراه با توضیح
  • یادگیری زبان‌های برنامه‌نویسی و فریم‌ورک‌های جدید
  • استفاده از AutoML و ابزارهای بهینه‌سازی مدل برای ساخت راه‌حل‌های یادگیری ماشین
  • نوشتن اسکریپت‌های خودکار برای صرفه‌جویی در زمان و کاهش خطا

آغاز عصر جدیدی از هوش مصنوعی

مایکروسافت با همکاری OpenAI، ChatGPT را در موتور جستجوی جدید Bing ادغام کرده و آن را «همیار وب» یا Bing Copilot نامیده است. با این اقدام، رقابت جدیدی در دنیای فناوری شروع شده است.

در این نسخه، کاربران می‌توانند جستجو، نوشتن، ویرایش و خلق محتوا را تنها با یک گفت‌وگو با چت‌بات انجام دهند—بدون اینکه اپلیکیشن را ترک کنند.

در مقابل، گوگل نیز در رویداد پاریس، چت‌بات خود را با نام Google Bard معرفی کرد. Bard نیز با مدل سبک LaMDA اجرا می‌شود و عملکردی مشابه با Bing Copilot دارد؛ با این تفاوت که به موتور جستجوی گوگل متصل است.

چالش‌ها و نگرانی‌ها در برابر پیشرفت هوش مصنوعی

  • گسترش اطلاعات نادرست: مدل‌هایی مثل GPT می‌توانند در آینده برای کمپین‌های اطلاعات نادرست استفاده شوند.
  • تولید محتوای تقلبی: محتوای تولیدشده با هوش مصنوعی بهینه‌سازی‌شده برای موتورهای جستجو (SEO) است و تشخیص آن دشوار شده.
  • مشکلات حقوقی: برخی از داده‌هایی که مدل‌ها با آن‌ها آموزش دیده‌اند، تحت قانون کپی‌رایت هستند. استفاده از این محتوا بدون مجوز، خلاف است.
  • پاسخ‌های نادرست: مدل‌ها گاهی اطلاعات نادرست یا گمراه‌کننده تولید می‌کنند که در برخی حوزه‌ها مانند حقوق و سلامت می‌تواند خطرناک باشد.

اما این مشکلات قابل حل‌اند. در آینده با قوانین جدید و سیاست‌های استفاده از هوش مصنوعی روبه‌رو خواهیم بود. بسیاری از مدارس، دانشگاه‌ها و شرکت‌ها در حال تنظیم سیاست‌های مربوط به محتوای تولیدشده توسط هوش مصنوعی هستند.

پس ما چه کاری از دستمان برمی‌آید؟

  • یادگیری فناوری‌های جدید
  • استفاده مسئولانه و اخلاق‌محور از هوش مصنوعی
  • توسعه مهارت‌هایی که مکمل AI هستند، نه جایگزین آن

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]