ایلان ماسک و استفاده از ۱۰۰,۰۰۰ کارت گرافیک برای Grok-3:
آیا این مدل میتواند تحولی در هوش مصنوعی ایجاد کند؟
ایلان ماسک، بنیانگذار و مدیرعامل xAI، اخیراً اعلام کرده است که مدل Grok-3 برای طی مراحل آموزش از ۱۰۰,۰۰۰ کارت گرافیک NVIDIA H100 استفاده کرده است، این موضوع توجه بسیاری از کارشناسان و علاقهمندان به هوش مصنوعی را جلب کرده است. آیا این مدل میتواند محدودیتهای فعلی در مقیاسپذیری مدلهای زبان بزرگ (LLM) را بشکند یا صرفاً یک نمایش پرهزینه از منابع محاسباتی است؟
ایلان ماسک، بنیانگذار و مدیرعامل xAI، اخیراً اعلام کرده است که مدل Grok-3 برای طی مراحل آموزش از ۱۰۰,۰۰۰ کارت گرافیک NVIDIA H100 استفاده کرده است، این موضوع توجه بسیاری از کارشناسان و علاقهمندان به هوش مصنوعی را جلب کرده است. آیا این مدل میتواند محدودیتهای فعلی در مقیاسپذیری مدلهای زبان بزرگ (LLM) را بشکند یا صرفاً یک نمایش پرهزینه از منابع محاسباتی است؟
Grok-3: مدل جدید xAI با قدرت محاسباتی بیسابقه
مدل Grok-3 روی سامانه Colossus توسعه یافته است، سامانهای که xAI ادعا میکند «قویترین سامانه آموزشی هوش مصنوعی در جهان» است. ایلان ماسک اعلام کرده که این کلاستر عظیم تنها در ۱۲۲ روز ساخته شده است. این نخستین باری است که چنین کلاستری با این ابعاد در حوزه هوش مصنوعی به کار گرفته میشود.
«گوین بیکر»، مدیر ارشد سرمایهگذاری Atreides Management، در شبکه اجتماعی X اظهار داشت: « Grok-3 به این سوال پاسخ خواهد داد که آیا واقعاً به دیوار محدودیتها برخورد کردهایم یا خیر.»
اما این فرایند با هزینههای عظیمی همراه بوده است. «یان لو دو»، فیزیکدان، محاسبه کرده که آموزش Grok-3 با این تعداد کارت گرافیک، معادل مصرف انرژی ۷ درصد از یک راکتور هستهای معمولی است. در طول یک ماه، این میزان تقریباً ۱۸۱ تریلیون ژول انرژی مصرف میکند که برابر با ۱۰,۰۰۰ برابر انرژی مصرفی مغز انسان طی ۳۰ سال است. سوالی که مطرح میشود این است: آیا Grok-3 میتواند با چنین هزینهای، ظرفیت و عملکردی متناسب ارائه دهد؟
چالش دادهها و راهحلهای ماسک
یکی از چالشهای عمده در توسعه مدلهای هوش مصنوعی، محدودیت دادههاست. «ایلیا سوتسکِوِر»، دانشمند ارشد پیشین OpenAI، اخیراً هشدار داده که پیشآموزش با استفاده از دادههای بیشتر ممکن است به پایان برسد، زیرا این دادهها محدود هستند و ممکن است بهزودی تمام شوند. او پیشنهاد داده که استفاده از دادههای مصنوعی میتواند پاسخی به این مشکل باشد.
ایلان ماسک نیز در یک گفتگوی به این موضوع اشاره کرد و گفت: «مشکل دادهها به جایی رسیده که یا باید دادههای مصنوعی تولید کنید یا از ویدیوهای واقعی استفاده کنید.» او همچنین اعلام کرد که تسلا، با دسترسی به حجم عظیمی از ویدیوهای واقعی، در این زمینه مزیت بزرگی دارد و این دادهها میتوانند به آموزش مدلهای هوش مصنوعی کمک کنند.
آیا Grok-3 قدرتمندترین مدل جهان خواهد بود؟
برخی تحلیلگران معتقدند که Grok-3 ممکن است به دلیل استفاده از منابع محاسباتی عظیم، قدرتمندترین مدل پایهای باشد که تاکنون ساخته شده است. اما رویکرد مقیاسگذاری محاسباتی مبتنی بر نیروی عظیم (brute-force) که xAI اتخاذ کرده، با انتقاداتی روبهرو شده است.
یکی از کاربران در X نوشت: «من انتظار دارم Grok-3 شکست بخورد. اگر نتوانند مقیاسگذاری زمان تست را انجام دهند، فقط مقدار زیادی پول را هدر دادهاند.»
از سوی دیگر، «پاراس چوپرا»، پژوهشگر هوش مصنوعی، معتقد است که افزایش ۱۰ برابری قدرت محاسباتی ممکن است تنها منجر به دو برابر بهبود عملکرد نسبت به Grok-2 شود. این نشان میدهد که افزایش منابع محاسباتی همیشه به همان نسبت، عملکرد را بهبود نمیبخشد.
رقابت Grok-3 با مدلهای دیگر: آیا منابع کمتر میتواند نتایج بهتر بدهد؟
در اکوسیستم هوش مصنوعی، مدلهایی وجود دارند که با منابع کمتر، عملکردهای چشمگیری ارائه دادهاند. یکی از این مدلها، DeepSeek-V3 از چین است که تنها با ۲.۷۸۸ میلیون ساعت GPU آموزش دیده، اما توانسته در بسیاری از معیارها از مدلهای بزرگ مانند Llama 3.1 و Claude 3.5 Sonnet پیشی بگیرد. این نشان میدهد که نوآوری در معماری مدلها میتواند به عملکرد برتر منجر شود، بدون نیاز به مصرف عظیم منابع محاسباتی.
در همین راستا، مارک زاکربرگ، مدیرعامل متا، اعلام کرده که مدل آینده این شرکت، Llama 4، نیز با استفاده از کلاستری مشابه Grok-3 آموزش خواهد دید. به نظر میرسد رقابت در استفاده از منابع محاسباتی در حال شدتگرفتن است، اما سؤال اصلی این است که آیا این مدلها میتوانند ارزش افزودهای متناسب با هزینههای خود ارائه دهند؟
Grok-3 و آینده هوش مصنوعی: نوآوری یا هدررفت منابع؟
با وجود استفاده از قدرت محاسباتی بیسابقه، xAI نتوانسته است مدل Grok-3 را زودتر از زمان وعدهدادهشده عرضه کند. اما هنوز مشخص نیست که آیا میتواند انتظارات را برآورده کند یا خیر.
برخی کارشناسان معتقدند که ایلان ماسک ممکن است از قدرت محاسباتی عظیم برای تسریع فرایند آموزش موازی استفاده کرده باشد. «سودیپتا بیسواس»، متخصص هوش مصنوعی، میگوید: «اگر ۱۰ برابر بیشتر قدرت محاسباتی داشته باشید، میتوانید پیشآموزش را در یک دهم زمان انجام دهید.»
در مقابل، نگرانیهایی نیز وجود دارد که این مدلها ممکن است منابع محاسباتی را بیهوده هدر دهند. یکی از کاربران در X نوشت: «خیلی ناراحتکننده خواهد بود اگر Grok-3 با ۲۰ برابر قدرت محاسباتی بیشتر از Grok-2 همچنان مدل متوسطی باشد.»
جمعبندی: آیا Grok-3 میتواند به محدودیتهای فعلی پایان دهد؟
با توجه به پیشینه xAI و رویکرد ایلان ماسک، Grok-3 میتواند یکی از مهمترین مدلهای هوش مصنوعی در جهان باشد. اما سؤال اصلی این است: آیا استفاده از منابع محاسباتی عظیم منجر به پیشرفت چشمگیری خواهد شد یا صرفاً یک نمایش پرهزینه از قدرت محاسباتی است؟
در حالی که xAI به دنبال عرضه Grok-4 و Grok-5 در آینده نزدیک است، این شرکت همچنین به دنبال نوآوری در معماری مدلها و جذب بهترین مهندسان و پژوهشگران در این حوزه است. شاید پاسخ به این سؤال که آیا Grok-3 میتواند به محدودیتهای فعلی پایان دهد، تنها پس از استفاده از این مدل مشخص شود. تا آن زمان، این مدل همچنان یکی از جذابترین موضوعات در دنیای هوش مصنوعی خواهد بود.