Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
 زمان کاهش اندازه مدل‌های زبانی بزرگ

زمان کاهش اندازه مدل‌های زبانی بزرگ

زمان مطالعه: 2 دقیقه

«اندری کارپاتی»، محقق مشهور اخیراً گفت: «پروژه llm.c نشان می‌دهد که اکنون می‌توان مدل GPT-2 را تنها در ۲۴ ساعت و با استفاده از یک دسته  ۸ تایی ا  پردازنده‌های گرافیکی XH100 آموزش داد». در ادامه به هزینه انجام چنین کاری اشاره کرده و گفته؛  هزینه‌های انجام این کار، تنها ۶۷۲ دلار است.

کارپاتی با علاقه زیاد به بازتولید مدل زبانی  GPT-2 محصول شرکت OpenAI برای اهداف آموزشی پرداخت. او در ابتدا با مشکلاتی در استفاده از PyTorch، (یک فریم‌ورک محبوب یادگیری عمیق) مواجه شد. «اندری کارپاتی» ناراحت از این چالش‌ها، تصمیم گرفت که کل فرآیند آموزش را از صفر و با C/CUDA بنویسد. انجام این کار توسط کارپاتی باعث ایجاد پروژه llm.c شد. جالب است بدانید که این پروژه در نهایت به یک سیستم کارآمد و ساده برای آموزش مدل‌های زبانی تبدیل شد. پروژه llm.c که آموزش GPT را در C/CUDA پیاده‌سازی می‌کند، نیازهای کمی برای راه‌اندازی دارد و آموزش مدل را به صورت کارآمد و مقرون به صرفه ارائه می‌دهد.

مقیاس‌پذیری مدل‌های LLM

کارپاتی در پست خود به پیشرفت‌های سخت‌افزاری (GPUهای H100)، نرم‌افزاری (CUDA، cuBLAS، cuDNN، FlashAttention) و کیفیت داده‌ها اشاره کرد که هزینه‌های آموزش را به شدت کاهش داده‌اند.

مائورو سیکارد (Mauro Sicard)، مدیر آژانس BRIX با کارپاتی موافق است و می‌گوید: «با بهبودهای موجود در GPUها و بهینه‌سازی آموزش، آینده ممکن است ما را شگفت‌زده کند. در واقع کاهش اندازه مدل‌های LLM در حالی که عملکرد حفظ شود، یک گام حیاتی برای دسترسی بهتر و مقرون به صرفه کردن هوش مصنوعی است. به گفته مهندسی از متا به نام «مهیما چهاگانی»، LLMLingua یک روش است که به طور مؤثر اندازه ورودی‌ها را کاهش می‌دهد، بدون اینکه اطلاعات مهمی را از دست بدهد.

چهاگانی گفت که استفاده از زنجیره LLM با مدل‌های مقرون‌به‌صرفه مانند GPT-2 شروع می‌شود و به مدل‌های قدرتمندتری مانند GPT-3.5 Turbo و GPT-4 Turbo افزایش می‌یابد. همچنین این کار هزینه را بهینه می‌کند و فقط در صورت نیاز از مدل‌های گران قیمت استفاده می‌کند.

FrugalGPT رویکرد دیگری است که از چندین API برای تعادل هزینه و عملکرد استفاده می‌کند. این رویکرد عملکرد مشابه GPT-4 را حفظ می‌کند، اما هزینه‌ها را تا ۹۸٪ کاهش می‌دهد. علاوه بر این، یک توسعه‌دهنده Reddit به نام pmarks98 از یک رویکرد فاین‌تونیگ با ابزارهایی مانند OpenPipe و مدل‌هایی مانند Mistral 7B استفاده کرده است که این امر هزینه‌ها را تا ۸۸٪ کاهش می‌دهد.

آیا واقعاً کاهش هزینه‌ها امری ضروری است؟

مدل‌های LLM ارزان‌تر (به ویژه مدل‌های منبع‌باز) معمولاً در مقایسه با مدل‌های اختصاصی از غول‌های فناوری مانند OpenAI یا Google، قابلیت‌های محدودتری دارند. در حالی که هزینه‌های اولیه ممکن است کمتر باشد، اما اجرای یک مدل LLM ارزان به صورت محلی می‌تواند منجر به افزایش هزینه‌های بلندمدت شود. در واقع نیاز به سخت‌افزار تخصصی، هزینه‌های نگهداری و مقیاس‌پذیری محدود باعث افزایش این نوع از هزینه‌ها می‌شود.

علاوه بر این، همان‌طور که استاد دانشگاه پرینستون، «آرویند نارایانان» اشاره کرد، تمرکز از بهبود قابلیت‌ها به کاهش هزینه‌های کلان تغییر کرده است و این موضوع برای بسیاری از پژوهشگران هوش مصنوعی ناامید کننده است.

هزینه بیشتر از بهبود قابلیت‌ها

«آرویند نارایان» استدلال می‌کند که کاهش هزینه‌ها به دلایل مختلفی هیجان‌انگیزتر و تأثیرگذارتر است. این کاهش‌ها معمولاً منجر به بهبود دقت در بسیاری از وظایف می‌شود. هزینه‌های کمتر همچنین می‌تواند سرعت تحقیق را افزایش دهد، زیرا تحقیق را مقرون‌به‌صرفه‌تر می‌کند و قابلیت‌های بیشتری را در دسترس قرار می‌دهد. به‌طورکلی از نظر اینکه چه چیزی مدل‌های LLM را در زندگی مردم مفیدتر می‌کند، در حال حاضر موضوع هزینه به‌وضوح ازسایر قابلیت‌ها مهم‌تر است.

نارایان در پستی دیگر گفت که هر چه یک منبع ارزان‌تر شود، تقاضا برای آن بیشتر خواهد شد و مردم بیشتر از آن استفاده می‌کنند. در واقع شاید در آینده برنامه‌هایی ساخته شود که میلیون‌ها بار از مدل‌های LLM برای انجام کارهای ساده استفاده کنند. این دموکراتیزه شدن هوش مصنوعی (دسترسی آسان به هوش مصنوعی) ممکن است سریع‌تر از آنچه تصور می‌کردیم پیش برود و احتمالاً به ایجاد هوش‌های عمومی شخصی (AGI) با هزینه ۱۰ دلار تا سال ۲۰۲۹ منجر شود.

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]