هشت مدل زبانی بزرگ بازمتن برتر برای سال ۲۰۲۴

تیم تحریریه
۳ شهریور ۱۴۰۳

زمان مطالعه: 9 دقیقه

انقلاب کنونی در حوزه هوش مصنوعی مولد، بدون مدل‌های زبانی بزرگ (LLM) امکان‌پذیر نبود. LLMها، مبتنی بر ترانسفورمرها، معماری عصبی قدرتمند، سیستم‌های هوش مصنوعی هستند که برای مدل‌سازی و پردازش زبان انسان استفاده می‌شوند. آنها به دلیل داشتن صدها میلیون یا حتی میلیاردها پارامتر که با استفاده از مجموعه‌ای عظیم از دادۀ متنی پیش‌آمدهاند، «مدل‌های زبانی بزرگ» یا LLM نامیده می‌شوند.

فهرست مقاله پنهان

1 مدل‌های اختصاصی در برابر بازمتن

2 مزایای استفاده از LLMهای بازمتن

3 هشت مدل زبانی بزرگ بازمتن برتر سال ۲۰۲۴

3.7 7. GPT-NeoX و GPT-J

3.8 8. Vicuna 13-B

4 انتخاب LLM بازمتن متناسب با نیازهای بشر

4.1 می‌خواهید چه کاری انجام دهید؟

4.2 چرا به یک LLM نیاز دارید؟

4.3 به چه میزان دقت نیاز دارید؟

4.4 می‌خواهید چقدر سرمایه‌گذاری کنید؟

4.5 آیا می‌توانید با یک مدل پیش‌آماده به اهداف خود برسید؟

مدل‌های اختصاصی در برابر بازمتن

مدل‌های زبانی بزرگ (LLM) به عنوان پایه و اساس Chatbot محبوب و پرکاربردی مانند ChatGPT و Google Gemini به شمار می‌آیند. به طور خاص، ChatGPT بر پایه GPT-4، یک LLM پیشرفته تولید شده و متعلق به OpenAI، توسعه‌یافته است، در حالی که Google Bard مبتنی بر مدل PaLM2 است که توسط گوگل طراحی و توسعه‌یافته است.

ChatGPT و Bard، و نیز بسیاری از چت‌بات‌های محبوب دیگر، یک ویژگی مشترکی دارند که به اختصاصی‌بودن LLM پایه آن‌ها برمی‌گردد. به عبارتی، این مدل‌ها متعلق به یک شرکت خاص هستند و تنها مشتریان می‌توانند پس از خرید مجوز، از آن‌ها بهره‌مند شوند. این مجوز مختص حقوق قانونی است، اما در عین حال شامل محدودیت‌هایی در نحوه استفاده از LLM و اطلاعات اندکی درباره مکانیزم‌های نهفته در فناوری نیز می‌باشند.

بااین‌حال، هم‌زمان با این تحولات، جنبشی موازی در عرصه LLMها در حال رشد و شکوفایی است. مدل‌های زبانی بزرگ (LLM) بازمتن؛ در پی نگرانی‌های فزاینده از فقدان شفافیت و دسترسی محدود به LLMهای اختصاصی که عمدتاً تحت کنترل شرکت‌های بزرگ فناوری مانند مایکروسافت، گوگل و اوپن‌ای‌آی (OpenAi) قرار دارند، LLMهای بازمتن نوید می‌دهند که می‌توانند زمینه گسترش LLMها و هوش مصنوعی مولد را به ارتقایی قابل‌دسترس‌تر، شفاف‌تر و نوآورتر رهنمون سازند.

هرچند مدت زیادی از راه‌اندازی ChatGPT و جلب توجه LLMهای اختصاصی می‌گذرد، جامعه بازمتن پیش‌تر به دستاوردهای مهمی نائل آمده و اکنون شاهد تنوع چشمگیری از LLMهای بازمتن هستیم که برای اهداف مختلف در دسترس قرار دارند. استفاده از LLMهای بازمتن به جای LLMهای اختصاصی مزایای متعددی در کوتاه‌مدت و بلندمدت دارند. که برخی از مهم‌ترین آن‌ها به شرح زیر است:

مزایای استفاده از LLMهای بازمتن

امنیت و حریم خصوصی داده‌های بهبودیافته

یکی از بزرگ‌ترین نگرانی‌های استفاده ازLLMهای اختصاصی، خطر نشت اطلاعات یا دسترسی غیرمجاز به داده‌های حساس توسط ارائه‌دهندگان این مدل‌هاست. در واقع، پیش‌تر چندین مورد جنجالی در خصوص استفاده ادعایی از داده‌های شخصی و محرمانه به منظور آموزش این مدل‌ها مطرح شده است. تصور کنید شما یا سازمانی که برای آن کار می‌کنید اسناد مالی یا حقوقی خود را در اختیار مدلی مانند Chatgpt قرار دهید. اما امنیت این اطلاعات واقعاً محفوظ خواهد بود؟ اما با بهره‌گیری از LLMهای بازمتن، مدیریت و کنترل کامل بر اطلاعات خود را در اختیار خواهید داشت.

صرفه‌جویی در هزینه و کاهش وابستگی به فروشنده

اکثر LLMهای اختصاصی برای استفاده به مجوز نیاز دارند که در بلندمدت می‌تواند به هزینه‌ای سنگین تبدیل شود؛ هزینه‌ای که شرکت‌ها، به‌ویژه شرکت‌های کوچک و متوسط، ممکن است از عهده پرداخت آن برنیایند. این معضل در خصوص LLMهای بازمتن صدق نمی‌کند، زیرا اغلب استفاده از آن‌ها به صورت رایگان امکان‌پذیر است.

بااین‌حال، لازم به یادآوری است که اجرایLLM ها، حتی برای فرایند استنتاج، به منابع قابل‌توجهی نیاز دارد. در نتیجه، معمولاً باید هزینه‌های مربوط به استفاده از خدمات ابری یا زیرساخت‌های قدرتمند را نیز در نظر گرفت.

شفافیت کد و امکان سفارشی‌سازی مدل زبان

شرکت‌هایی کهLLMهای بازمتن را به عنوان گزینه انتخابی خود مورداستفاده قرار می‌دهند، به تمامی جوانب عملکرد این مدل‌ها، از جمله کد منبع، معماری، داده‌های آموزشی و مکانیسم‌های آموزش و استنتاج، دسترسی خواهند داشت. این شفافیت، نخستین قدم در جهت بررسی دقیق و همچنین امکان سفارشی‌سازی مدل است.

از آنجا که LLMهای بازمتن به‌طور کلی در دسترس هستند و شامل کد منبع خود می‌شوند، شرکت‌ها می‌توانند این مدل‌ها را مطابق با نیازهای خاص خود به‌طور شخصی‌سازی‌شده تنظیم کنند.

حمایت فعال جامعه و تقویت نوآوری

جنبش بازمتن وعده می‌دهد که استفاده و دسترسی به LLM و فناوری‌های هوش مصنوعی مولد را دموکراتیک کند. فراهم‌آوردن امکان بررسی عملکرد داخلی LLMها برای توسعه‌دهندگان، گامی اساسی در جهت پیشرفت این فناوری محسوب می‌شود. با کاهش موانع ورود برای برنامه‌نویسان در سرتاسر جهان، LLMهای بازمتن می‌توانند نوآوری را تقویت کرده و از طریق کاهش تعصبات و افزایش دقت و کارایی کلی، مدل‌ها را به نحو چشمگیری بهبود بخشند.

کاهش اثرات محیط زیستی هوش مصنوعی

با توجه به افزایش محبوبیت LLMها، محققان و ناظران محیطزیست نگرانی‌های خود را در خصوص ردپای کربن و مصرف آب لازم برای پیاده‌سازی این فناوری‌ها ابراز کرده‌اند. LLMهای اختصاصی به ندرت اطلاعات دقیقی درباره منابع موردنیاز برای آموزش و بهره‌برداری یا ردپای زیست‌محیطی مرتبط منتشر می‌کنند.

اما با ظهور LLMهای بازمتن، محققان این فرصت را دارند که به اطلاعات موردنیاز دسترسی پیدا کنند؛ اطلاعاتی که می‌تواند نقشی حیاتی در طراحی بهبودهای جدید برای کاهش اثرات زیست‌محیطی هوش مصنوعی ایفا کند.

هشت مدل زبانی بزرگ بازمتن برتر سال ۲۰۲۴

1. LLaMA 3.1

اکثر بازیگران پیشرو در عرصه LLM ترجیح داده‌اند که مدل‌های خود را در پس درهای بسته توسعه دهند. با این حال، متا با مجموعه LLMهای بازمتن خود که به‌تازگی شامل LLaMA 3.1 شده، همچنان به‌عنوان یک استثنا در این فضا به شمار می‌آید.

LLaMA 3.1 که در تاریخ 23 ژوئیه 2024 روانه بازار شد، شامل مدل‌هایی با پارامترهای B8، B70 و برای نخستین بار، B405 است که آن را به بزرگ‌ترین مدل در این سری تبدیل می‌کند. این مدل‌ها به‌منظور انجام طیف وسیعی از وظایف پردازش زبان طبیعی در زبان‌های مختلفی از جمله انگلیسی، اسپانیایی، پرتغالی، آلمانی، تایلندی، فرانسوی، ایتالیایی و هندی طراحی شده‌اند.

مدل‌های LLaMA 3.1 به لطف پشتیبانی از طول زمینه‌ای بسیار گسترده با حداکثر 128,000 توکن، توانایی خود را در پردازش و درک متون طولانی به‌طرز چشمگیری افزایش داده‌اند. این ویژگی نه تنها عملکرد آن‌ها را در وظایف استدلال پیچیده بهبود می‌بخشد، بلکه در حفظ زمینه در مکالمات طولانی نیز تاثیر بسزایی دارد.

مدل B405 به‌ویژه به‌عنوان یک نیروگاه تولید داده‌های مصنوعی شناخته می‌شود که می‌تواند به‌عنوان منبعی ارزشمند برای آموزش مدل‌های دیگر و تقطیر دانش مورداستفاده قرار گیرد. به این ترتیب، دانش حاصل از این مدل عظیم قادر است به مدل‌های کوچک‌تر و کارآمدتر منتقل شود. این قابلیت، امکانات بی‌نظیری را برای استقرار هوش مصنوعی پیشرفته در محیط‌های با منابع محدود فراهم می‌آورد.

علاوه بر این، LLaMA 3.1 همچنان از یادگیری تقویتی بر اساس بازخورد انسانی (RLHF) بهره می‌برد تا اطمینان حاصل کند که مدل‌ها با ترجیحات انسانی در زمینه مفیدبودن و ایمنی همخوانی دارند.

2. BLOOM

BLOOM که در سال 2022 و پس از یک پروژه همکاری یک‌ساله با داوطلبانی از بیش از 70 کشور و محققان Hugging Face منتشر شد، نوعی مدل زبانی خود رگرسیو (LLM) است. این مدل برای ادامه متن را براساس یک درخواست خاص، بر روی مجموعه‌های عظیم و گسترده‌ای از داده‌های متنی آموزش‌دیده و با بهره‌گیری از منابع محاسباتی مقیاس صنعتی توسعه‌یافته است.

انتشار BLOOM به‌عنوان یک نقطه عطف مهم در مسیر دموکراتیک کردن هوش مصنوعی مولد تلقی می‌شود. این مدل، با برخورداری از 176 میلیارد پارامتر، یکی از قدرتمندترین مدل‌های زبانی بازمتن به شمار می‌رود و توانایی ارائه متن‌های منسجم و دقیقی به 46 زبان و 13 زبان برنامه‌نویسی را داراست.

شفافیت اساس پروژه BLOOM است. این پروژه به‌گونه‌ای طراحی شده که همه افراد بتوانند به کد منبع و داده‌های آموزشی دسترسی پیدا کنند تا بتوانند آن را اجرا کرده، موردمطالعه قرار داده و بهبود بخشید.

می‌توان به صورت رایگان از BLOOM از طریق اکوسیستم Hugging Face استفاده کنید.

3. BERT

تکنولوژی مبنایی LLM از نوع یک معماری عصبی به نام ترانسفورمر است. این معماری توسط محققان گوگل در سال 2017 در مقاله Attention is All You Need معرفی شد. یکی از اولین آزمایش‌های انجام شده بر روی ترانسفورمرها BERT بود.

BERT (Bidirectional Encoder Representations from Transformers) که توسط گوگل در سال 2018 به عنوان یک LLM (زبان طبیعی تفسیر شده توسط رایانه) معرفی شد، به سرعت به عملکرد پیشرفته‌ای در بسیاری از وظایف پردازش زبان طبیعی دست یافت.

به لطف ویژگی‌های نوآورانه این مدل، در اوایل LLMها و به دلیل بازمتن بودن، BERT به یکی از محبوب‌ترین و پرکاربردترین LLMها تبدیل شد. به عنوان مثال، در سال 2020، گوگل اعلام کرد که از BERT در بیش از 70 زبان در Google Search استفاده می‌کند.

در حال حاضر هزاران مدل BERT بازمتن، رایگان و آماده برای استفاده در موارد خاص مانند تحلیل احساسات، تحلیل یادداشت‌های بالینی و تشخیص نظر سمی وجود دارد.

4. Falcon 180B

اگر Falcon 40B پیش‌تر تأثیراتی را بر جامعه منابع زبان و بازمتن داشته باشد (که این مدل به‌عنوان رده‌بند اصلی در جدول امتیازدهی Hugging Face برای مدل‌های زبانی بزرگ بازمتن معرفی شده است)، آن‌گاه نمونه جدید Falcon 180B نشان می‌دهد که فاصله بین منابع زبان خصوصی و منابع زبان بازمتن به سرعت در حال کاهش‌یافتن است.

Falcon 180B که در سپتامبر 2023 توسط موسسه نوآوری فناوری امارات متحده عربی منتشر شد، در حال آموزش با 180 میلیارد پارامتر و 3.5 تریلیون توکن است. با این توان محاسباتی چشمگیر، Falcon 180B هم اکنون در وظایف مختلف NLP از LLaMA 2 و GPT-3.5 پیشتاز است و Hugging Face پیشنهاد می‌دهد که می‌تواند با PaLM 2 از گوگل، LLM که Google Bard را تقویت می‌کند، رقابت کند.

اگرچه Falcon 180B برای استفاده تجاری و تحقیقاتی رایگان در دسترس است، اما باید توجه داشت که برای عملکرد بهتر به منابع محاسباتی مهم نیاز دارد.

5. OPT-175B

منتشرشدن مدل‌های زبان پیش‌آماده باز (OPT) ترانسفورمر در سال 2022، یک نقطه عطف مهم دیگر در استراتژی متا برای آزادسازی رقابت LLM از طریق بازمتن بود.

OPT شامل یک مجموعه از ترانسفورمرهای پیش‌آماده برای استفاده تنها به عنوان رمزگشا است که دارای 125M تا 175B پارامتر است. OPT-175B یکی از پیشرفته‌ترین LLMهای بازمتن در بازار است و قدرتمندترین نسل از این محصول با عملکرد مشابه GPT-3 است. هر دو مدل پیش‌آماده و کد منبع آن‌ها برای عموم در دسترس قرار دارند.

با این حال، اگر در حال تصورکردن ایجاد یک شرکت مبتنی بر هوش مصنوعی با LLM هستید، بهتر است به چیز دیگری فکر کنید، زیرا OPT-175B تحت یک مجوز غیرتجاری منتشر می‌شود که تنها استفاده از مدل برای موارد تحقیقاتی را مجاز می‌کند.

6. XGen-7B

شرکت‌های بیشتری در حال ورود به رقابت LLM هستند. یکی از شرکت‌های تازه وارد به این رقابت، Salesforce است که LLM XGen-7B خود را در ماه ژوئیه 2023 معرفی کرده است.

به گفته نویسندگان، بیشتر LLMهای بازمتن به تولید پاسخ‌های طولانی با دسترسی محدود (درخواست‌های کوتاه با اطلاعات محدود) متمرکز هستند. هدف اصلی از XGen-7B ایجاد ابزاری است که از پنجره‌های زمانی طولانی‌تر پشتیبانی کند. به‌طور خاص، نسل پیشرفته‌تر XGen (XGen-7B-8K-base) قادر است به پنجره زمانی K8، یعنی اندازه تجمعی متن ورودی و خروجی، پاسخ دهد.

کارایی تنها یکی از اولویت‌های اصلی XGen نیست. این سیستم فقط از B7 پارامتر برای آموزش استفاده می‌کند که مقدار آن بسیار کمتر از LLMهای بازمتن قدرتمند مانند LLaMA 2 یا Falcon است.

با وجود اندازه نسبتاً کوچک خود، XGen همچنان می‌تواند نتایج عالی ارائه دهد. این مدل برای اهداف تجاری و تحقیقاتی در دسترس است، به جز نوع XGen-7B- {4K,8K} -inst که بر روی داده‌های آموزشی و RLHF آموزش‌دیده است و تحت یک مجوز غیرتجاری منتشر می‌شود.

7. GPT-NeoX و GPT-J

GPT-NeoX و GPT-J توسط محققان آزمایشگاه تحقیقاتی غیرانتفاعی هوش مصنوعی EleutherAI توسعه یافته‌اند و به عنوان دو جایگزین عالی و بازمتن برای GPT شناخته می‌شوند.

GPT-NeoX دارای بیست میلیارد پارامتر است، در حالی که GPT-J دارای شش میلیارد پارامتر است. اگرچه پیشرفته‌ترین LLMها می‌توانند با بیش از صد میلیارد پارامتر آموزش داده شوند، این دو LLM همچنان می‌توانند نتایج با دقت بالا ارائه دهند.

آنها با 22 مجموعه داده باکیفیت از یک مجموعه متنوع از منابع آموزش‌دیده شده‌اند که قابل استفاده در چندین حوزه و بسیاری از موارد می‌باشد. برخلاف GPT-3، GPT-NeoX و GPT-J با RLHF آموزش داده نگرفته‌اند.

همه کارهای پردازش زبان طبیعی میتواند با استفاده از GPT-NeoX و GPT-J انجام شود؛ از تولید متن و تحلیل احساسات گرفته تا توسعه تحقیقات و کمپینهای بازاریابی.

هر دو تکنولوژی از طریق API NLP Cloud به صورت رایگان در دسترس قرار دارند.

8. Vicuna 13-B

Vicuna-13B یک مدل گفتگوی بازمتن است که از تنظیم دقیق مدل LLaMa 13B با استفاده از مکالمات جمع‌آوری شده توسط کاربر از ShareGPT آموزش‌دیده است.

به عنوان یک هوش مصنوعی پیشرفته، Vicuna-13B کاربردهای گوناگونی دارد که از جمله آنها می‌توان به خدمات مشتری، مراقبت‌های بهداشتی، آموزش، امور مالی و سفر/مهمان‌نوازی در صنایع مختلف اشاره کرد.

ارزیابی اولیه با استفاده از GPT-4 نشان داد که Vicuna-13B بیش از ۹۰٪ کیفیت ChatGPT و Google Bard را دارد و در بیش از ۹۰٪ موارد از مدل‌های دیگر مانند LLaMa و Alpaca بهتر عمل کرده است.

انتخاب LLM بازمتن متناسب با نیازهای بشر

فضای LLM بازمتن در حال گسترش سریعی است. امروزه تعداد زیادی از LLMهای بازمتن وجود دارند که بسیار بیشتر از LLMهای اختصاصی هستند. این موضوع ممکن است منجر به پر شدن شکاف عملکرد بشود، زیرا توسعه‌دهندگان در سراسر جهان به منظور بهبود LLMهای فعلی و طراحی بهتر LLMها به همکاری می‌پردازند.

انتخاب یک LLM بازمتن مناسب در این عرصه پویا و پرشور می‌تواند چالش‌برانگیز باشد. عوامل متعددی وجود دارند که باید هنگام تصمیم‌گیری در مورد LLM منتخب در نظر بگیرید. برای کمک به شما در این فرایند، لیستی از معیارهای کلیدی تهیه شده و در ادامه آورده شده است:

می‌خواهید چه کاری انجام دهید؟

هنگام تصمیم‌گیری در مورداستفاده از یک LLM بازمتن، اولین سؤالی که باید از خودتان بپرسید این است که آیا می‌خواهید یک کسب‌وکار راه بیندازید یا خیر. در حالی که LLMهای بازمتن همیشه در دسترس هستند، برخی از آنها فقط برای اهداف تحقیقاتی منتشر می‌شوند و ممکن است محدودیت‌های مجوز داشته باشند. از خودتان بپرسید که آیا می‌خواهید یک شرکت راه‌اندازی کنید، زیرا این امر می‌تواند در انتخاب LLM مناسب شما تأثیرگذار باشد.

چرا به یک LLM نیاز دارید؟

مد بودن LLMها غیرقابل‌انکار است و هیجان زیادی در مورد تواناییهای آنها وجود دارد. با این حال، قبل از شیرجه‌زدن در استفاده از آنها، ارزش آن را دارد که یک قدم عقب برداریم و بپرسیم: آیا واقعاً به آنها نیاز داریم؟ اگر میتوانید پروژه خود را بدون آنها انجام دهید، ممکن است بهتر باشد از آنها اجتناب کنید. این نه تنها میتواند هزینهها را کاهش دهد، بلکه به معنای استفاده بهینه از منابع نیز هست.

به چه میزان دقت نیاز دارید؟

این موضوع از اهمیت بالایی برخوردار است. بین اندازه و دقت مدل‌های زبانی بزرگ (LLM) پیشرفته، رابطه‌ای مستقیم وجود دارد. به عبارت دیگر، به طور کلی هرچه تعداد پارامترها و داده‌های آموزشی یک LLM بیشتر باشد، دقت آن نیز افزایش می‌یابد؛ بنابراین، در صورتی که به‌دقت بالا نیاز دارید، باید به سراغ LLMهای بزرگ‌تری مانند LLaMA یا Falcon بروید.

می‌خواهید چقدر سرمایه‌گذاری کنید؟

این موضوع ارتباط نزدیکی با سؤال قبلی دارد. هرچه مدل بزرگ‌تر باشد، نیاز به منابع بیشتری برای آموزش و استفاده از آن وجود دارد. این به معنای نیاز به زیرساخت‌های اضافی برای بهره‌برداری یا هزینه‌های بالاتر از ارائه‌دهندگان خدمات ابری است، به ویژه اگر قصد دارید LLM خود را در فضای ابری اجرا کنید. LLMها ابزارهای بسیار قدرتمندی هستند، اما حتی برای استفاده از آنها، حتی LLMهای بازمتن، به منابع قابل‌توجهی نیاز است.

آیا می‌توانید با یک مدل پیش‌آماده به اهداف خود برسید؟

چرا باید وقت و انرژی خود را صرف آموزش LLM خود از ابتدا کنید، در حالی که می‌توانید به راحتی از یک مدل پیش‌آماده بهره ببرید؟

در حال حاضر، نسخه‌های متعددی از LLMهای بازمتن وجود دارد که برای کاربردهای خاص آموزش دیده‌اند. اگر ایده شما در یکی از این کاربردها قرار می‌گیرد، بهتر است از همان مدل استفاده کنید.

نتیجه‌گیری

مدل‌های زبانی بازمتن در حال تجربه یک جنبش هیجان‌انگیز هستند. با پیشرفت سریع این مدل‌ها، به نظر می‌رسد که حوزه هوش مصنوعی مولد به طور ضروری تحت تسلط بازیگران بزرگ که قادر به ساخت و استفاده از این ابزارهای قدرتمند هستند، نخواهد بود.

منبع

https://hooshio.com/?p=55814