Salesforce از مدل‌ زبانی جدیدی با قابلیت پردازش ۱.۵ تریلیون کلمه رونمایی کرد

تیم تحریریه
۱۴ تیر ۱۴۰۲
زمان مطالعه 2 دقیقه

Salesforce مجموعه جدیدی از ابزارهای مجهز به هوش مصنوعی را منتشر کرده است که می‌توانند مقادیر بسیار زیادی از داده‌های متنی، تا ۱.۵ تریلیون کلمه یا نشانه را مدیریت نمایند. این ابزارها که با نام مدل‌های خانواده XGen-7B شناخته می‌شوند، می‌توانند به‌صورت خاص برای مدیریت داده‌های بدون ساختار (داده‌هایی که به‌خوبی در ردیف‌ها و ستون‌ها مانند متن‌ها و تصاویر قرار نمی‌گیرند) به کار گرفته شوند و بسیار بهتر از مدل‌های متا LLAMA تجزیه‌و‌تحلیل و سازماندهی داشته باشند.

همانطور که افراد بیشتری شروع به استفاده از ابزارهای هوش مصنوعی مانند ChatGPT می‌کنند، داده‌های وارد شده به این سیستم‌ها پیچیده‌تر و ساختارمندتر می‌شوند. این پیچیدگی استفاده از ابزارهایی مانند ChatGPT را که برای تجزیه‌و‌تحلیل زبان و متن طراحی شده‌اند، در زمانی که ورودی یا داده‌های مورد تجزیه‌و‌تحلیل از ساختار واضحی پیروی نمی‌کنند، دشوارتر می‌کند. بنابراین، نیاز روزافزونی به سیستم‌های پیشرفته‌ای وجود دارد که بتوانند داده‌های بدون ساختار را مدیریت نمایند و کار بیشتری برای برآورده کردن تقاضای فزاینده برای ابزارهای هوش مصنوعی انجام دهند.

کسب‌وکارها می‌توانند از سیستم‌های چت مانند ChatGPT یا BARD که قادرند خلاصه‌ای از اسناد طولانی را ارائه دهند یا اطلاعات مشتریان را برای به دست آوردن بینش تجزیه‌و‌تحلیل نمایند، بهره ببرند. با این حال، برای اینکه این سیستم‌های چت بتوانند مؤثر واقع شوند، باید روی حجم عظیمی از داده‌ها آموزش ببینند. بسیاری از کسب‌وکارها مدل‌‌های کوچک‌تر و ارزان‌تر این سیستم‌های چت را انتخاب می‌کنند، که همیشه قادر به انجام کارهای پیچیده مانند خلاصه کردن اسناد طولانی یا بررسی دقیق داده‌های مشتریان نیستند. بنابراین، از آنجایی که این مدل‌ها نمی‌توانند به خوبی از عهده چنین کارهای پیچیده‌ای برآیند، این کسب‌وکارها نمی‌توانند به صورت کامل از مزایای این فناوری بهره‌مند گردند.

مدل‌های زبانی منبع‌بازی همچون LLAMA، Falcon-7B، و متای MPT-7B در مدیریت متون یا اسناد طولانی ایده‌آل نیستند، زیرا قادر به مدیریت حجم زیادی از متون نبوده و تنها می‌توانند حداکثر طول توالی حدود ۲۰۰۰ توکن یا واحد متن را کنترل نمایند. با این حال، خانواده مدل‌های زبان XGen-7B که توسط Salesforce توسعه یافته، با استفاده از تکنیکی به نام «توجه متراکم استاندارد» آموزش داده شده‌اند و به همین دلیل قادر به پردازش داده‌های ورودی بسیار بزرگ‌تر تا حداکثر تا ۱.۵ تریلیون توکن هستند. این امر مدل‌های زبانی مذکور را به ابزاری مؤثر برای مدیریت و تجزیه‌و‌تحلیل اسناد طولانی تبدیل کرده است.

محققان Salesforce مجموعه‌ای از مدل‌های زبانی با هفت میلیارد پارامتر را انتخاب کردند و با استفاده از ترکیبی از داده‌های Salesforce و JAXFORMER و همچنین داده‌های آموزشی در دسترس عموم، به آنها آموزش دادند. این مدل در مقایسه با مدل‌های منبع باز مانند LLAMA، Falcon و Redpajama به نتایج بهتری دست یافته است. محققان همچنین دریافتند که آموزش مدل با ۱ تریلیون توکن با استفاده از پلتفرم محاسباتی Google Cloud TPU-V4 که روشی مقرون‌به‌صرفه‌تر و کارآمدتر برای آموزش مدل‌های زبان بزرگ است، تنها ۱۵۰۰۰۰ دلار هزینه دارد. بنابراین، محققان توانسته‌اند یک مدل هوش مصنوعی پیشرفته ایجاد نمایند که می‌تواند مقادیر زیادی از داده‌ها را با دقت بیشتری نسبت به دیگر جایگزین‌های منبع‌باز تجزیه‌و‌تحلیل و پردازش کند، در حالی که هزینه آموزش مدل را نسبتاً پایین نگه می‌دارد.