Salesforce از مدل زبانی جدیدی با قابلیت پردازش ۱.۵ تریلیون کلمه رونمایی کرد
Salesforce مجموعه جدیدی از ابزارهای مجهز به هوش مصنوعی را منتشر کرده است که میتوانند مقادیر بسیار زیادی از دادههای متنی، تا ۱.۵ تریلیون کلمه یا نشانه را مدیریت نمایند. این ابزارها که با نام مدلهای خانواده XGen-7B شناخته میشوند، میتوانند بهصورت خاص برای مدیریت دادههای بدون ساختار (دادههایی که بهخوبی در ردیفها و ستونها مانند متنها و تصاویر قرار نمیگیرند) به کار گرفته شوند و بسیار بهتر از مدلهای متا LLAMA تجزیهوتحلیل و سازماندهی داشته باشند.
همانطور که افراد بیشتری شروع به استفاده از ابزارهای هوش مصنوعی مانند ChatGPT میکنند، دادههای وارد شده به این سیستمها پیچیدهتر و ساختارمندتر میشوند. این پیچیدگی استفاده از ابزارهایی مانند ChatGPT را که برای تجزیهوتحلیل زبان و متن طراحی شدهاند، در زمانی که ورودی یا دادههای مورد تجزیهوتحلیل از ساختار واضحی پیروی نمیکنند، دشوارتر میکند. بنابراین، نیاز روزافزونی به سیستمهای پیشرفتهای وجود دارد که بتوانند دادههای بدون ساختار را مدیریت نمایند و کار بیشتری برای برآورده کردن تقاضای فزاینده برای ابزارهای هوش مصنوعی انجام دهند.
کسبوکارها میتوانند از سیستمهای چت مانند ChatGPT یا BARD که قادرند خلاصهای از اسناد طولانی را ارائه دهند یا اطلاعات مشتریان را برای به دست آوردن بینش تجزیهوتحلیل نمایند، بهره ببرند. با این حال، برای اینکه این سیستمهای چت بتوانند مؤثر واقع شوند، باید روی حجم عظیمی از دادهها آموزش ببینند. بسیاری از کسبوکارها مدلهای کوچکتر و ارزانتر این سیستمهای چت را انتخاب میکنند، که همیشه قادر به انجام کارهای پیچیده مانند خلاصه کردن اسناد طولانی یا بررسی دقیق دادههای مشتریان نیستند. بنابراین، از آنجایی که این مدلها نمیتوانند به خوبی از عهده چنین کارهای پیچیدهای برآیند، این کسبوکارها نمیتوانند به صورت کامل از مزایای این فناوری بهرهمند گردند.
مدلهای زبانی منبعبازی همچون LLAMA، Falcon-7B، و متای MPT-7B در مدیریت متون یا اسناد طولانی ایدهآل نیستند، زیرا قادر به مدیریت حجم زیادی از متون نبوده و تنها میتوانند حداکثر طول توالی حدود 2000 توکن یا واحد متن را کنترل نمایند. با این حال، خانواده مدلهای زبان XGen-7B که توسط Salesforce توسعه یافته، با استفاده از تکنیکی به نام «توجه متراکم استاندارد» آموزش داده شدهاند و به همین دلیل قادر به پردازش دادههای ورودی بسیار بزرگتر تا حداکثر تا ۱.۵ تریلیون توکن هستند. این امر مدلهای زبانی مذکور را به ابزاری مؤثر برای مدیریت و تجزیهوتحلیل اسناد طولانی تبدیل کرده است.
محققان Salesforce مجموعهای از مدلهای زبانی با هفت میلیارد پارامتر را انتخاب کردند و با استفاده از ترکیبی از دادههای Salesforce و JAXFORMER و همچنین دادههای آموزشی در دسترس عموم، به آنها آموزش دادند. این مدل در مقایسه با مدلهای منبع باز مانند LLAMA، Falcon و Redpajama به نتایج بهتری دست یافته است. محققان همچنین دریافتند که آموزش مدل با ۱ تریلیون توکن با استفاده از پلتفرم محاسباتی Google Cloud TPU-V4 که روشی مقرونبهصرفهتر و کارآمدتر برای آموزش مدلهای زبان بزرگ است، تنها 150000 دلار هزینه دارد. بنابراین، محققان توانستهاند یک مدل هوش مصنوعی پیشرفته ایجاد نمایند که میتواند مقادیر زیادی از دادهها را با دقت بیشتری نسبت به دیگر جایگزینهای منبعباز تجزیهوتحلیل و پردازش کند، در حالی که هزینه آموزش مدل را نسبتاً پایین نگه میدارد.