
نوآوری دیتابریکس؛ بهبود خودکار مدلهای هوش مصنوعی با دادههای ناقص
شرکت Databricks که در حوزه کمک به کسبوکارهای بزرگ برای ساخت مدلهای هوش مصنوعی سفارشی فعالیت میکند، تکنیک جدیدی توسعه داده است که میتواند عملکرد مدلهای هوش مصنوعی را بدون نیاز به دادههای پاک و برچسبخورده بهبود بخشد.
مشکل اساسی: دادههای آلوده
جاناتان فرانکل، دانشمند ارشد هوش مصنوعی در Databricks، معتقد است که ریشه مشکل در «دادههای آلوده» نهفته است. او توضیح میدهد: «هر شرکتی دادههایی دارد و تصویری کلی از آنچه میخواهد انجام دهد، اما کمبود دادههای تمیز، تنظیم دقیق مدلها برای وظایف خاص را بسیار دشوار میکند. هیچکس دادههای آماده و پاکی برای فاینتیونینگ ندارد.»
این چالش، مانع اصلی در مسیر استقرار عاملهای (Agent) اختصاصی شرکتها برای انجام وظایف گوناگون محسوب میشود. مدل ارائهشده توسط Databricks قرار است این مشکل را حل کند.
تکنیک TAO: ترکیب یادگیری تقویتی با دادههای مصنوعی
روش جدید Databricks که بهینهسازی تطبیقی در زمان آزمون یا TAO (Test-time Adaptive Optimization) نامیده میشود، از ترکیب دو تکنیک کلیدی بهره میگیرد:
۱. یادگیری تقویتی سبکوزن
این فرایند به مدل کمک میکند تا بر پایه سیگنالهای پاداش و از طریق تمرین مداوم بهبود یابد.
۲. دادههای آموزشی مصنوعی
این دادهها توسط خود سامانههای هوش مصنوعی تولید میشوند و جایگزین مناسبی برای دادههای برچسبخورده انسانی محسوب میشوند.
نحوه عملکرد سیستم
Databricks مدلی به نام DBRM (Databricks Reward Model) آموزش داده که میتواند پیشبینی کند کدام نتیجه از میان چندین خروجی، توسط ارزیابهای انسانی ترجیح داده میشود. این مدل سپس برای انتخاب بهترین خروجیها استفاده میشود که بهعنوان دادههای آموزشی مصنوعی برای تنظیم دقیقتر مدل به کار میروند.
فرانکل توضیح میدهد: «این روش از یادگیری تقویتی نسبتاً سبکوزن استفاده میکند تا مزایای best-of-N را در درون خود مدل نهادینه کند.»
نتایج آزمایشات: پیشی گرفتن از مدلهای OpenAI
Databricks روش TAO را روی FinanceBench، معیاری برای سنجش توانایی مدلهای زبانی در پاسخگویی به سؤالات مالی، آزمایش کرده است. نتایج چشمگیر بوده:
- Llama 3.1B (کوچکترین مدل رایگان Meta): ۶۸.۴٪
- GPT-4o و o3-mini (OpenAI): ۸۲.۱٪
- Llama 3.1B با TAO: ۸۲.۸٪ (بهتر از مدلهای OpenAI)
کاربردهای عملی در صنعت
این تکنیک برای وظایف تخصصی که نیاز به دقت بالا دارند، بسیار مفید است:
حوزه مالی
عاملهایی که عملکرد کلیدی شرکتها را تحلیل کرده، گزارش تهیه کنند و بهصورت خودکار برای تحلیلگران ارسال کنند.
بیمه سلامت
عاملهایی که به مشتریان در دسترسی به اطلاعات داروها یا شرایط پزشکی خاص کمک کنند.
نظر کارشناسان: امیدوارکننده اما محتاطانه
کریستوفر آماتو، دانشمند علوم رایانه در دانشگاه Northeastern، میگوید: «این ایده بسیار امیدوارکننده است. کمبود دادههای آموزشی باکیفیت واقعاً مشکل بزرگی است.»
او میافزاید که روش TAO میتواند امکان برچسبگذاری دادهها را در مقیاس بزرگتر فراهم کند، اما هشدار میدهد که یادگیری تقویتی گاهی به شیوههای غیرقابل پیشبینی عمل میکند.
پیادهسازی در دنیای واقعی
فرانکل اعلام کرده که Databricks در حال استفاده از تکنیک TAO برای بهبود مدلهای مشتریان خود است. یکی از مشتریان که اپلیکیشن پایش سلامت تولید میکند، گزارش داده که این روش به او امکان استفاده از مدلی را داده که پیشتر به اندازه کافی قابلاعتماد نبود.
چشمانداز آینده
این نوآوری نشان میدهد که صنعت هوش مصنوعی در حال حرکت به سمت راهحلهایی است که محدودیتهای دادهای را دور بزند. با ترکیب هوشمندانه یادگیری تقویتی و دادههای مصنوعی، شرکتها میتوانند مدلهای قدرتمندتری بسازند حتی زمانی که دادههای کامل در اختیار ندارند.
این رویکرد میتواند نقطه عطفی در دموکراتیزه کردن دسترسی به مدلهای هوش مصنوعی پیشرفته برای کسبوکارهایی باشد که پیشتر به دلیل کمبود دادههای باکیفیت، امکان بهرهگیری مؤثر از این فناوری را نداشتند.