امیرمحمد صالحاوف، مدیر تیم پردازش زبان طبیعی پارت:
«چرا مدل بومی بسازیم؟»
در جریان رویداد «هوش مصنوعی و قند پارسی»، امیرمحمد صالحاوف، مدیر تیم پردازش زبان طبیعی پارت، با تشریح وضعیت فعلی فناوری و ترسیم دورنمای آینده، به اهمیت راهبردی توسعه مدلهای زبانی بومی برای ایران پرداخت.
از هوش محدود تا عصر فراهوش
صالحاوف با اشاره به گستره ابزارهای فعلی هوش مصنوعی، تأکید کرد که علیرغم جذابیتهای علمی، این ابزارها هنوز در زمره «هوش مصنوعی محدود» قرار دارند؛ یعنی سیستمهایی که توانایی آنها در حد انسان نیست اما میتوانند بهطور مؤثری کارهای ما را تسهیل کنند.
او چشمانداز آینده را فراتر از این مرحله توصیف کرد؛ رسیدن به هوش عمومی (AGI) تا سال ۲۰۳۰ و ورود به دوران فراهوش در افق ۲۰۴۵؛ عصری که در آن ابزارهای هوشمند فراتر از توانایی انسان عمل خواهند کرد.
مسیر تحول مدلهای زبانی
مدیر تیم NLP پارت، مروری بر روند پیشرفت مدلهای زبانی داشت؛ از مدلهای آماری دهه ۹۰ میلادی، تا ظهور ترنسفورمرها در سال ۲۰۱۸ و شکلگیری مدلهای زبانی بزرگ (LLMs) پس از آن. به گفته او، این تحول بهواسطه جهشهای سختافزاری و یادگیری انتقالی ممکن شد و منجر به تولید مدلهایی شد که توان پاسخدهی هوشمندانه دارند.
داده؛ قلب تپنده مدلهای هوشمند
به اعتقاد صالحاوف، امروزه معماری مدلهای زبانی تقریباً استاندارد شده و آنچه تمایز ایجاد میکند، دادههای آموزش است. از اینرو تیمی تخصصی در پارت، وظیفه گردآوری، پالایش و برچسبگذاری دادههای فارسی را بر عهده گرفته است. این تیم با صرف بیش از ۱۵هزار ساعت نیروی انسانی، توانسته کیفیت دادهها را تا حد زیادی افزایش دهد.
توسعه tokenizer فارسی؛ از چالش تا دستاورد
یکی از موانع جدی توسعه مدلهای فارسی، فقدان توکنایزر مناسب بود. پارت این خلأ را با توسعه tokenizer اختصاصی در مدل «توکا» و ارتقای آن در «برنا» جبران کرد. این ابزارها، با دادههای فارسیـانگلیسی و آموزش روی ۲۵۰ گیگابایت متن خام، دقت و بازدهی مدلها را افزایش دادهاند.
چرا باید مدل بومی توسعه دهیم؟
صالحاوف در بخشی مهم از سخنان خود، بهطور مفصل به این پرسش کلیدی پاسخ داد؛ چرا باید مدلهای بومی بسازیم؟
او در پاسخ، به دلایلی چون صرفهجویی ارزی، حفظ حریم خصوصی، صیانت از فرهنگ فارسی، کاهش ریسک وابستگی به سیاستهای خارجی، محدودیتهای لایسنس جهانی، و نیاز به شخصیسازی تخصصی اشاره کرد.
از نگاه مصرفکننده نیز، ثبات هزینه ریالی، کنترل داده، و پشتیبانی فنی داخلی از مهمترین مزایای مدلهای بومی به شمار میروند.
معرفی دو برنامه کلیدی پارت در سال جاری
در پایان سخنانش، صالحاوف از دو برنامه استراتژیک پارت برای سال ۱۴۰۴ رونمایی کرد:
توسعه گروه مدلهای زبانی «شاهین»
نسل جدیدی از مدلهای دیکودر پارت با معماری اختصاصی که از ابتدا و بهصورت کامل توسط تیم پارت آموزش داده میشوند. به گفته صالحاوف، این سری از مدلها گامی بلند در مسیر استقلال فناورانه خواهد بود.
نسخه سوم ابزار ارزیابی «LeaderBoard»:
نسخه جدید این ابزار برای ارزیابی دقیقتر عملکرد مدلهای زبانی طراحی شده و هدف آن، انتخاب بهینه مدلها بر اساس نیازهای کاربران مختلف است.
امیرمحمد صالحاوف تأکید کرد که توسعه مدلهای زبانی بومی، صرفاً یک پروژه فنی نیست؛ بلکه بسترساز استقلال فناوری، حفاظت از دادههای داخلی، و شکوفایی اقتصاد دیجیتال کشور خواهد بود. پارت نیز با برنامهریزی دقیق، در مسیر این هدف گام برداشته و تلاش دارد جایگاه ایران را در زیستبوم جهانی هوش مصنوعی ارتقا دهد.