مدل زبانی «توکا» به صورت «وزنباز» منتشر شد
مرکز تحقیقات هوش مصنوعی پارت، نسخهٔ وزنباز مدل زبانی «توکا» را منتشر کرد. این مدل زبانی با ۵۰۰ گیگابایت داده (معادل ۹۰ میلیارد توکن) بر پایه مدل متنباز BERT LARGE توسعه پیدا کرده است.
«توکا» درحقیقت اولین مدل زبانی BERT large است که با زبان فارسی آموزش داده شده و قرار است برای توسعهٔ ابزارهای تعاملی هوشمند در دسترس توسعهدهندگان باشد. توکا میتواند به کسبوکارها نیز برای دستیابی به ابزارهای سفارشیسازیشده پیشرو مبتنی بر هوش مصنوعی کمک کند.
Bert Large، مدلی برای پردازش زبان طبیعی است که در گوگل توسعه پیدا کرده و بهصورت متنباز (open source) در دسترس علاقهمندان قرار دارد. آنچه مرکز تحقیقات هوش مصنوعی پارت در آموزش دادن توکا با زبان فارسی به آن دست یافته، ماتریس وزنی منحصربهفرد و کاربردی است و به همین دلیل، در ادبیات دانشگاهی هوش مصنوعی از این اقدام به انتشار «وزنباز» توکا یاد میشود.
شرکت پارت پیش از این نیز «درنا» مدل زبانی بزرگ ۱۳ میلیارد پارامتری خود را منتشر کرده بود، اما با انتشار وزنباز (open weight) مدل زبانی توکا برای توسعهدهندگان هوش مصنوعی فارسی به دنبال هوشمندسازی هرچه بیشتر کسبوکارها است و این اطمینان را به توسعهدهندگان میدهد که پشتیبانی کامل را از کاربران این مدل به عمل آورد.
مدل زبانی «توکا» که با تلاش متخصصان مرکز تحقیقات هوش مصنوعی پارت توسعه دادهشده، اولین BERT Large در زبان فارسی محسوب میشود. مجموعه دانشبنیان پارت، نسخهٔ پایهٔ این مدل را نیز بهصورت وزنباز ارائه کرده که نسبت به دیگر نسخههای مشابه، عملکرد دقیقتری دارد.
انتشار بیسابقهٔ این مدل زبانی در حالی رخ میدهد که پیشازاین، هیچیک از کسبوکارهای داخلی موفق به توسعهٔ مدل زبانی BERT Large نشده بودند و تنها از نسخهٔ پایه برای توسعه خدمات هوشمند بهره میبردند.
مرکز تحقیقات هوش مصنوعی پارت با استفاده از مدل زبانی توکا، محصولات مختلفی را توسعه داده است که از مهمترین آنها میتوان به سرویسهای هوشمند ابری سهاب، سرویس تبدیل صوت به متن «آوانگار»، سرویس تبدیل متن به صوت «آواشو»، چتبات هوشمند «دانابات» و سرویس تبدیل تصویر به متن «نویسهنگار» اشاره کرد.
مدل وزنباز «توکا» از طریق لینک زیر در دسترس علاقهمندان و توسعهدهندگان است: