مدل زبانی «توکا» به صورت «وزن‌باز» منتشر شد

تیم تحریریه
۲۹ اردیبهشت ۱۴۰۳
زمان مطالعه 2 دقیقه

مرکز تحقیقات هوش مصنوعی پارت، نسخهٔ وزن‌باز مدل زبانی «توکا» را منتشر کرد. این مدل زبانی با ۵۰۰ گیگابایت داده (معادل ۹۰ میلیارد توکن) بر پایه مدل متن‌باز BERT LARGE توسعه پیدا کرده است.

«توکا» درحقیقت اولین مدل زبانی BERT large است که با زبان فارسی آموزش داده شده و قرار است برای توسعهٔ ابزارهای تعاملی هوشمند در دسترس توسعه‌دهندگان باشد. توکا می‌تواند به کسب‌وکارها نیز برای دستیابی به ابزارهای سفارشی‌سازی‌شده پیشرو مبتنی بر هوش مصنوعی کمک کند.

Bert Large، مدلی برای پردازش زبان طبیعی است که در گوگل توسعه پیدا کرده و به‌صورت متن‌باز (open source) در دسترس علاقه‌مندان قرار دارد. آن‌چه مرکز تحقیقات هوش مصنوعی پارت در آموزش دادن توکا با زبان فارسی به آن دست یافته، ماتریس وزنی منحصربه‌فرد و کاربردی است و به همین دلیل، در ادبیات دانشگاهی هوش مصنوعی از این اقدام به انتشار «وزن‌باز» توکا یاد می‌شود.

شرکت پارت پیش از این نیز «درنا» مدل زبانی بزرگ ۱۳ میلیارد پارامتری خود را منتشر کرده بود، اما با انتشار وزن‌باز (open weight) مدل زبانی توکا برای توسعه‌دهندگان هوش مصنوعی فارسی به دنبال هوشمندسازی هرچه بیشتر کسب‌وکارها است و این اطمینان را به توسعه‌دهندگان می‌دهد که پشتیبانی کامل را از کاربران این مدل به عمل آورد.

مدل زبانی «توکا» که با تلاش متخصصان مرکز تحقیقات هوش مصنوعی پارت توسعه داده‌شده، اولین BERT Large در زبان فارسی محسوب می‌شود. مجموعه دانش‌بنیان پارت، نسخهٔ پایهٔ این مدل را نیز به‌صورت وزن‌باز ارائه کرده که نسبت به دیگر نسخه‌های مشابه، عملکرد دقیق‌تری دارد.

انتشار بی‌سابقهٔ این مدل زبانی در حالی رخ می‌دهد که پیش‌ازاین، هیچ‌یک از کسب‌وکارهای داخلی موفق به توسعهٔ مدل زبانی BERT Large نشده بودند و تنها از نسخهٔ پایه برای توسعه خدمات هوشمند بهره می‌بردند.

مرکز تحقیقات هوش مصنوعی پارت با استفاده از مدل زبانی توکا، محصولات مختلفی را توسعه داده است که از مهم‌ترین آن‌ها می‌توان به سرویس‌های هوشمند ابری سهاب، سرویس تبدیل صوت به متن «آوانگار»، سرویس تبدیل متن به صوت «آواشو»، چت‌بات هوشمند «دانابات» و سرویس تبدیل تصویر به متن «نویسه‌نگار» اشاره کرد.

مدل وزن‌باز «توکا» از طریق لینک زیر در دسترس علاقه‌مندان و توسعه‌دهندگان است:

https://partdp.ai/blog/bert