پیکره بزرگ متن فارسی به صورت رایگان عرضه شد
محققان یک شرکت دانشبنیان با همکاری آزمایشگاه زبان طبیعی و گفتار دانشگاه شریف، موفق شدند پیکره بزرگ متنی فارسی را توسعه دهند و آن را جهت استفاده محققان هوش مصنوعی و یادگیری عمیق، بهصورت رایگان عرضه کنند.
یکی از اساسیترین نیازهای آموزش شبکههای مبتنی بر ترنسفورمر و مدلهای شبکه عصبی عمیق را میتوان پیکره متنی بزرگ دانست. این مدلها معمولاً به حجم بسیار زیادی از دادههای متنی نیاز دارند و مخصوصاً در زبانهایی همچون فارسی که منابع دردسترس آنها محدود است، پیکره متنی اهمیتی دوچندان پیدا میکند. از همین رو، تیمی از محققان مرکز نوآوری شرکت عصرگویشپرداز با همکاری آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف موفق شدند بزرگترین پیکره متنی ناب فارسی را تا به امروز توسعه دهند و آن را بهصورت رایگان در اختیار محققان و فعالان حوزه هوش مصنوعی و یادگیری عمیق قرار دهند.
محمدرضا حسینیان، مدیرعامل مرکز نوآوری عصرگویشپرداز، بیان کرد: پیکره متنی توسعهیافته شامل 130 گیگابایت دیتای متنی ازجمله 15 میلیارد کلمه و 250 میلیون پاراگراف است و این پیکره بهطور کامل پاکسازی شده و صورت مستقیم برای محققان قابل استفاده است.
پیش از این، بزرگترین پیکره متنی در دسترس محققان، PersianNLP بود که در مجموع شامل 70 گیگابایت دیتای خام شامل 8 زیرپیکره میشد. این زیرپیکرهها بهترتیب زیر دستهبندی میشد:
پیکره لایپزیک
پیکره Miras
پیکره W2C
پیکره VOA
پیکره اشعار فارسی
پیکره موازی فارسی-انگلیسی
پیکره ویکیپدیای فارسی
پیکره Common-Crawl
مدل یادگیری ماشین و یادگیری عمیق به این صورت است که یک متن به الگوریتم موجود داده میشود و یکی از کلمات آن را با جای خالی جایگزین میکنند. سپس از مدل خواسته میشود که باتوجهبه دیگر کلمات متن، جای خالی را پر کند. چنین فرایندی نیازمند مقدار بسیار زیادی دیتای متنی تمیز دادهشده است و همین موضوع باعث میشود محققان نتوانند مدلهای زبانی روز دنیا را برای زبانهایی از جمله فارسی که داده زیادی برای آنها در دسترس نیست، توسعه دهند.
دکتر حسین صامتی، سرپرست آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف و عضو هیئت علمی این دانشگاه گفت: این پیکره بهصورت کاملاً متنباز و رایگان در اختیار توسعهدهندگان قرار میگیرد و میتوانند بهراحتی از آن استفاده کنند. یکی از مزیتهای این پیکره، قرارگیری آن بر روی دیتاست Huggingface است که میتوان بدین وسیله تمام یا بخشی از این پیکره را با استفاده از کتابخانه dataset دانلود و استفاده کرد. این پیکره میتواند برای fine-tune کردن و فارسیسازی مدلهای زبانی که برای انگلیسی تهیه شدهاند، استفاده شود که BERT, BART, T۵ و… را میتوان تعدادی از این مدلهای زبانی دانست.
زیرپیکرههای این پیکره ناب شامل موارد زیر است:
پیکره OSCAR-fa: این پیکره شامل 38 گیگابایت متون رسمی و غیررسمی است که در پیکره ناب از نسخه بههمنخورده با حذف جملات تکراری استفاده شده است. این پیکره، چندزبانی است که یکی از زبانهای این مجموعه فارسی است.
پیکره PesianNLP: این پیکره که پیشازاین بهآن پرداخته شد، پیش از این بزرگترین پیکره فارسی محسوب میشد که شامل 70 گیگابایت دیتای متن فارسی به شکل رسمی بود.
پیکره AGP: پیکره عصرگویشپردازش که پیش از این به صورت خصوصی مورد استفاده این شرکت بود و ازاینپس بهعنوان بخشی از پیکره ناب در دسترس عموم قرار میگیرد. این پیکره شامل 25 گیگابایت متن رسمی و غیررسمی فارسی است.
پیکره Telegram: این پیکره از متون محاورهای و غیررسمی تلگرام جمعآوری شده است و حدود یک گیگابایت داده به حجم دادگان پیکره ناب اضافه میکند.
پیکره LSCP: این پیکره 5 گیگابایتی جزو معدود پیکرههای غیررسمی حجم بالای فارسی است و شامل بخش زیادی از دادههای محاورهای و غیررسمی فارسی است.
علاقهمندان حوزه هوش مصنوعی و یادگیری عمیق میتوانند با مراجعه به دامنه زیر از پیکره ناب فارسی استفاده کنند:
https://huggingface.co/datasets/SLPL/naab
جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید