پیکره بزرگ متن فارسی به صورت رایگان عرضه شد

تیم تحریریه
۲۰ شهریور ۱۴۰۱

زمان مطالعه: 3 دقیقه

محققان یک شرکت دانش‌بنیان با همکاری آزمایشگاه زبان طبیعی و گفتار دانشگاه شریف، موفق شدند پیکره بزرگ متنی فارسی را توسعه دهند و آن را جهت استفاده محققان هوش مصنوعی و یادگیری عمیق، به‌صورت رایگان عرضه کنند.

یکی از اساسی‌ترین نیازهای آموزش شبکه‌های مبتنی بر ترنسفورمر و مدل‌های شبکه عصبی عمیق را می‌توان پیکره‌ متنی بزرگ دانست. این مدل‌ها معمولاً به حجم بسیار زیادی از داده‌های متنی نیاز دارند و مخصوصاً در زبان‌هایی همچون فارسی که منابع دردسترس آن‌ها محدود است، پیکره متنی اهمیتی دوچندان پیدا می‌کند. از همین رو، تیمی از محققان مرکز نوآوری شرکت عصر‌گویش‌پرداز با همکاری آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف موفق شدند بزرگ‌ترین پیکره متنی ناب فارسی را تا به امروز توسعه دهند و آن را به‌صورت رایگان در اختیار محققان و فعالان حوزه هوش مصنوعی و یادگیری عمیق قرار دهند.

محمدرضا حسینیان، مدیرعامل مرکز نوآوری عصر‌گویش‌پرداز، بیان کرد: پیکره متنی توسعه‌یافته شامل 130 گیگابایت دیتای متنی ازجمله 15 میلیارد کلمه و 250 میلیون پاراگراف است و این پیکره به‌طور کامل پاک‌سازی شده و صورت مستقیم برای محققان قابل استفاده است.

پیش از این، بزرگ‌ترین پیکره متنی در دسترس محققان، PersianNLP بود که در مجموع شامل 70 گیگابایت دیتای خام شامل 8 زیرپیکره می‌شد. این زیرپیکره‌ها به‌ترتیب زیر دسته‌بندی می‌شد:

پیکره لایپزیک

پیکره Miras

پیکره W2C

پیکره VOA

پیکره اشعار فارسی

پیکره موازی فارسی-انگلیسی

پیکره ویکی‌پدیای فارسی

پیکره Common-Crawl

مدل یادگیری ماشین و یادگیری عمیق به این صورت است که یک متن به الگوریتم موجود داده می‌شود و یکی از کلمات آن را با جای خالی جایگزین می‌کنند. سپس از مدل خواسته می‌شود که باتوجه‌به دیگر کلمات متن، جای خالی را پر کند. چنین فرایندی نیازمند مقدار بسیار زیادی دیتای متنی تمیز داده‌شده است و همین موضوع باعث می‌شود محققان نتوانند مدل‌های زبانی روز دنیا را برای زبان‌هایی از جمله فارسی که داده زیادی برای آنها در دسترس نیست، توسعه دهند.

دکتر حسین صامتی، سرپرست آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف و عضو هیئت علمی این دانشگاه گفت: این پیکره به‌صورت کاملاً متن‌باز و رایگان در اختیار توسعه‌دهندگان قرار می‌گیرد و می‌توانند به‌راحتی از آن استفاده کنند. یکی از مزیت‌های این پیکره، قرارگیری آن بر روی دیتاست Huggingface است که می‌توان بدین وسیله تمام یا بخشی از این پیکره را با استفاده از کتابخانه dataset دانلود و استفاده کرد. این پیکره می‌تواند برای fine-tune کردن و فارسی‌سازی مدل‌های زبانی که برای انگلیسی تهیه شده‌اند، استفاده شود که BERT, BART, T۵ و… را می‌توان تعدادی از این مدل‌های زبانی دانست.

زیرپیکره‌های این پیکره ناب شامل موارد زیر است:

پیکره OSCAR-fa: این پیکره شامل 38 گیگابایت متون رسمی و غیررسمی است که در پیکره ناب از نسخه به‌هم‌نخورده با حذف جملات تکراری استفاده شده است. این پیکره، چندزبانی است که یکی از زبان‌های این مجموعه فارسی است.

پیکره PesianNLP: این پیکره که پیش‌ازاین به‌آن پرداخته شد، پیش از این بزرگ‌ترین پیکره فارسی محسوب می‌شد که شامل 70 گیگابایت دیتای متن فارسی به شکل رسمی بود.

پیکره AGP: پیکره عصرگویش‌پردازش که پیش از این به صورت خصوصی مورد استفاده این شرکت بود و از‌این‌پس به‌عنوان بخشی از پیکره ناب در دسترس عموم قرار می‌گیرد. این پیکره شامل 25 گیگابایت متن رسمی و غیررسمی فارسی است.

پیکره Telegram: این پیکره از متون محاوره‌ای و غیررسمی تلگرام جمع‌آوری شده است و حدود یک گیگابایت داده به حجم دادگان پیکره ناب اضافه می‌کند.

پیکره LSCP: این پیکره 5 گیگابایتی جزو معدود پیکره‌های غیررسمی حجم بالای فارسی است و شامل بخش زیادی از داده‌های محاوره‌ای و غیررسمی فارسی است.

علاقه‌مندان حوزه هوش مصنوعی و یادگیری عمیق می‌توانند با مراجعه به دامنه زیر از پیکره ناب فارسی استفاده کنند:

https://huggingface.co/datasets/SLPL/naab

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید

https://hooshio.com/?p=34479

فعالان هوش مصنوعی

ایران و جهان

مجموعه وبینارهای هوش مصنوعی در عمل؛ از ایده تا اجرا

پیکره بزرگ متن فارسی به صورت رایگان عرضه شد

پای هوش مصنوعی به تأیید دارو و واکسن باز شد

سرمایه‌گذاری جنجالی مدیرعامل اسپاتیفای

متا به‌دنبال دسترسی به تصاویر داخل گالری کاربران است

باز طراحی سیری با موتور هوش مصنوعی OpenAI

زمان بیشتری برای طبابت واقعی

فرمان فرمول یک در دست هوش مصنوعی

تقسیم‌بندی «عجیب‌ها و باهوش‌ها» در دنیای هوش مصنوعی

اگر برای این ۱۱ کار از ChatGPT استفاده می‌کنید، همین حالا دست نگه‌ دارید!

انقلاب خاموش: چگونه هوش مصنوعی ذهن‌ها را تسخیر کرد؟

ایستادگی زیست بوم هوش مصنوعی ایران در شرایط جنگی

افتتاح حساب بانکی فقط با یک کلیک

«دیتاوست» ترکیب بهینه دارایی را پیشنهاد می‌دهد

پای هوش مصنوعی به تأیید دارو و واکسن باز شد

سرمایه‌گذاری جنجالی مدیرعامل اسپاتیفای

متا به‌دنبال دسترسی به تصاویر داخل گالری کاربران است

باز طراحی سیری با موتور هوش مصنوعی OpenAI

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

زمان بیشتری برای طبابت واقعی

پای هوش مصنوعی به تأیید دارو و واکسن باز شد

سرمایه‌گذاری جنجالی مدیرعامل اسپاتیفای

انقلاب خاموش: چگونه هوش مصنوعی ذهن‌ها را تسخیر کرد؟

فرمان فرمول یک در دست هوش مصنوعی

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید