پیکره بزرگ متن فارسی به صورت رایگان عرضه شد

تیم تحریریه
۲۰ شهریور ۱۴۰۱

زمان مطالعه: 3 دقیقه

محققان یک شرکت دانش‌بنیان با همکاری آزمایشگاه زبان طبیعی و گفتار دانشگاه شریف، موفق شدند پیکره بزرگ متنی فارسی را توسعه دهند و آن را جهت استفاده محققان هوش مصنوعی و یادگیری عمیق، به‌صورت رایگان عرضه کنند.

یکی از اساسی‌ترین نیازهای آموزش شبکه‌های مبتنی بر ترنسفورمر و مدل‌های شبکه عصبی عمیق را می‌توان پیکره‌ متنی بزرگ دانست. این مدل‌ها معمولاً به حجم بسیار زیادی از داده‌های متنی نیاز دارند و مخصوصاً در زبان‌هایی همچون فارسی که منابع دردسترس آن‌ها محدود است، پیکره متنی اهمیتی دوچندان پیدا می‌کند. از همین رو، تیمی از محققان مرکز نوآوری شرکت عصر‌گویش‌پرداز با همکاری آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف موفق شدند بزرگ‌ترین پیکره متنی ناب فارسی را تا به امروز توسعه دهند و آن را به‌صورت رایگان در اختیار محققان و فعالان حوزه هوش مصنوعی و یادگیری عمیق قرار دهند.

محمدرضا حسینیان، مدیرعامل مرکز نوآوری عصر‌گویش‌پرداز، بیان کرد: پیکره متنی توسعه‌یافته شامل 130 گیگابایت دیتای متنی ازجمله 15 میلیارد کلمه و 250 میلیون پاراگراف است و این پیکره به‌طور کامل پاک‌سازی شده و صورت مستقیم برای محققان قابل استفاده است.

پیش از این، بزرگ‌ترین پیکره متنی در دسترس محققان، PersianNLP بود که در مجموع شامل 70 گیگابایت دیتای خام شامل 8 زیرپیکره می‌شد. این زیرپیکره‌ها به‌ترتیب زیر دسته‌بندی می‌شد:

پیکره لایپزیک

پیکره Miras

پیکره W2C

پیکره VOA

پیکره اشعار فارسی

پیکره موازی فارسی-انگلیسی

پیکره ویکی‌پدیای فارسی

پیکره Common-Crawl

مدل یادگیری ماشین و یادگیری عمیق به این صورت است که یک متن به الگوریتم موجود داده می‌شود و یکی از کلمات آن را با جای خالی جایگزین می‌کنند. سپس از مدل خواسته می‌شود که باتوجه‌به دیگر کلمات متن، جای خالی را پر کند. چنین فرایندی نیازمند مقدار بسیار زیادی دیتای متنی تمیز داده‌شده است و همین موضوع باعث می‌شود محققان نتوانند مدل‌های زبانی روز دنیا را برای زبان‌هایی از جمله فارسی که داده زیادی برای آنها در دسترس نیست، توسعه دهند.

دکتر حسین صامتی، سرپرست آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف و عضو هیئت علمی این دانشگاه گفت: این پیکره به‌صورت کاملاً متن‌باز و رایگان در اختیار توسعه‌دهندگان قرار می‌گیرد و می‌توانند به‌راحتی از آن استفاده کنند. یکی از مزیت‌های این پیکره، قرارگیری آن بر روی دیتاست Huggingface است که می‌توان بدین وسیله تمام یا بخشی از این پیکره را با استفاده از کتابخانه dataset دانلود و استفاده کرد. این پیکره می‌تواند برای fine-tune کردن و فارسی‌سازی مدل‌های زبانی که برای انگلیسی تهیه شده‌اند، استفاده شود که BERT, BART, T۵ و… را می‌توان تعدادی از این مدل‌های زبانی دانست.

زیرپیکره‌های این پیکره ناب شامل موارد زیر است:

پیکره OSCAR-fa: این پیکره شامل 38 گیگابایت متون رسمی و غیررسمی است که در پیکره ناب از نسخه به‌هم‌نخورده با حذف جملات تکراری استفاده شده است. این پیکره، چندزبانی است که یکی از زبان‌های این مجموعه فارسی است.

پیکره PesianNLP: این پیکره که پیش‌ازاین به‌آن پرداخته شد، پیش از این بزرگ‌ترین پیکره فارسی محسوب می‌شد که شامل 70 گیگابایت دیتای متن فارسی به شکل رسمی بود.

پیکره AGP: پیکره عصرگویش‌پردازش که پیش از این به صورت خصوصی مورد استفاده این شرکت بود و از‌این‌پس به‌عنوان بخشی از پیکره ناب در دسترس عموم قرار می‌گیرد. این پیکره شامل 25 گیگابایت متن رسمی و غیررسمی فارسی است.

پیکره Telegram: این پیکره از متون محاوره‌ای و غیررسمی تلگرام جمع‌آوری شده است و حدود یک گیگابایت داده به حجم دادگان پیکره ناب اضافه می‌کند.

پیکره LSCP: این پیکره 5 گیگابایتی جزو معدود پیکره‌های غیررسمی حجم بالای فارسی است و شامل بخش زیادی از داده‌های محاوره‌ای و غیررسمی فارسی است.

علاقه‌مندان حوزه هوش مصنوعی و یادگیری عمیق می‌توانند با مراجعه به دامنه زیر از پیکره ناب فارسی استفاده کنند:

https://huggingface.co/datasets/SLPL/naab

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید

https://hooshio.com/?p=34479

پیکره بزرگ متن فارسی به صورت رایگان عرضه شد

Slush 2025، تجربه‌ای هم‌تراز با یک کلاس درس فشرده

ورود دلارهای نفتی به تورنتو؛ سرمایه‌گذاری ۵۰ میلیارد دلاری امارات در بازار کانادا

جاسوسی خاموش گوگل از صندوق پستی شما؛ جیمیل نامه‌های خصوصی‌تان را می‌خواند

۸۵٪ عملکرد سازمان نتیجه سیستم است، نه آدم‌ها

هزینه‌های پنهان کدنویسی با هوش مصنوعی مولد

راهبردهای عملی برای جامعه هوش مصنوعی ایران

مأموریت غیرممکن در عصر هوش مصنوعی

رونق، رکود یا واکنش منفی؟

مهندسی رشد کسب‌وکار با هوش مصنوعی

راهبردهای عملی برای جامعه هوش مصنوعی ایران

استراتژی ایران در عصر هوش مصنوعی از نگاه تصمیم‌گیران

چالش ها و فرصت‌های پیاده‌سازی هوش مصنوعی در سازمان‌ها

Slush 2025، تجربه‌ای هم‌تراز با یک کلاس درس فشرده

ورود دلارهای نفتی به تورنتو؛ سرمایه‌گذاری ۵۰ میلیارد دلاری امارات در بازار کانادا

جاسوسی خاموش گوگل از صندوق پستی شما؛ جیمیل نامه‌های خصوصی‌تان را می‌خواند

چاپلوسی عجیب هوش مصنوعی آقای میلیاردر

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

هزینه‌های پنهان کدنویسی با هوش مصنوعی مولد

Slush 2025، تجربه‌ای هم‌تراز با یک کلاس درس فشرده

مهندسی رشد کسب‌وکار با هوش مصنوعی

راهبردهای عملی برای جامعه هوش مصنوعی ایران

صندوق ملی توسعه هوش مصنوعی با سرمایه اولیه ۱۰۰هزار میلیارد ریالی تاسیس می‌شود

مطالب پیشنهادی مرتبط

به خبرنامه هوشیو بپیوندید

دسترسی سریع

اخرین مطالب

در جریان مهم‌ترین اتفاقات AI بمانید