Filter by دسته‌ها
آموزش هوش مصنوعی و انواع آن
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
پایتون و ابزارهای یادگیری عمیق
کتابخانه‌ های یادگیری عمیق
یادگیری با نظارت
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
اخبار
رسانه‌ها
آموزش پردازش زبان طبیعی
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
رویدادها
کاربردهای هوش مصنوعی
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
 پیکره بزرگ متن فارسی به صورت رایگان عرضه شد

پیکره بزرگ متن فارسی به صورت رایگان عرضه شد

محققان یک شرکت دانش‌بنیان با همکاری آزمایشگاه زبان طبیعی و گفتار دانشگاه شریف، موفق شدند پیکره بزرگ متنی فارسی را توسعه دهند و آن را جهت استفاده محققان هوش مصنوعی و یادگیری عمیق، به‌صورت رایگان عرضه کنند.

یکی از اساسی‌ترین نیازهای آموزش شبکه‌های مبتنی بر ترنسفورمر و مدل‌های شبکه عصبی عمیق را می‌توان پیکره‌ متنی بزرگ دانست. این مدل‌ها معمولاً به حجم بسیار زیادی از داده‌های متنی نیاز دارند و مخصوصاً در زبان‌هایی همچون فارسی که منابع دردسترس آن‌ها محدود است، پیکره متنی اهمیتی دوچندان پیدا می‌کند. از همین رو، تیمی از محققان مرکز نوآوری شرکت عصر‌گویش‌پرداز با همکاری آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف موفق شدند بزرگ‌ترین پیکره متنی ناب فارسی را تا به امروز توسعه دهند و آن را به‌صورت رایگان در اختیار محققان و فعالان حوزه هوش مصنوعی و یادگیری عمیق قرار دهند.

پیکره بزرگ متنی فارسی

محمدرضا حسینیان، مدیرعامل مرکز نوآوری عصر‌گویش‌پرداز، بیان کرد: پیکره متنی توسعه‌یافته شامل 130 گیگابایت دیتای متنی ازجمله 15 میلیارد کلمه و 250 میلیون پاراگراف است و این پیکره به‌طور کامل پاک‌سازی شده و صورت مستقیم برای محققان قابل استفاده است.

پیش از این، بزرگ‌ترین پیکره متنی در دسترس محققان، PersianNLP بود که در مجموع شامل 70 گیگابایت دیتای خام شامل 8 زیرپیکره می‌شد. این زیرپیکره‌ها به‌ترتیب زیر دسته‌بندی می‌شد:

پیکره لایپزیک

پیکره Miras

پیکره W2C

پیکره VOA

پیکره اشعار فارسی

پیکره موازی فارسی-انگلیسی

پیکره ویکی‌پدیای فارسی

پیکره Common-Crawl

پیکره بزرگ متنی فارسی

مدل یادگیری ماشین و یادگیری عمیق به این صورت است که یک متن به الگوریتم موجود داده می‌شود و یکی از کلمات آن را با جای خالی جایگزین می‌کنند. سپس از مدل خواسته می‌شود که باتوجه‌به دیگر کلمات متن، جای خالی را پر کند. چنین فرایندی نیازمند مقدار بسیار زیادی دیتای متنی تمیز داده‌شده است و همین موضوع باعث می‌شود محققان نتوانند مدل‌های زبانی روز دنیا را برای زبان‌هایی از جمله فارسی که داده زیادی برای آنها در دسترس نیست، توسعه دهند.

دکتر حسین صامتی، سرپرست آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف و عضو هیئت علمی این دانشگاه گفت: این پیکره به‌صورت کاملاً متن‌باز و رایگان در اختیار توسعه‌دهندگان قرار می‌گیرد و می‌توانند به‌راحتی از آن استفاده کنند. یکی از مزیت‌های این پیکره، قرارگیری آن بر روی دیتاست Huggingface است که می‌توان بدین وسیله تمام یا بخشی از این پیکره را با استفاده از کتابخانه dataset دانلود و استفاده کرد. این پیکره می‌تواند برای fine-tune کردن و فارسی‌سازی مدل‌های زبانی که برای انگلیسی تهیه شده‌اند، استفاده شود که BERT, BART, T۵ و… را می‌توان تعدادی از این مدل‌های زبانی دانست.

پیکره بزرگ متنی فارسی

زیرپیکره‌های این پیکره ناب شامل موارد زیر است:

پیکره OSCAR-fa: این پیکره شامل 38 گیگابایت متون رسمی و غیررسمی است که در پیکره ناب از نسخه به‌هم‌نخورده با حذف جملات تکراری استفاده شده است. این پیکره، چندزبانی است که یکی از زبان‌های این مجموعه فارسی است.

پیکره PesianNLP: این پیکره که پیش‌ازاین به‌آن پرداخته شد، پیش از این بزرگ‌ترین پیکره فارسی محسوب می‌شد که شامل 70 گیگابایت دیتای متن فارسی به شکل رسمی بود.

پیکره AGP: پیکره عصرگویش‌پردازش که پیش از این به صورت خصوصی مورد استفاده این شرکت بود و از‌این‌پس به‌عنوان بخشی از پیکره ناب در دسترس عموم قرار می‌گیرد. این پیکره شامل 25 گیگابایت متن رسمی و غیررسمی فارسی است.

پیکره Telegram: این پیکره از متون محاوره‌ای و غیررسمی تلگرام جمع‌آوری شده است و حدود یک گیگابایت داده به حجم دادگان پیکره ناب اضافه می‌کند.

پیکره LSCP: این پیکره 5 گیگابایتی جزو معدود پیکره‌های غیررسمی حجم بالای فارسی است و شامل بخش زیادی از داده‌های محاوره‌ای و غیررسمی فارسی است.

علاقه‌مندان حوزه هوش مصنوعی و یادگیری عمیق می‌توانند با مراجعه به دامنه زیر از پیکره ناب فارسی استفاده کنند:

https://huggingface.co/datasets/SLPL/naab

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
لطفاً برای تکمیل این فرم، جاوا اسکریپت را در مرورگر خود فعال کنید.