پرشین پراسسینگ ؛ فعال حوزه توسعه ابزار و پردازش زبان طبیعی
شرکت پرشین پراسسینگ با محصول خود یعنی Persianp Toolbox در زمینه پردازش زبان طبیعی و در حوزه توسعه ابزار برای توسعه دهندگان فعالیت می کند.
این شرکت با مدل درآمدی پرداخت به ازای استفاده، به صورت مستقیم و به میزان بالا از هوش مصنوعی در محصول خود استفاده می کند. جامعه هدف پرشین پراسسینگ کاربران شخصی هستند.
ابزار پیشپردازش متون فارسی Persianp Toolbox
ابزار Persianp با هدف پردازش متون فارسی طراحی و پیادهسازی شده است. از جمله قابلیتهای این محصول می توان به نرمالسازی، واحدسازی (tokenization)، جملهیابی، بنواژهیابی (یا ریشهیابی) با دو روش آماری و غیرآماری، تعیینایستواژهها (stopwords)، تشخیص عبارات اسمی (noun phrase chunking) و تشخیص موجودیتهای اسمی (named entity recognition) اشاره کرد.
نسخه 1.0 ابزار Persianp، برای استفاده در فعالیتهای صرفاً تحقیقاتی ارائه شده و قابل دانلود است. پیشپردازشهایی که نسخه 1.0 انجام میدهد شامل نرمالسازی، واحدسازی، جملهیابی، برچسبگذاری اجزای کلام، بنواژهیابی (ریشهیابی) غیرآماری و تعیینایستواژهها است.
استفاده ازاین ابزار تنها برای فعالیتهای پژوهشی غیرتجاری مجاز است و استفاده از آن به هر شیوه و تحت هر عنوانی در فعالیتهای تجاری، به صورت مستقیم و غیر مستقیم، جایز نیست.
دراین محصول، نرمالساز (Normalizer) کاراکترهای غیر متعارف یا کم کاربرد را حذف و کد کاراکترهای مشابه را یکسانسازی میکند. واحدساز (Tokenizer) مرز کلمات را تشخیص و آن را به فهرستی از کلمات تبدیل میکند. برچسبگذار (Part-Of-Speech Tagger) بر اساس بافت هر کلمه در متن، برچسبّهای زیر را به کلمه منتسب میکند: اسم (N)، فعل (V)، صفت (AJ)، قید (ADV)، حرف اضافه (P)، حرف ربط (CON)، حرف تعریف (DET)، عدد (NUM)، حرف اضافه پسین یا “را” (POSTP)، ضمیر (PRO)، جداکننده (PUNC)، شاخص (IDEN)، حرف صوت (INT)، متفرقه یا مابقی (RES). بنواژهیاب (Lemmatizer) بر اساس بافت هر کلمه در متن، بنواژه هر کلمه را تعیین میکند.ایستواژهیابایستواژههای (stopwords) متن را مشخص میکند.
شرکت پرشین پراسسینگ در یک نگاه