آشنایی با فرایند متن کاوی در هوش مصنوعی به زبان ساده
پیش از آنکه به متن کاوی در هوش مصنوعی بپردازیم، باید با مقولهای با نام پردازش زبان طبیعی یاNaturalLanguage Processing (NLP) آشنا شوید. NLP درواقع مقدمهای برای ورود به مبحث متنکاوی بوده و درحقیقت روشی است که از طریق آن میتوان به ارائه مفاهیم به شکلی قابل درک، برای کامپیوترها و ابررایانهها پرداخت. اطلاعات استخراجشده در فرایند پردازش زبان طبیعی، به مرحله بعدی یعنی متن کاوی وارد میشود و درنهایت چکیدهای ارزشمند از نتایج این فرایندها به دست میآید. اینکه در پروسه پردازش زبان طبیعی دقیقاً چه کاری انجام میشود، در ابتدا باید با اشاره به محدودیتهای سیستمهای کامپیوتری در درک زبان طبیعی برایتان توضیح دهیم، یعنی همان زبانی که از طریق آن به محاوره و گفتگو با یکدیگر میپردازیم.
هرچند درک این زبان، در گفتگوی میان ما انسانها بهراحتی امکانپذیر است، اما این درک و دریافت برای یک رایانه که تنها به زبان 0 و 1 باید با آن گفتگو کرد و تنها الفبایی که درک میکند کدهایی است که در سیستمهای او تعریف شده، امکانپذیر نیست. درحقیقت NLP با قرار گرفتن در نقش یک مترجم، به ما این لطف را میکند و اطلاعات را به زبانی در میآورد، که برای هر سیستم رایانهای قابل فهم باشد. پس از این مرحله متنکاوی در هوش مصنوعی وارد عمل شده و با قدرتی که یک رایانه در محاسبه و یادگیری ماشین دارد، به استخراج اطلاعات ارزشمندی ازمیان دادهها میپردازد. چکیده استخراجشده از فرایند متنکاوی، برای صاحبان مشاغل بسیار ارزشمند بوده و آنها را به اهدافشان پیوند میدهد.
اگر کمی به فکر توسعه کسبوکارتان یا دست یافتن به قیمتهایی هستید که بتوانید با آن فروش بالا را تجربه کنید، یا آنکه علاقهمندید به رمز و راز گوگل در مرورگر برتر جهانی شدن پی ببرید، تا انتهای این متن با ما همراه باشید.
فرایند متن کاوی چطور صورت میپذیرد؟
فرایند متن کاوی در هوش مصنوعی، در دو فاز شامل پیشپردازش مستندات و استخراج دانش صورت میپذیرد. در فاز نخست یعنی پیشپردازش مستندات، شما شاهد دو خروجی مبتنی بر سند و مبتنی بر مفهوم خواهید بود. زمانی که نتایج شما مبتنی بر مستندات باشد، نحوه نمایش اسناد اهمیت مییابد. به عنوان مثال، ممکن است مستندات شما به صورت یک فرمت میانی و نیمهساخت یافته باشد، یا با به کارگیری یک ایندکس روی آنها، یا هر نوع نمایش دیگری که کار با اسناد را بهتر و کاراتر میکند. فراموش نکنید هر خروجی موجود در این نمایشها، در نهایت، باز هم یک سند خواهد بود.
فرمت دوم درحقیقت، نمایش اسناد را بهبود بخشیده و آنچه به عنوان خروجی ارائه میدهد، شامل یک سری مفاهیم و معانی موجود در سندها و چرخه ارتباطی میان آنها، و هر نوع داده مبتنی بر مفهوم است. بنابراین در فرمت دوم شما با موجودیت استخراجشده از اسناد مواجه نخواهید بود، بلکه در واقع فحوای آن متن و مفاهیمی که از آن استخراج گردیده در پیشروی شما قرار خواهد گرفت. در فاز دوم که درواقع همان استخراج دانش از متن است، فرایند استخراج از فرمهای میانی صورت میپذیرد، که البته این امر براساس چگونگی نمایش هر سندی متفاوت خواهد بود. به عبارت بهتر، نمایش مبتنی بر اسناد برای انجام طبقهبندی، گروهبندی و تجسمسازی میان اسناد صورت میپذیرد، درحالیکه نمایش اطلاعات بر مبنای مفهوم، به کشف روابط میان مفاهیم و ساختن اتوماتیک آنتولوژی میپردازد. دراینمیان متن کاوی در هوش مصنوعی برای کشف اطلاعات و به عبارت بهتر دانش، از آن قسمت از متون به کار میرود که به استخراج الگوها از دادههای متنی ارتباط دارد. مراحل کشف این دانش در متون شامل موارد زیر است:
۱- جمعآوری مستندات مرتبط
۲- پردازش اولیه مستندات
۳- انجام عملیات متن کاوی در هوش مصنوعی
پردازش متن در کدام مرحله از متنکاوی جای دارد؟
احتمالاً تا اینجای مطلب دریافتهاید که پردازش متن یکی از مراحل متنکاوی در هوش مصنوعی را شامل میشود، ولی اینکه پردازش متن در کدام مرحله از متنکاوی قرار دارد، سؤالی است که دراین قسمت به جواب آن خواهیم پرداخت. پردازش متن درواقع یکی از مراحل ابتدایی در پروسه متنکاوی به شمار میرود. پردازش متن شامل موارد مهمی همچون حذف تبلیغات از صفحات وب، نرمال کردن متون تبدیلی از فرمتهای باینری، تمیز کردن متون، کار با جدولها، اشکال و فرمولها میگردد.
مرحله بعدی که پردازش متن به آن قدم میگذارد، نشانهگذاری متون است. نشانهگذاری متون به معنی تقسیم رشتهای از کاراکترها به مجموعهای از نشانهها است که به این ترتیب میتواند بر مشکلاتی از قبیل آپاستروفها مانند he’s یا کلمات چندشکلی مانند data base، database یا data-base و کلماتی مانند c++، A/C، نشانههایی همچون “…” یا «:-)» غلبه کند. ازطریق نشانهگذاری همچنین رسیدن به پاسخ سؤالاتی همچون میزان فضای سفید مهم است یا خیر؟ مقدور است.
موضوع بعدی که پردازش متن به آن ورود میکند، Parts Of Speech tagging یا فرایند علامتگذاری کلمات یک متن، با بخشهای مربوط به گفتار آنهاست. این بخش مبتنی بر قواعد گرامری بوده و برمبنای احتمالات ترتیبی کلمات گوناگون برنامهریزی گردیده و نیاز به یک سری نوشتهها یا گزارهها دارد، که برای یادگیری ماشین بهصورت دستی تگ میگردد. موضوع بعدی ابهامزدایی از حس کلمه (Word Sense Disambiguation) است، که این پروسه تعیینکننده کلماتی است که چند معنی دارند و مشخص میکند که کلمه موردنظر در این جمله کدام معنی را تداعی میکند.
در این میان ساختارهای معنایی دارای دو روش هستند، که یکی از این روشهای تجزیه کامل (full parsing) نام دارد، که به ایجاد درخت تجزیه (parse tree) برای جمله میپردازد. روش دیگر تجزیه جزئی (partial parsing) نام دارد که به ایجاد ساختارهای نحوی همچون عبارات اسمی و گروههای فعلی برای یک جمله اهتمام میورزد. حال سؤال اینجاست که کدامیک از این دو روش نسبت به دیگری بهتر است؟ روش full parse tree اغلب اوقات به سبب نشانهگذاریهای بد، جداسازی اشتباه جملات، بیدقتیهای گرامری، لغات جدید، اشتباه در تگهای POS با شکست مواجه میشود، بههمینخاطر هم partial parsing بیشتر مورد استفاده قرار میگیرد.
متنکاوی چه کاربردهایی برای ما دارد؟
سؤالی که ذهن بسیاری از مخاطبان این الگوریتم هوش مصنوعی را به خود مشغول ساخته آن است که متنکاوی چه کاربردهایی برای ما دارد؟ و میتوانیم از فرایند متنکاوی در هوش مصنوعی، چه انتظاراتی داشته باشیم. از پسوند دوم متنکاوی میتوان دریافت که کاوشگری در روح این الگوریتم جای دارد و ما میتوانیم به مدد جستجوگری آن، اسناد بسیاری را بررسی کرده و بینشی را که از نتایج تلاشهایش به دست میآوریم، در راه توسعه و ساخت ابزارهایی بهکار بندیم. این پروسه میتواند، به منظور کاهش زمان هدررفت در امور تکراری، مورد استفاده قرار گیرند. بهعلاوه، کاربردهای مهم دیگری ازجمله، توسعه رباتها بهمنظور کمک به مشتریان با مسائل و موضوعات مشترک و صرفهجویی در زمان و استعداد انسان به منظور فعالیت بر روی مسائل مهمتر، از مزیتهای دیگر متنکاوی هستند.
به علاوه متنکاوی به مجموعهها این امکان را میدهد تا به تجزیه و تحلیل تعاملات پیشین و دستهبندی آنها به صورت خنثی، مثبت یا منفی پرداخته و از این طریق بهترین خدمات را در اختیار مشتریانشان قرار دهند.
چطور متنکاوی در گوگل به رمز موفقیت این مرورگر تبدیل شد؟
متنکاوی یکی از رازهای اصلی گوگل، برای جا کردن خود در دل کاربران میلیاردی خود در روز است و سرعت و هوشمندی که هر روز ما، در سرچ موضوعات مختلف در گوگل شاهد آن هستیم، درحقیقت مدیون علمی به نام متنکاوی است. اگر به وب سایت خبر گوگل سر زده باشید متوجه میشوید که، اخبار هر روز یک سیر خاص را طی میکنند و براساس اولویت و اهمیت ردهبندی میگردند. به عنوال مثال برخی از خبرها ورزشی و دستهای دیگر سیاسی هستند. اگر گوگل میخواست از شیوههای قدیمی و با کمک نیروی انسانی، این دستهبندیها را اعمال کند، باید هزاران اپراتور برای این کار استخدام میکرد.
اما انجام این روند با الگوریتمهای مبتنی بر متن و متنکاوی بسیار ساده بوده و تنها با در اختیار قرار دادن خبرها به کامپیوتر، عملیات پردازش و آنالیز متون فعال شده تا دریابد این خبرها در شاخه ورزشی قرار دارند یا سیاسی و اقتصادی! سپس این مرورگر با کمکی درکی که از این متون به دست آورده، وارد عمل میشود و دستهبندیهای گوناگونی را بر روی اخبار مختلف اعمال میکند. البته کار به اینجا ختم نمیشود بلکه الگوریتمهای هوش مصنوعی آنالیز متن نیز دست به کار میشوند تا اهمیت خبر را سبک و سنگین کرده و به اخبار مهمتر جایگاه بالاتر و بهتری بدهند تا در نهایت بیشتر دیده شوند و دسترسی کاربر نیز به آنها راحتتر باشد.