فناوری پردازش زبان طبیعی در سال 2020 دستخوش چه تغییراتی شد؟
سال 2020 از نظر بهداشت عمومی، زندگی حرفهای، اقتصاد و هر جنبه مربوط به زندگی روزانه انسانها، سالی منحصربهفرد بوده است. بسیاری از درها بسته شدند، کسبوکارهای زیادی تعطیل شدند، برخی نوع کسبوکارشان را تغییر دادند و کمتر تجارتی را میتوانید پیدا کنید که تحت تاثیر این سال و اتفاقات آن قرار نگرفته باشد. با وجود همه این مسائل اما در بخشهای زیادی هم رونق نسبت به قبل بیشتر شده و البته این بخشها به کنفرانسهای ویدئویی و مسائل مربوط به سلامتی و بهداشت محدود نمیشوند. فناوری پردازش زبان طبیعی یکی از آن بخشهاست.
طبق ادعای MarketsandMarkets، اندازه بازار این بخش از 10.2 میلیارد دلار در سال 2019 به 26.4 میلیارد دلار تا سال 2024 افزایش پیدا خواهد کرد. از دلایل رشد این تکنولوژی میتوان به افزایش استفاده از آن در مواردی مانند کمک به بیماران و کادر درمانی، کمک به کارمندان بخش ارتباط با مشتریان یا حتی کمک مجازی به خریداران آنلاین اشاره کرد. این پردازش زبان طبیعی میتواند به کاربران، چه تازهکار باشند و چه یک متخصص علوم داده، کمک کند تا سریعتر، هوشمندانهتر و با دقت بیشتر کار کنند.
فناوری پردازش زبان طبیعی
برای این که بدانیم قرار است در سالهای آینده فناوری پردازش زبان طبیعی تا کجا رشد کند، باید ابتدا درک خوبی از وضعیت و چگونگی این تکنولوژی در حال حاضر داشته باشیم و بدانیم که چالشها، موفقیتها، و کاربردهای عمده آن چیست. برای رسیدن به این هدف آزمایشگاه John Snow با همکاری Gradient Flow اخیرا تحقیقی انجام داده که تمرکز آن تحقیق در مورد کاربردهای پردازش زبان طبیعی در صنایع مختلف، جغرافی و هماهنگی بین سطوح است. داشتن اطلاعات همیشه باعث قدرتمندی میشود و هدف از این تحقیقات کمک به متخصصان و پیشروان حوزه فناوری اطلاعات برای تشخیص پتانسیل واقعی پردازش زبان طبیعی است.
اخیرا نظرسنجیای انجام شده که در آن حدود 600 نفر از صاحبان مشاغل در بیش از 50 کشور دنیا، نظر خودشان درباره رشد استفاده از پردازش زبان طبیعی در سال 2020 و بکارگیری آن در کسبوکارهایشان را بیان کردند. اطلاعات به دست آمده درواقع نوعی بنچمارک برای صنایع است و با مطالعه آن بهتر درک خواهیم کرد که در سالهای آینده تکنولوژی پردازش زبان طبیعی تا کجا پیش خواهد رفت.
زمان بیشتری صرف پردازش زبان طبیعی میشود
اگرچه در سال 2020 فناوری اطلاعات افت زیادی داشت، جالب است بدانید بودجه اختصاص یافته به پردازش زبان طبیعی نسبت به سال قبل در بخشهای مختلف بین 10 تا 30% افزایش داشته است. در واقع در شرایطی که دنیا درگیر همهگیری کرونا بوده، فناوری اطلاعات با افت روبرو بوده، اما پردازش زبان طبیعی جایگاه خودش را حفظ و حتی رشد هم کرده است. حدود 53% از افرادی که در نظرسنجی شرکت کردند و از رهبران حوزه تکنولوژی بودند، مدعی شدند که بودجه اختصاص داده شده به پردازش زبان طبیعی در کسبوکارهای آنها 10% نسبت به سال 2019 افزایش داشته است. از میان شرکتکنندگان در نظرسنجی 31% هم اعلام کردند که بودجه آنها نسبت به سال قبل 30% افزایش داشته است. درمیان شرکتکنندگان در این نظرسنجی افرادی هم حضور داشتند که شرکتهای آنها بسیار بزرگ بوده و تعداد کارمندانشان بیش از 5 هزار نفر است و جالب اینجاست که آنها هم در مقایسه با سال قبل با افزایش بودجه برای استفاده از فناوری پردازش زبان طبیعی مواجه بودهاند.
استفاده از ابر با چالشهایی مواجه بود
77% از افرادی که در این نظرسنجی شرکت کردند، اعلام کردند که از بین خدمات ابری پردازش زبان طبیعیGoogle ,AWS , Azure و IBM، حداقل یکی را استفاده کردند. با وجود محبوبیت خدمات مبتنی بر ابر پردازش زبان طبیعی، افراد حاضر در نظرسنجی هزینه را بزرگترین چالش برای استفاده از آنها میدانند. همچنین از آنجایی که بسیاری از اپلیکیشنهای پردازش زبان طبیعی از زبان خاص یک دامنه استفاده میکنند و توسعه دهندگان ابر هم برای برآورده کردن نیازهای کاربرانشان در بازار سرعت کمی دارند، نگرانیهایی درباره گسترش این سرویس وجود دارد. به همین دلیل هم هست که 53% از افراد شرکت کننده در نظرسنجی از بین یکی از دو کتابخانه پردازش زبان طبیعی معتبر در دنیا، Spark NLP و spaCy یکی را برای استفاده انتخاب کردند، مخصوصا که این دو به غیر از دقت بالا تنوع زیادی هم از نظر قیمت دارند.
دقت، مهم و چالشبرانگیز است
بیش از 40% از افراد حاضر در نظرسنجی مدعی شدند که برای ارزیابی کتابخانههای پردازش زبان طبیعی دقت آن را مورد بررسی قرار دادند. مخصوصا به این دلیل که موارد استفاده از فناوری پردازش زبان طبیعی در اپلیکیشنهای ضروری مانند وسایل الکترونیکی که باید فاکتورهای مربوط به سلامتی بیماران را ثبت کنند یا عوارض مربوط به استفاده از داروها را شناسایی کنند، زیاد هستند، اهمیت دقت بیشتر هم میشود. درست است که بسیاری از افراد حاضر در نظرسنجی دقت را فاکتوری چالشبرانگیز میدانند، اما آنهایی که کسبوکارهای حساستری دارند، باید توجه بیشتری به این موضوع داشته باشند. موارد ادغامی، حمایتهای زبانی و مقیاسپذیری هم مواردی هستند که در کنار دقت برای ارزیابی ابرهای پردازش زبان طبیعی بررسی میشوند. خوشبختانه در بخشهایی مانند حمایت از زبان، سرعت پیشرفت زیاد است. شرکتهایی مانند گوگل و فیسبوک در حال ارائه دیتاستهای آماده برای بیش از 150 زبان هستند و این کار کتابخانههای پردازش زبان طبیعی را بسیار راحتتر خواهد کرد.
طبقهبندی و سرویس تشخیص موجودیتهای نامدار، موارد اصلی استفاده هستند
چهار اپلیکیشن برتر تکنولوژی فناوری پردازش زبان طبیعی طبقهبندی اسناد، سرویس تشخیص موجودیتهای نامدار Named Entity Recognition (NER)، تحلیل احساسات و گرافهای مربوط به اطلاعات هستند. افرادی که در نظرسنجی شرکت کرده و حوزه کاریشان مرتبط با مراقبتهای بهداشتی و درمانی است، هویت زدایی را به عنوان یکی دیگر از موارد استفاده پردازش زبان طبیعی معرفی کردند. فرایندی دستی و سخت که پردازش زبان طبیعی خودکار باعث شده به مراتب کمتر از قبل مورد استفاده قرار گیرد. سرویس تشخیص موجودیتهای نامدار و طبقهبندی اسناد text classification دو موردی هستند که در زمینه مراقبتهای بهداشتی و درمانی اهمیت زیادی به آنها داده میشود. برای مثال، این اپلیکیشنها میتوانند به کادر درمانی کمک کنند که اثرات مخرب استفاده از داروها در بیماران را به سرعت و با دقت زیاد شناسایی کنند و از این طریق هم باعث افزایش کیفیت درمان شده و هم فشار ناشی از هزینهها را کاهش دهند.
منابع دادهها
در لیست منابع دادههای استفاده شده در پروژههای پردازش زبان طبیعی، دادههای فایلها (برای مثال pdf ،txt ،docx و غیره) در صدر هستند (61%). از قراردادهای قانونی تا مقالههای جدید و موارد ضبط شده از شرایط افراد و غیره همه معمولا با فرمت pdf ذخیره میشوند. در حالی که مدلهای یادگیری عمیق در سالهای اخیر پیشرفت زیادی داشتند، وقتی متون را از فایلهای pdf استخراج میکنیم، مشکلات زیادی در رابطه با کیفیت دادهها وجود دارد. جالب اینجاست که در منابع داده شرکتهایی که تمرکزشان را بر روی استفاده از فناوری پردازش زبان طبیعی گذاشتند، اختلافاتی وجود دارد. از میان افرادی که در نظرسنجی شرکت کرده و در فاز جستجو بودند، آنهایی که از دادههای صوتی استفاده میکنند (29%) در مقایسه با افرادی که از باقی دادهها استفاده میکنند (22%) بیشتر هستند.
با توجه به رشد پردازش زبان طبیعی در سال گذشته، طبیعی است که این رشد در سال 2021 هم ادامه داشته باشد. این که موارد کاربرد و استفاده آن را در طول زمان و با پیشرفت های قریب الوقوع فناوری و تکامل تماشا کنیم، بسیار جذاب خواهد بود. پردازش زبان طبیعی این قدرت را دارد که نحوه کار کردن ما را متحول کند، در حوزه مراقبتهای پزشکی موثر باشد، در زمینه بازرگانی کمک کند و در بخش خدمات مشتریان فعال شود. شاید برخی از این بخشها نسبت به دیگران تاثیرگذارتر باشند، اما مطمئنا همه آنها رفتار شخصی و کاری ما را شکل میدهند و بررسی آنها برای بهبود این رفتارها ضروری است.