نرم افزارهای تبدیل تصویر به متن؛ تعاریف و کاربردها
امروز به لطف فناوری تبدیل تصویر به متن و نویسهخوانهای نوری (OCR) میتوان بهراحتی و با دقت بسیار بالا متنها را از تصاویر بیرون کشید. اگر بخواهیم تعریفی کاملاً ساده و ملموس از نرم افزارهای تبدیل تصویر به متن و OCR (Optical character Recognition) ارائه دهیم باید بگوییم که این نرمافزارها با تکیه بر فناوری بینایی ماشین اسناد فیزیکی یا تصاویر دیجیتال ثابت را، که امکان جستوجو و ویرایش در آنها وجود ندارد، بهعنوان ورودی میگیرند و آنها را به اسناد دیجیتالی قابل ویرایش و جستوجو تبدیل میکنند. در ادامه به تاریخچه و کاربردهای نرم افزارهای تبدیل تصویر به متن خواهیم پرداخت و در پایان این مقاله در مورد هوش مصنوعی و تاثیر آن بر این فناوریها مطالبی خواهد آمد.
تاریخچه سیستمهای تبدیل تصویر به متن
اولین تلاشها برای ساختن نرم افزارهای تبدیل تصویر به متن و OCR به صد سال پیش باز میگردد. در این دوره دستگاههایی ساخته شد که در آنها از نوعی از سیستمهای بسیار ساده تبدیل تصویر به متن استفاده شده بود. برای مثال، ادموند فورنیه دلب در سال 1913 اوپتوفون را اختراع کرد. اوپتوفون دستگاهی بود که نامهها را برای کمبینایان به صدا تبدیل میکرد. در این دستگاه ابتدا متنها اسکن میشد و بعد از آن تبدیل به صوت میشد.
طبیعتاً سیستمهای امروز تبدیل متن به تصویر از نظر دقت و سطح تکنولوژی استفاده شده در آنها بسیار بالاتر از فناوریهای دهههای قبل هستند. از دهه 1990 بود که تبدیل تصویر به متن و OCR بهخاطر کاربردهای بسیاری که در فرایند دیجیتالی کردن اسناد تاریخی مانند روزنامههای قدیمی داشت رواج بسیاری یافت و به یکی از فناوریهای محبوب این دوره بدل شد.
از دهه 2000 به بعد، نرم افزارهای تبدیل تصویر به متن و OCR نیز با تغییرات فناوری چون استفاده از فضاهای ابری همراه شده است. فضاهای ابری این امکان را برای سرویسهای OCR فراهم آورد که برای نخستین بار بر روی ابزارهای چون موبایل و کامپیوترهای خانگی بهراحتی در دسترس باشند.
چالشهای نرم افزارهای تبدیل تصویر به متن
در نگاه اول شاید سرویس OCR و تبدیل تصویر به متن فناوری سادهای به نظر برسد. اما در این حوزه نیز چالشهای بسیاری وجود دارد. برای مثال رسمالخطهای مختلف یا فونتهای متفاوت همگی میتواند برای سیستمهای این چنینی چالشهای پدید آورد. زبان فارسی نیز با توجه به رسمالخطی که دارد دشواریهایی را برای سرویسهای تبدیل تصویر به متن پدید میآورد. برای مثال حروفی در فارسی داریم، مانند «ت» که تنها با افزودن یک نقطه دیگر به حرف دیگری، «ث»، تبدیل میشود. از این شباهتها در رسمالخط فارسی کم نداریم و تشخیص این شباهتها و تفاوتها برای سیستمهای تبدیل تصویر به متن میتواند چالش بزرگی باشد.
نرم افزارهای تبدیل تصویر به متن چگونه کار میکنند؟
برای درک نحوه کار نرم افزارهای تبدیل تصویر به متن باید نخست درکی از خود تصویر و چگونگی ذخیره آن در کامپیوتر داشته باشیم.
پیکسل نقطه مجزایی از یک رنگ خاص است. تصویر مجموعهای از این پیکسلهاست. پیکسل بیشتر در هر عکس به معنای وضوح و رزولوشن بالای آن عکس است. کامپیوتر درکی از چیستی تصویری که ذخیره کرده ندارد. در واقع کامپیوتر تنها رنگ هر پیکسل را شناسایی میکند و همه پیکسلها را بهصورت یکجا و همزمان نمایش میدهد.
بنابراین برای کامپیوتر اسناد متنی و غیرمتنی تفاوتی با هم ندارند. بهخاطر همین هم کار نویسهخوانهای نوری بسیار دشوار است.
گام اول: پیشپردازش تصاویر
پیش از آنکه فرایند بیرون کشیدن متن از تصویر را شروع کنیم باید تصاویر به شیوههای خاصی ورز داده شود تا بتوان راحتتر عملیات استخراج متون را انجام دهیم. به کارهایی که پیش از آغاز فرایند استخراج برای آمادهسازی تصاویر انجام میدهیم پیشپردازش تصاویر گفته میشود.
نرم افزارهای تبدیل تصویر به متن از روشهای خاصی در این مرحله استفاده میکنند.
گام دوم: پردازش تصاویر
در این مرحله فرایند اصلی عملاً آغاز میشود. تکنیکهای بسیاری در این مرحله به کار برده میشود تا کامپیوتر بتواند متن را بخواند. از جمله: توکنسازی، بازشناسی الگو و استخراج ویژگیها
گام سوم: فرایند پست پراسسینگ تصاویر
در این مرحله نتایج حاصل از دو مرحله قبلی بررسی میشود تا نتایج دلخواه و مطلوب به دست آید. از جمله کارهایی که در این مرحله انجام میشود مقایسه واژگان موجود در نتیجه فرایند با واژگانی است که از قبل آماده شده است. در این مقایسه، کلمات حاصل از فرایند تبدیل تصویر به متن با واژگانی که از قبل به سیستم داده شده مقایسه میشود و اگر واژهای در نتیجه بود که نامانوس به نظر میرسید با نزدیکترین واژه از فهرست واژگان جایگزین میشود. این تکنیک تنها یکی از تکنیکهای پست پراسسینگ در نرمافزارهای تبدیل تصویر به متن و OCR است. در این مرحله از تکنیکهای دیگری نیز استفاده میشود.
کاربردهای تبدیل تصویر به متن و OCR
تبدیل تصویر به متن از آن دسته از فناوریهاست که کاربردهای بسیار زیادی در حوزههای مختلف دارد و شمارش کاربردهای آن بسیار دشوار است.
بانکداری
بانکها یکی از مشتریان اصلی نرم افزارهای تبدیل تصویر به متن و OCRها هستند. استفاده از این سرویسها امنیت تراکنشها را بالا میبرد و ریسک این تراکنشها را مدیریت میکند. با استفاده از نویسهخوانهای نوری بانکها میتوانند به دقت اطلاعات را از اسنادی مانند چکها و اسناد مربوط به وام و فیش حقوقی استخراج کنند.
بیمه
شرکتهای بیمه با استفاده از نرم افزارهای تبدیل تصویر به متن میتوانند خدماتدهی بهتری به مشتریانشان داشته باشند. با استفاده از این سرویس میتوان دادههای این حوزه را دیجیتالی کرد و فرایندهایی مانند ثبتنام و تشکیل پروند تا بررسی دعاوی بیمهای را با کمک OCR و دیگر ابزارها بهصورت خودکار انجام داد.
سلامت
فعالیتهای حوزه سلامت با ورود سیستمها و نرم افزارهای تبدیل تصویر به متن و پردازش تصویر در متن حال تجربه یک انقلاب واقعی است. با استفاده از این سرویسها امکان اسکن، سرچ و ذخیرهسازی اطلاعات و سابقه بیمار فراهم شده است. گزارشهای پزشکی، عکسهای پزشکی، بیماریهای پیشین، فرایندهای درمانی که از ابتدا برای بیمار انجام شده است، آزمایشهایی که بیمار در طول فرایند درمانی انجام داده است، بخش مربوط به بیمه و هزینهها همه و همه را میتواند با کمک فناوری OCR دیجیتالی و ذخیره کرد.
با این کار جریان کاری در بیمارستانها سادهتر میشود و فرایندهای بیمارستانی و درمانی با سرعت بیشتری انجام میشود.
حوزه مسائل حقوقی و قضایی
بخشهای مربوط به امور حقوقی و قضایی با حجم زیادی از منابع کاغذی و متنی سروکار دارند. ورود نرم افزارهای تبدیل تصویر به متن به این بخش بیشک تحولی بزرگ در این حوزه است.
استفاده از نرمافزار تبدیل تصویر به متن در فرایند احراز هویت
با توجه به اینکه فرایندهای رایج و سنتی وارد کردن اطلاعات شخصی و تایید این اطلاعات در سایتها و سیستمها و نیز ورود به این نرمافزارها برای دریافت خدمات بسیار کند است، استفاده از فناوری تبدیل تصویر به متن میتواند سرعت این روندها را افزایش دهد و باعث راحتی و رضایت مشتریان شود.
تصور کنید که قرار است اطلاعات شخصی خودتان را در سیستمی وارد کنید. در این حالت اگر از نرمافزار تبدیل تصویر به متن و OCR استفاده شود، کافی است شما عکسی از کارت شناساییتان بر روی سیستم بارگذاری کنید. استخراج اطلاعات از کارت بهصورت خودکار توسط سیستم انجام خواهد شد. همین که فرایندی فرسایشی و خستهکننده چون وارد کردن اعداد و ارقام و حروف صرفاً به یک گرفتن عکس تقلیل پیدا میکند، نشاندهنده این است که چقدر استفاده از سیستمهای خودکار میتواند عملکردهای شرکتها را بهینه کند.
خدمات مبتنیبر تبدیل تصویر به متن در مرکز تحقیقات هوش مصنوعی پارت
مرکز تحقیقات هوش مصنوعی پارت، بزرگترین شرکت هوش مصنوعی از نظر تعداد نیروی انسانی متخصص در ایران است که در بسیاری از سرویسهای خود از الگوریتمهای تبدیل تصویر به متن استفاده میکند. سرویسهای این مرکز جزو دقیقترین و اولین سرویسهای بومی هستند که با دیتاستهای عظیم آموزش داده شدهاند. در ادامه به چند سرویس مبتنی بر تبدیل تصویر به متن شرکت هوش مصنوعی اشاره میکنیم.
سرویس تشخیص پلاک خودرو
سرویس تشخیص پلاک خودرو این شرکت با بهرهگیری از تکنیکهای پردازش تصویر و هوش مصنوعی با دقت و سرعت بالا موقعیت پلاک و حروف پلاک را شناسایی میکند. از این سرویس میتوان در کنترل ترافیک و پلیس راهنمایی و رانندگی استفاده کرد.
سرویس پردازش چک بانکی و سفته
مرکز هوش مصنوعی پارت برای پردازش چک بانکی، سفته و کارت بانکی سرویسهای جداگانهای توسعه داده است. هر کدام از این سرویسها قادرند اطلاعات متنی و عددی مندرج بر روی چکها، سفتهها و کارتهای بانکی را استخراج کنند. استفاده از این سرویسها در بخش بانکداری باعث تسریع در فرایند ثبتنام و استفاده از خدمات بانکی خواهد شد.
کارت بانکی
خطای انسانی همواره میتواند روندهای حساس اداری و مالی را با اختلال مواجه کند. خاصه آنکه این روندها مربوط به نقلوانتقال اعتبار به کارتهای بانکی باشد. همچنین، گزارشات متعددی وجود دارد مبنی بر اینکه به دلیل خطا در درج اطلاعات کارت بانکی و جابهجایی اشتباه اعتبار مالی، پروندههای قضایی بسیاری ایجاد شده است. اما هوش مصنوعی با بهرهگیری از فناوری تبدیل تصویر به متن در کارتهای بانکی، خوانش دقیق شماره 16 رقمی کارت بانکی، تاریخ انقضاء و نام صاحب کارت، نام صادرکننده کارت و تأیید صحت شماره کارت، توانسته است این روندهای حساس را هوشمندسازی کرده و بدون خطا، اطلاعات کارت بانکی را به صورت دادههای متنی در قالب یک ساختار اطلاعاتی بازگرداند.
پردازش شناسنامه و کارت ملی
در اغلب فرایندهای ثبتنامی، بهویژه برای دریافت خدمات دولتی بارگذاری تصویر شناسنامه و کارت ملی بر روی سایت مربوطه الزامی است. سرویسهای پردازش شناسنامه و کارت ملی مرکز هوش مصنوعی پارت اطلاعات کارتهای ملی و شناسنامهها را استخراج میکنند. این سرویس با دقت بسیار بالایی اطلاعات متنی و عددی درجشده روی شناسنامه را بهعنوان خروجی به نمایش میگذارد.
تبدیل تصویر به متن (نویسه نگار)
علاوه بر همه مواردی که گفتیم، مرکز تحقیقات هوش مصنوعی پارت سرویس جداگانهای را بهصورت ویژه در بخش نویسهخوان نوری (OCR) تحت عنوان نویسه نگار توسعه داده است. از این سرویس میتوان در بخشهای گوناگون بنا بر نیازهای کسبوکارهای خاص استفاده کرد. علاوه بر این، سرویس نویسه نگار میتواند متون را تصاویر اسناد قدیمی تشخیص داده و محتواهای متنی موجود در آنها را استخراج کند. با این کار میتوان ضمن محافظت از این دست از اسناد، به نحوی دقیقی به محتوای آنها نیز دسترسی لازم را پیدا کرد.