Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
 نرم افزارهای تبدیل تصویر به متن؛ تعاریف و کاربردها

نرم افزارهای تبدیل تصویر به متن؛ تعاریف و کاربردها

زمان مطالعه: 5 دقیقه

امروز به لطف فناوری تبدیل تصویر به متن و نویسه‌خوان‌های نوری (OCR) می‌توان به‌راحتی و با دقت بسیار بالا متن‌ها را از تصاویر بیرون کشید. اگر بخواهیم تعریفی کاملاً ساده و ملموس از نرم ‌افزارهای تبدیل تصویر به متن و OCR (Optical character Recognition) ارائه دهیم باید بگوییم که این نرم‌افزارها با تکیه بر فناوری بینایی ماشین اسناد فیزیکی یا تصاویر دیجیتال ثابت را، که امکان جست‌وجو و ویرایش در آن‌ها وجود ندارد، به‌عنوان ورودی می‌گیرند و آن‌ها را به اسناد دیجیتالی قابل ویرایش و جست‌وجو تبدیل می‌کنند. در ادامه به تاریخچه و کاربردهای نرم ‌افزارهای تبدیل تصویر به متن خواهیم پرداخت و در پایان این مقاله در مورد هوش مصنوعی و تاثیر آن بر این فناوری‌ها مطالبی خواهد آمد.

تاریخچه سیستم‌های تبدیل تصویر به متن

اولین تلاش‌ها برای ساختن نرم ‌افزارهای تبدیل تصویر به متن و OCR به صد سال پیش باز می‌گردد. در این دوره دستگاه‌هایی ساخته شد که در آن‌ها از نوعی از سیستم‌های بسیار ساده تبدیل تصویر‌‌‌‌‌‌‌ به‌‌‌‌‌ متن استفاده شده بود. برای مثال، ادموند فورنیه دلب در سال 1913 اوپتوفون را اختراع کرد. اوپتوفون دستگاهی بود که نامه‌ها را برای کم‌بینایان به صدا تبدیل می‌کرد.  در این دستگاه ابتدا متن‌ها اسکن می‌شد و بعد از آن تبدیل به صوت می‌شد.

طبیعتاً سیستم‌های امروز تبدیل متن به تصویر از نظر دقت و سطح تکنولوژی استفاده شده در آن‌ها بسیار بالاتر از فناوری‌های دهه‌های قبل هستند. از دهه 1990 بود که تبدیل تصویر‌‌‌‌‌‌‌ به‌‌‌‌‌‌ متن و OCR به‌خاطر کاربردهای بسیاری که در فرایند دیجیتالی کردن اسناد تاریخی مانند روزنامه‌های قدیمی داشت رواج بسیاری یافت و به یکی از فناوری‌های محبوب این دوره بدل شد.

از دهه 2000 به بعد، نرم‌ افزارهای تبدیل تصویر به متن و OCR نیز با تغییرات فناوری چون استفاده از فضاهای ابری همراه شده است. فضاهای ابری این امکان را برای سرویس‌های OCR فراهم آورد که برای نخستین بار  بر روی ابزارهای چون موبایل و کامپیوترهای خانگی به‌راحتی در دسترس باشند.

فناوری تبدیل تصویر به متن

چالش‌های نرم‌ افزارهای تبدیل تصویر به متن

در نگاه اول شاید سرویس‌ OCR  و تبدیل تصویر به متن فناوری‌ ساده‌ای به نظر برسد. اما در این حوزه نیز چالش‌های بسیاری وجود دارد. برای مثال رسم‌الخط‌های مختلف یا فونت‌های متفاوت همگی می‌تواند برای سیستم‌های این چنینی چالش‌های پدید آورد. زبان فارسی نیز با توجه به رسم‌الخطی که دارد دشواری‌هایی را برای سرویس‌های تبدیل تصویر‌‌‌‌‌‌‌ به‌‌‌‌‌ متن پدید می‌آورد. برای مثال حروفی در فارسی داریم، مانند «ت» که تنها با افزودن یک نقطه دیگر به حرف دیگری، «ث»، تبدیل می‌شود. از این شباهت‌ها در رسم‌الخط فارسی کم نداریم و تشخیص این شباهت‌ها و تفاوت‌ها برای سیستم‌های تبدیل تصویر‌‌‌‌‌‌ به‌‌‌‌‌ متن می‌تواند چالش بزرگی باشد.

OCR

نرم افزار‌های تبدیل تصویر به متن چگونه کار می‌کنند؟

برای درک نحوه کار نرم ‌افزارهای تبدیل تصویر به متن باید نخست درکی از خود تصویر و چگونگی ذخیره آن در کامپیوتر داشته باشیم.

پیکسل نقطه مجزایی از یک رنگ خاص است. تصویر مجموعه‌ای از این پیکسل‌هاست. پیکسل بیشتر در هر عکس به معنای وضوح و رزولوشن بالای آن عکس است. کامپیوتر درکی از چیستی تصویری که ذخیره کرده ندارد. در واقع کامپیوتر تنها رنگ هر پیکسل را شناسایی می‌کند و همه پیکسل‌ها را به‌صورت یکجا و هم‌زمان نمایش می‌دهد.

بنابراین برای کامپیوتر اسناد متنی و غیرمتنی تفاوتی با هم ندارند. به‌خاطر همین هم کار نویسه‌خوان‌های نوری بسیار دشوار است.

گام اول: پیش‌پردازش تصاویر

پیش از آنکه فرایند بیرون کشیدن متن از تصویر را شروع کنیم باید تصاویر به شیوه‌های خاصی ورز داده شود تا بتوان راحت‌تر عملیات استخراج متون را انجام دهیم. به کارهایی که پیش از آغاز فرایند استخراج برای آماده‌سازی تصاویر انجام می‌دهیم پیش‌پردازش تصاویر گفته می‌شود.

نرم‌ افزارهای تبدیل تصویر به متن از روش‌های خاصی در این مرحله استفاده می‌کنند.

نرم افزارهای تبدیل تصویر به متن

گام دوم: پردازش تصاویر

در این مرحله فرایند اصلی عملاً آغاز می‌شود. تکنیک‌های بسیاری در این مرحله به کار برده می‌شود تا کامپیوتر بتواند متن را بخواند. از جمله: توکن‌سازی، بازشناسی الگو و استخراج ویژگی‌ها

گام سوم: فرایند پست پراسسینگ تصاویر

در این مرحله نتایج حاصل از دو مرحله قبلی بررسی می‌شود تا نتایج دلخواه و مطلوب به دست آید. از جمله کارهایی که در این مرحله انجام می‌شود مقایسه واژگان موجود در نتیجه فرایند با واژگانی است که از قبل آماده شده است. در این مقایسه، کلمات حاصل از فرایند تبدیل تصویر به متن با واژگانی که از قبل به سیستم داده شده مقایسه می‌شود و اگر واژه‌ای در نتیجه بود که نامانوس به نظر می‌رسید با نزدیک‌ترین واژه از فهرست واژگان جایگزین می‌شود. این تکنیک تنها یکی از تکنیک‌های پست پراسسینگ در نرم‌افزارهای  تبدیل تصویر‌‌‌‌‌ به‌‌‌‌‌‌ متن و OCR است. در این مرحله از تکنیک‌های دیگری نیز استفاده می‌شود.

تبدیل تصویر به متن

کاربردهای تبدیل تصویر به متن و OCR

تبدیل تصویر به متن از آن دسته از فناوری‌هاست که کاربردهای بسیار زیادی در حوزه‌های مختلف دارد و شمارش کاربردهای آن بسیار دشوار است.

بانکداری

بانک‌ها یکی از مشتریان اصلی نرم ‌افزارهای تبدیل تصویر به متن و OCRها هستند. استفاده از این سرویس‌ها امنیت تراکنش‌ها را بالا می‌برد و ریسک این تراکنش‌ها را مدیریت می‌کند. با استفاده از نویسه‌خوان‌های نوری بانک‌ها می‌توانند به دقت اطلاعات را از اسنادی مانند چک‌ها و اسناد مربوط به وام و فیش حقوقی استخراج کنند.

کاربرد فناوری تبدیل تصویر به متن در بانکداری

بیمه

شرکت‌های بیمه با استفاده از نرم‌ افزارهای تبدیل تصویر به متن می‌توانند خدمات‌دهی بهتری به مشتریانشان داشته باشند. با استفاده از این سرویس می‌توان داده‌های این حوزه را دیجیتالی کرد و فرایندهایی مانند ثبت‌نام و تشکیل پروند تا بررسی دعاوی بیمه‌ای را  با کمک OCR و دیگر ابزارها به‌صورت خودکار انجام داد.

سلامت

فعالیت‌های حوزه سلامت با ورود سیستم‌ها و نرم‌ افزارهای تبدیل تصویر‌‌‌‌‌‌‌‌‌ به متن و پردازش تصویر در متن حال تجربه یک انقلاب واقعی است. با استفاده از این سرویس‌ها امکان اسکن، سرچ و ذخیره‌سازی اطلاعات و سابقه بیمار فراهم شده است. گزارش‌های پزشکی، عکس‌های پزشکی، بیماری‌های پیشین، فرایندهای درمانی که از ابتدا برای بیمار انجام شده است، آزمایش‌هایی که بیمار در طول فرایند درمانی انجام داده است، بخش مربوط به بیمه و هزینه‌ها همه و همه را می‌تواند با کمک فناوری OCR دیجیتالی و ذخیره کرد.

با این کار جریان کاری در بیمارستان‌ها ساده‌تر می‌شود و فرایندهای بیمارستانی و درمانی با سرعت بیشتری انجام می‌شود.

حوزه مسائل حقوقی و قضایی

بخش‌های مربوط به امور حقوقی و قضایی با حجم زیادی از منابع کاغذی و متنی سروکار دارند. ورود نرم ‌افزارهای تبدیل تصویر به متن به این بخش بی‌شک تحولی بزرگ در این حوزه است.

OCR در حقوقی و قضایی

استفاده از نرم‌افزار تبدیل تصویر به متن در فرایند احراز هویت

با توجه به اینکه فرایندهای رایج و سنتی وارد کردن اطلاعات شخصی و تایید این اطلاعات در سایت‌ها و سیستم‌ها و نیز ورود به این نرم‌افزارها برای دریافت خدمات بسیار کند است، استفاده از فناوری تبدیل تصویر به متن می‌تواند سرعت این روندها را افزایش دهد و باعث راحتی و رضایت مشتریان شود.

تصور کنید که قرار است اطلاعات شخصی خودتان را در سیستمی وارد کنید. در این حالت اگر از نرم‌افزار تبدیل تصویر‌‌‌‌‌‌ به‌‌‌‌ متن و OCR استفاده شود، کافی است شما عکسی از کارت شناسایی‌تان بر روی سیستم بارگذاری کنید. استخراج اطلاعات از کارت به‌صورت خودکار توسط سیستم انجام خواهد شد. همین که فرایندی فرسایشی و خسته‌کننده چون وارد کردن اعداد و ارقام و حروف صرفاً به یک گرفتن عکس تقلیل پیدا می‌کند، نشان‌دهنده این است که چقدر استفاده از سیستم‌های خودکار می‌تواند عملکردهای شرکت‌ها را بهینه کند.

تبدیل تصویر به متن در مرکز تحقیقات هوش مصنوعی پارت

خدمات مبتنی‌بر تبدیل تصویر به متن در مرکز تحقیقات هوش مصنوعی پارت

مرکز تحقیقات هوش مصنوعی پارت، بزرگ‌ترین شرکت هوش مصنوعی از نظر تعداد نیروی انسانی متخصص در ایران است که در بسیاری از سرویس‌های خود از الگوریتم‌های تبدیل تصویر به متن استفاده می‌کند. سرویس‌های این مرکز جزو دقیق‌ترین و اولین سرویس‌های بومی هستند که با دیتاست‌های عظیم آموزش داده شده‌اند. در ادامه به چند سرویس مبتنی بر تبدیل تصویر به متن شرکت هوش مصنوعی اشاره می‌کنیم.

سرویس تشخیص پلاک خودرو

سرویس تشخیص پلاک خودرو این شرکت با بهره‌گیری از تکنیک‌های پردازش تصویر و هوش مصنوعی با دقت و سرعت بالا موقعیت پلاک و حروف پلاک را شناسایی می‌کند. از این سرویس می‌توان در کنترل ترافیک و پلیس راهنمایی و رانندگی استفاده کرد.

سرویس پردازش چک بانکی و سفته

مرکز هوش مصنوعی پارت برای پردازش چک بانکی، سفته و کارت بانکی سرویس‌های جداگانه‌ای توسعه داده است. هر کدام از این سرویس‌ها قادرند اطلاعات متنی و عددی مندرج بر روی چک‌ها، سفته‌ها و کارت‌های بانکی را استخراج کنند. استفاده از این سرویس‌ها در بخش بانکداری باعث تسریع در فرایند ثبت‌نام و استفاده از خدمات بانکی خواهد شد.

کارت بانکی

خطای انسانی همواره می‌تواند روندهای حساس اداری و مالی را با اختلال مواجه کند. خاصه آنکه این روندها مربوط به نقل‌وانتقال اعتبار به کارت‌های بانکی باشد. همچنین، گزارشات متعددی وجود دارد مبنی بر اینکه به دلیل خطا در درج اطلاعات کارت بانکی و جابه‌جایی اشتباه اعتبار مالی، پرونده‌های قضایی بسیاری ایجاد شده است. اما هوش مصنوعی با بهره‌گیری از فناوری تبدیل تصویر به متن در کارت‌های بانکی، خوانش دقیق شماره  16 رقمی کارت بانکی، تاریخ انقضاء و نام صاحب کارت، نام صادرکننده کارت و تأیید صحت شماره کارت، توانسته است این روندهای حساس را هوشمندسازی کرده و بدون خطا، اطلاعات کارت بانکی را به صورت داده‌های متنی در قالب یک ساختار اطلاعاتی بازگرداند.

پردازش شناسنامه و کارت ملی

در اغلب فرایندهای ثبت‌نامی، به‌ویژه برای دریافت خدمات دولتی بارگذاری تصویر شناسنامه و کارت ملی بر روی سایت مربوطه الزامی است. سرویس‌های پردازش شناسنامه و کارت ملی مرکز هوش مصنوعی پارت اطلاعات کارت‌های ملی و شناسنامه‌ها را استخراج می‌کنند. این سرویس با دقت بسیار بالایی اطلاعات متنی و عددی درج‌شده روی شناسنامه را به‌عنوان خروجی به نمایش می‌گذارد.

تبدیل تصویر به متن (نویسه نگار)

علاوه بر همه مواردی که گفتیم، مرکز تحقیقات هوش مصنوعی پارت سرویس جداگانه‌ای را به‌صورت ویژه در بخش نویسه‌‌خوان نوری (OCR) تحت عنوان نویسه نگار توسعه داده است. از این سرویس می‌توان در بخش‌های گوناگون بنا بر نیازهای کسب‌وکارهای خاص استفاده کرد. علاوه بر این، سرویس نویسه نگار می‌تواند متون را تصاویر اسناد قدیمی تشخیص داده و محتواهای متنی موجود در آن‌ها را استخراج کند. با این کار می‌توان ضمن محافظت از این دست از اسناد، به نحوی دقیقی به محتوای آن‌ها نیز دسترسی لازم را پیدا کرد.

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]