دلیکس ؛ استخراج متن از تصویر با درصد خطای بسیار پایین
اکسیر اسناد تعبیری است که پدیدآورندگان دلیکس از آن به عنوان وجه تسمیه اسم این شرکت که ترکیب دو واژه Document Elixirبوده نام میبرند. نسخه آزمایشی دلیکس که در حوزه پردازش مستندات فعالیت میکند، در تابستان 95 و نسخه نهایی آن در بهار 96 به بازار عرضه شد. دلیکس محتوای اسکن شده و PDFها را با موتورهای مختلف بررسی کرده و محتوای آنها را با خطای قابل قبولی استخراج میکند.
تحت وب بودن این سرویس به کاربران این اجازه را میدهد تا بدون نصب نرم افزار خاصی و فقط با داشتن یک مرورگر اینترنتی، بتوانند فایلهای خود را پردازش کنند. سرویسهای دلیکس شامل ارائه OCR فارسی، استخراج کننده باینری، ویرایش کننده PDF و ادغام کننده و جداساز فایلهای PDF میشود. برنامه بعدی سرویس وبسایت دلیکس خدمات API برای OCR فارسی خواهد بود.
بنابر ادعای دلیکس، این سرویس برای بهبود کیفیت خدمات و کاهش هزینه کاربران، دو موتور استخراج کننده شاملOCR فارسی و اسکنر باینری در اختیار آنها قرار میدهد. موتور OCR، محتوای فارسی، انگلیسی، عربی و ترکی داخل تصاویر را با استفاده از هوش مصنوعی و فیلترهای گوناگون استخراج میکند. این مورد برای فایلهای تصویری و PDFهایی که صفحات آن بصورت عکس هستند کاربرد دارد.
ممکن است محتوای PDF در داخل خود فایل بصورت رمزگذاری شده وجود داشته باشد که در این صورت OCR تک تک صفحات بصرفه نخواهد بود. دلیکس با استفاده از اسکنر باینری با هزینه کمتر محتوای PDFها را استخراج میکند.
هزینه خدمات استخراج متن دلیکس به ازای OCR هر صفحه از PDF یا تصاویر، برابر ۶۹ و هزینه هر صفحه استخراج متن از PDF با اسکنر باینری برابر ۱۸ اعتبار است.
از جمله مواردی که دلیکس برای حفظ حریم خصوصی و حفاظت از اطلاعات مشترکان خود در نظر گرفته شامل کوکیها، IPها و اطلاعات غیر حساس میشود. دلیکس مدعی است که فایلهای مشترکان خود را (چه فایلهای ارسالی و چه فایلهای خروجی قابل دانلود) پس از مدت زمان معینی از روی سرورها حذف میکند.
فرآیند حذف کردن شامل تمامی رکوردهای مربوط به فایلها نیز میشود. این فایلها در نسخههای پشتیبان گیری شده نیز ذخیره نمیشوند. همچنین در زمینه اطلاعات خصوصی بنا به گفته مدیران دلیکس، اطلاعات خصوصی مشترکان شامل ایمیل، شماره موبایل و شناسه تلگرام، به هیچ وجه در اختیار یا به فروش اشخاص، شرکتها و سازمانهای ثالث نمیرسد.
دلیکس در یک نگاه