چگونه میتوان داده های تاریک را با هوش مصنوعی و یادگیری ماشین استخراج کرد؟
یادگیری ماشین، یادگیری عمیق و هوش مصنوعی از جمله ابزارهای ضروری برای رقابت در دنیای دیجیتال امروزی هستند. شرکتها میتوانند با استفاده از یادگیری ماشین و هوش مصنوعی از داده های تاریک برای کسب بینش اقتصادی رقابتیتر بهره جویند. داده های تاریک از میلیونها نقطه داده غیرساختاریافته تشکیل یافتهاند که شرکتها در گنجینههای دادهای با چندین قالب ذخیره میکنند. ابزارهای اندکی برای استخراج این حجم عظیم از دادهها وجود نداشت، اما این شرایط در حال تغییر است. مقاله حاضر قصد دارد روشهای مختلفِ پردازش داده های تاریک را بررسی کند و ببیند سازمانها چگونه میتوانند از این اطلاعات برای ارتقای نتایج یادگیری ماشین بهرهبرداری نمایند.
تعریف داده های تاریک
هر یک از صنایع داده های تاریک مخصوص خود را دارند. داده های تاریک به اطلاعات ساختارنیافته، بدون برچسب و غیرمنسجمی اطلاق میشود که در همه سازمانها وجود دارند. اگرچه داده های تاریک کلاسیک گردآوری و ذخیره شدهاند، اما هیچگاه تحلیلی بر روی آنها انجام نشده است. این دادهها شامل طیف گستردهای از موارد میباشند که از جمله آنها میتوان به اسناد شرکتی، پیامهای الکترونیکی، صفحات وب، جداول، اشکال و تصاویر اشاره کرد. شرکتها به طور فزایندهای در حال بهکارگیری فناوریهای پیشرفته هستند تا این دادهها را مورد پردازش قرار دهند زیرا این اقدام بینش اقتصادی ارزشمندی در اختیارشان قرار میدهد و بستر مناسبی برای خودکارسازی سامانهها با الگوریتمهای یادگیری عمیق مهیا میسازد.
شرکتها از سه مولفه که بنیان یادگیری ماشین را تشکیل میدهد، استفاده میکنند. این مولفهها عبارتند از مدلها، دادههای آموزش و سختافزارها. با توجه به امکان دسترسی به چارچوبهای کاربرپسند از قبیل تنسورفلو، پایتورچ و کراس، اکنون بسیاری مدلها را یک نوع کمودیتی یا کالا در نظر میگیرند. توسعهدهندهها میتوانند تازهترین مدلهای پردازش زبان طبیعی را نصب کرده، آنها را به کار برده و منتظر نتایج بمانند. با توجه به اینکه تکنسینها به سختافزارها و مدلهای استاندارد دسترسی دارند، کماکان تامین دادههای آموزش باید در دستور کار قرار گیرد.
مهندسان نیز باید وظیفه ساماندهی آن را بر عهده داشته باشند. این اطلاعات معمولاً نویزدار و غیردقیق است، اما یافتن پیوندهای میان اطلاعات غیرمرتبط نقشی کلیدی در افشای پتانسیل داده های تاریک دارد. فرایندهای برچسبگذاری و مدیریت دستی داده های تاریک فاقد کارایی لازم است و به صرف زمان و منابع بسیاری احتیاج دارد. ابزارهای تحلیل داده های تاریک از قبیل DeepDive، Snorkel و DarkVision عملِ دستهبندی را آسانتر کرده و به کامپیوترها کمک میکنند تا اسناد تولید شده به دست انسان را به خوبی درک نمایند.
روشهای بهرهگیری از داده های تاریک
یادگیری ماشین از هوش مصنوعی برای افزایش سرعت یادگیری استفاده میکند؛ همچنین این فرصت را به سامانهها میدهد تا به صورت خودکار وارد عمل شده و تصمیمهای لازم را بگیرند. این فرایند اکتساب از روشهای آموزش خاص و شناخت الگوی داده استفاده میکند که از جملهی آنها میتوان به یادگیری تقویتی و نظارت نشده اشاره کرد. سامانههای یادگیری ماشین که بر پایهی قوانین تصمیمگیری و مداخلهی انسان عمل میکنند، از «تکرار» برای واکنش صحیح به رویدادهای جدید بهره میگیرند.
ماشینها با تلفیق «تحلیل الگو» با «یادگیری عمیق» میتوانند تواناییهای بینظیری برای ارائه واکنشها و پاسخهای مناسب به دست آورَند چرا که تصمیمها هر لحظه پیچیدهتر میشوند. سازمانها برای اینکه طرحهای یادگیری ماشین را به موفقیت به انجام برسانند، باید در زمینهی نحوهی تحلیل داده های تاریک سرمایهگذاری کرده و آن را در صدر اولویتهای کاریشان قرار دهند. در وهلهی بعد، شرکتها باید راهبردهای مناسبی طراحی کرده و اطلاعات ساختارنیافتهشان را برای پردازش آماده کنند.
در ابتدا، تکنسینها باید از این موضوع مطمئن شوند که دادههای هدفگذاری شده قابلیت اطمینان بالایی دارند و میتوانند بینشهای ارزشمندی در اختیارمان بگذارند. برای نمونه، در صورتی که الزامات قانونی سفت و سختی در کار باشد، دادههای غیردقیق به درد سازمانها نخواهد خورد. از آنجا که نظارت بر داده های تاریک با استفاده از فرایندهای خودکار صورت میگیرد، تکنسینها باید از برچسبهای مِتاداده برای پشتیبانی از پروژههای یادگیری ماشین آتی استفاده کنند و تنظیم یک ساختار مرتب را در دستور کارشان قرار دهند. هدف این است که تبدیل دادههای نامنظم به داراییهای خوانا و قابل فهم به صورت خودکار انجام گیرد. خدمات ابری مسئولیت گردآوری و ذخیرهسازیِ اطلاعات جامع را در اختیار دارند و این کار دسترسی به داده های تاریک را آسان میکند. خدمات ابری نقش پررنگی در تهیه دادههای بلادرنگ و دسترسی به مراکز داده edge، داراییهای دور و اِندپوینتهای اینترنت اشیاء دارد.
تکنسینها میتوانند از شیوه ذخیرهی داده NoSQL برای بکارگیری طرحهای مورد نظر در اطلاعات استفاده نمایند. NoSQL انعطافپذیری تحلیلی قابل ملاحظهای در اختیار سازمانها قرار میدهد تا نحوهی دستهبندیِ داده های تاریک را یاد بگیرند. رهبران کسبوکار و فناوری اطلاعات به چشمانداز شفاف و یکپارچهای در خصوص چگونگیِ استفاده از نتایج نیاز دارند. پردازش زبان طبیعی ابزار ارزشمندی برای رمزگشایی از داده های تاریک و آمادهسازیِ دقیق یادگیری ماشین است. فناوری پردازش زبان طبیعی (NLP) پیوستهای دستوری بین بلوکهای زبانی را به صورت مصور به نمایش در آورده و این امکان را به ماشینها میدهد تا به سرعت اقدام به پردازش و تحلیل چندین ترابایت اطلاعات نمایند. پردازش زبان طبیعی به مدیران فناوری اطلاعات کمک میکند تا به درک خوبی از طیف عظیمی از اسناد و مدارک سازمانی برسند.
خطرات ناشی از داده های تاریک
با توجه به اینکه مدلهای یادگیری ماشین برای هضم و پردازش اطلاعات به اقیانوس عظیمی از دادهها دسترسی دارند، درز اطلاعات و سایر حملات سایبری آنها را تهدید میکند. اگر مدلهای دسترسی به داده با شکافهای امنیتی بزرگی روبرو باشند، نیروهای متخاصم و خرابکار بینش عملیاتی دقیقی از شرایط موجود به دست میآورند. بنابراین، احتمال حملات سایبری سازمانها را تهدید میکند. اگر شرکتها یا سازمانها فاقد پایگاههای داده دقیق یا دانش کافی درباره محتوا باشند، فرایند حسابرسی به خطر میافتد و برند آسیب میبیند. یکپارچگی اطلاعاتی حائز اهمیت بسزایی است. کسبوکارها، شرکتها و سازمانهایی که دادههای خود را از منابع قابل اطمینان و شناخته شدهای به دست نمیآورَند، نباید از آن دادهها برای کسب بینش بهتر استفاده کنند. افزون بر این، رهبران کسبوکار و فناوری اطلاعات باید به افراد کمی امکان دسترسی به دادهها را بدهند؛ آنها باید شیوههای امنیتی و پنهانسازی داده را نیز در دستور کارشان قرار دهند.