ریاضی در علم داده چقدر مورد نیاز است و چه کاربردهایی دارد؟
حوزه علوم داده، گسترهای است که نسبت به دیگر حوزههای مرتبط با مهندسی نرمافزار، به مجموعه مهارتهای بیشتری نیاز دارد. یکی از متداولترین سوالاتی که از دانشمندان علوم داده پرسیده میشود، این پرسش است: «شما واقعاً چقدر از دانش ریاضی در علم داده استفاده میکنید؟»
پاسخ به این سوال، از آنچه اکثر مردم تصور میکنند، پیچیدهتر است. علوم داده یک حوزه بزرگ از دانش را در بر میگیرد و بسیاری از رشتههای دیگر در زیر مجموعه آن قرار میگیرند. فعالیتهایی که یک مهندس داده در جریان کار خود انجام میدهد، مثالی عالی از گستردگی این رشته را به نمایش میگذارد. یک مهندس داده ممکن است گاهی اوقات نیاز به استفاده از علم جبر خطی داشته باشد، اما خیلی کمتر احتمال دارد که با تعداد زیادی تستهای آماری سروکار پیدا کند. بهعلاوه، اگرچه یادگیری ماشین ممکن است دانش زیادی در زمینه الگوریتمها را بطلبد (که عمدتاً از آمار گرفته شده است)، اما بسیار دور از ذهن است که یک کار عمدتاً تحلیلی همچون مهندسی علم داده واقعا به همان سطح دانش آماری نیاز داشته باشد.
با این توضیحات، اگر شما یک دانشمند علوم داده باشید و تحلیل داده شغل شما باشد، واقعاً برای انجام کارتان چه مقدار دانش ریاضی در علم داده احتیاج دارید؟ سه مبحث اصلی در ریاضیات وجود دارد که اصولاً در علم داده استفاده میشود. اولین آنها جبر خطی است. شما برای اینکه به دانشمندی موفق در علم داده تبدیل شوید، مطمئناً میبایست مهارت بسیار خوبی در جبر خطی داشته باشید. دارایی با ارزش دیگر برای هر دانشمند داده، آمار است. آخرین نکته مهمی که باید به خاطر بسپارید این است که این مباحث ریاضیات باید در کامپیوتر اعمال شوند. این بدان معناست که شما نه تنها باید دانش عمیقی در مباحث ریاضیات داشته باشید، بلکه همچنین باید به کار با کامپیوتر و چگونگی کار با نرمافزارهای مرتبط با هر مبحث نیز مسلط باشید.
جبر خطی
همه مهندسان نرمافزار قطعاً باید با جبر خطی آشنا باشند. البته همه میدانیم که برخی از این مباحث ضروری بهطور غیرمستقیم و از طریق تعاملات علمی و سایر مباحث ریاضی به دست میآیند و تقویت میشوند. اما جبر خطی مطمئناً برای جامعه مهندسی نرمافزار نیز بسیار مهم و ضروری است. جبر خطی یک مهارت اساسی برنامهنویسی است که مطمئناً به یک دانشمند مشتاق کمک میکند تا درباره ریاضیات و بهطورکلی برنامهنویسی بیشتر بیاموزد.
فکر میکنید برای فعالیت در حوزه علوم داده چه مقدار جبر خطی باید بدانید؟ مطمئناً یک نیاز اصلی این است که باید ماتریسها را خوب بدانید، شما باید انجام عملیات ابتدایی با ماتریسها را بلد باشید و درک جامعی از ابعاد ماتریسها داشته باشید. البته همانطور که میدانید، اغلب مدلهای ورودی یک بعدی خواهد بود و از نظر شکل کاملاً سادهاند، به همین دلیل است که داشتن آگاهی از آرایههای پیچیدهتر، مطمئناً یک مهارت ارزشمند تلقی میشود.
آمار
آمار یکی دیگر از مباحث ضروری ریاضی در علم داده است. این علم از ابزارهای بسیار ارزشمندی است که دانشمندان داده باید به آن آشنا باشند و بهطور مکرر از آن استفاده کنند. مطمئناً مشاغل مرتبط با علوم داده وجود دارد که احتمالا در آنها کمتر از آمار استفاده شود. همانطور که گفته شد، بخشهایی از علوم داده از آزمایشهای آماری ناشی میشود که اکثر دانشمندان داده با آن درگیر هستند. البته، این بخش بزرگی از جنبه تحلیلی علم داده را در بر میگیرد. تست آماری گام مهمی است که میتواند برای اثبات معتبربودن موارد با دادهها مورد استفاده قرار گیرد و این یک نکته قدرتمند و قابل تأمل است!
علاوه بر این، مطمئناً دانش آماری در مدلهای یادگیری ماشین جایگاه کاربردی خود را دارد. بسیاری از مدلهای یادگیری ماشینی از وزنه آماری برای نگهداری آمار در مقادیر خاص و سناریوها برای یادگیری استفاده میکنند. آمار یک ابزار باورنکردنی است، زیرا به کامپیوتر اجازه میدهد تا اطلاعات قدیمی را بسنجد و پیشبینی کند.
فکر میکنید برای فعالیت در حوزه علم داده چه میزان آمار باید بدانید؟ یک شروع عالی مطمئناً کسب دانش بنیادی قوی از فرمولهای آماری است. هر دانشمند مشتاقی که بخواهد در علوم داده موفق باشد، میبایست الفبای اولیه علم آمار یونانی را بیاموزد.
داشتن آگاهی و تسلط کامل در این بخشها برای دانشمند داده ضروری است: دانش کافی در زمینه توزیعهای آماری و آزمایش یک یا دو دامنهای، دانش توابع ابتدایی و معادلات دیفرانسیل مانند بتا، گاما، phi و داشتن آگاهی کافی در بخشهایی از مبحث چگالیها و توابع تجمعی.
ریاضیات محاسباتی
مهمترین چیزی که باید با تمام این اطلاعات به خاطر بسپارید، این است که این شغل «دانشمند علوم داده» نامیده میشود و نه ریاضیدان. چیزی که غالباً کمرنگ میشود، تأثیر مهمی است که مهارتهای برنامهنویسی بر روی کار دانشمند داده خواهد گذاشت. اگر در حرفه دانشمند داده در حال فعالیت باشید، خواهید دید که بسیاری از مباحث آماری و عملیات ریاضی در علم داده کاربردی هستند و در فعالیتهای تحلیل یک دانشمند داده بهکار گرفته میشوند.
با توجه به این نکته، منطقی است که به عنوان دانشمند داده بهطور مکرر از مباحث وابسته به این حوزهها استفاده کنید. به همین دلیل مهارت در مدیریت محیطهای مجازی و پلتفرمهای وابسته نیز یک سرمایه علمی بسیار ارزشمند است. با این حساب، اگرچه ممکن است بخواهید درباره انجام عملیات آماری پیچیدهتر اطلاعات بیشتری کسب کنید، آنچه اهمیت دارد، این است که به یاد داشته باشید در بیشتر موارد نیازی به فرمولها ندارید.
نتیجه
در نتیجه، حوزه علوم داده متنوع است. بیشتر دانشمندان داده مهارتهای مختلفی را تمرین میکنند و حتی ممکن است در حوزههای مختلفی کار کنند. در حالی که آمار و جبر خطی برای موفقیت در علم داده مهمتر هستند. آنچه اهمیت دارد این است که شما به عنوان یک دانشمند داده، به حجم زیادی از مهارتهای متنوع نیاز دارید. مهارتهای شما باید به اندازه کافی عمیق و گوناگون باشند تا در کارتان موثر واقع شوند.
بنابراین با توجه به این نکته، بهترین توصیه برای یک دانشمند داده، معمولاً ادامه یادگیری و کسب دانش در حوزههای مختلف ریاضیات است. در دنیای حال حاضر که اطلاعات جدید هر ساعت و هر روز در دسترس همگان قرار میگیرد، گاهی اوقات موثرترین و کاربردیترین اطلاعات ممکن است بسیار نزدیک به ما درحال تولید و انتشار باشند و تنها یک جستجوی کوتاه را نیاز داشته باشند. مهارتهای ریاضی در علم داده مهم هستند، اما اغلب دانشمندان داده برای انجام کار به مراجعه زیاد به منابع جدید و بهروزکردن دانش خود نیاز دارند.