اسکیت لرن
آموزش‌های پیشرفته هوش مصنوعیداده کاوی و بیگ دیتایادگیری عمیق

تقلب‌نامه کتابخانه اسکیت لرن در پایتون برای یادگیری ماشین

0

آیا شما نیز یکی از میلیون‌ها برنامه‌نویس پایتون هستید که به دنبال کتابخانه‌ای قدرتمند برای یادگیری ماشین می‌گردند؟ اگر چنین است، باید کتابخانه اسکیت لرن را بشناسید. اسکیت لرن در دنیای پایتون نقش مهمی در حوزه یادگیری ماشین دارد و آشنایی با آن برای دریافت مدرک علوم داده‌ ضروری است. این مقاله مناسب کسانی است که پیش‌تر با پکیچ پایتون آشنایی دارند و تنها به دنبال مرجعی مناسب هستند. اگر تازه‌کار هستید و با سازوکار اسکیت لرن آشنایی ندارید، باز هم نیازی به نگرانی نیست؛ زیرا در این مقاله اصول و مفاهیم پایه‌ای کتابخانه اسکیت لرن در حوزه یادگیری ماشینی و نحوه کار با آن را خواهید آموخت.

تقلب‌نامه پایتون برای اسکیت لرن

اسکیت لرن

اسکیت لرن یک کتابخانه متن باز پایتون برای یادگیری ماشینی، پیش پردازش، اعتبارسنجی متقاطع Cross-validation و الگوریتم‌های مصورسازی Visualization algorithms است. این کتابخانه مجموعه متنوعی از الگوریتم‌های یادگیری با نظارت و بدون نظارت را در دسترس ما قرار می‌دهد.

اسکیت لرن

یک مثال ساده

بیایید در یک مثال ساده به کمک کتابخانه اسکیت لرن کدی بنویسیم که:

  • داده‌ها را بارگذاری کند،
  • داده‌ها را به دو دسته آموزش و آزمون تقسیم کند،
  • داده‌ها را با استفاده از الگوریتم KNN آموزش دهد،
  • نتایج را پیش‌بینی کند.
بارگذاری داده‌ها

داده‌های شما باید در آرایه‌های NumPy  به‌صورت داده‌های عددی یا درSciPy  در قالب ماتریس‌های فضایی sparse matrices ذخیره شده باشند. البته می‌توانید از سایر آرایه‌های عددی همچون چارچوب کاری Pandas نیز استفاده کنید.

آموزش و آزمون

مر حله بعدی، پس از بارگذاری داده‌ها، تقسیم دیتاست به داده‌های آموزشی و داده‌ها آزمون است.

پیش پردازش داده‌ها
استانداردسازی

استانداردسازی داده‌ها یکی از مراحل پیش پردازش است که به‌منظور مقیاس‌دهی مجدد یک یا چند صفت انجام می‌شود تا مقدار میانگین صفات برابر ۰ یا انحراف از معیار آن‌ها برابر ۱ شود. در استانداردسازی فرض می‌کنیم که گاوسیتوزیع داده‌ها گاوسی Gaussian distribution  (منحنی زنگوله‌ای Bell curve distribution) است.

نرمال‌سازی

نرمال‌سازی تکنیکی است که عموماً به‌منظور آماده‌سازی داده‌ها برای استفاده در مسئله یادگیری ماشینی به کار گرفته می‌شود. هدف اصلی از نرمال‌سازی تغییر مقادیر عددی ستون‌های دیتاست است تا بتوان بدون از دست دادن اطلاعات یا بر هم زدن تفاوت‌های موجود در گستره مقادیر، به یک مقیاس رایج دست یافت.

باینری کردن داده‌ها

باینری کردن یکی از عملیات‌های رایجی است که روی دیتاست‌ها اجرای می‌شود. برای مثال در این روش تحلیل‌گر می‌تواند به‌جای دفعات تکرار یک cheat sheet ویژگی، تنها بود یا نبود آن را درنظر بگیرد.

کد کردن ویژگی‌های مقوله‌ای

LabelEncoder یکی دیگر از کلاس‌هایی است که در مرحله پیش پردازش داده‌ها برای کد کردن سطوح کلاس‌ها به‌کار گرفته می‌شود. علاوه براین، می‌توان از آن برای تبدیل برچسب‌های غیر عددی به برچسب‌های عددی نیز استفاده کرد.

جایگزینی داده‌های گمشده

کلاس Imputer در پایتون به شما استراتژی‌هایی برای پر کردن جای مقادیر گمشده ارائه می‌دهد. مقادیر گمشده با استفاده از میانگین، مقادیر میانه یا پرتکرارترین مقدار سطر یا ستونی که داده گمشده در آن قرار دارد، جایگزین می‌شوند. این کلاس همچنین ما را قادر می‌سازد تا مقادیر گمشده مختلف را به کد تبدیل کنیم.

تولید ویژگی‌های چندجمله‌ای

ویژگی چندجمله‌ای یک ماتریس ویژگی جدید تولید می‌کند که حاوی تمامی ترکیبات چندجمله‌ای ویژگی‌ها با درجه کمتر یا مساوی یک درجه تعیین‌شده است. برای مثال، اگر یک نمونه ورودی دو بعدی و به صورت (a,b) باشد، ویژگی‌های چندجمله‌ای درجه ۲ آن به صورت (۱,a,b,a,ab,b) خواهد بود.

مدل خودتان را بسازید
برآوردگر یادگیری نظارت‌شده

یادگیری نظارت‌شده نوعی از مدل‌های یادگیری ماشینی است که پس از آموزش دیدن توسط داد‌های برچسب‌دار قادر به پیش‌بینی نتایج آتی خواهد بود.

برآوردگر یادگیری بدون نظارت

یادگیری بدون نظارت نیز نوع دیگری از مدل‌های یادگیری ماشینی است که می‌‌تواند بدون آموزش دیدن توسط داده‌های برچسب‌دار، نتایج آتی را پیش‌بینی کند.

برازش مدل

برازش معیاری است برای قابلیت تعمیم‌یابی یک مدل یادگیری ماشینی برای داده‌های مشابه با داده‌هایی که توسط آن‌ها آموزش دیده است.

پیش‌بینی

برازش معیاری است برای قابلیت تعمیم‌یابی یک مدل یادگیری ماشینی برای داده‌های مشابه با داده‌هایی که توسط آن‌ها آموزش دیده است.

ارزیابی عملکرد مدل
معیارهای دسته‌بندی

ماژول sklearn.metrics به‌منظور سنجش عملکرد دسته‌بندی، تعداد زیادی تابع زیان، امتیاز و مطلوبیت اجرا می‌کند.

معیار خوشه‌بندی

معیارهای رگرسیون

ماژول sklearn.metrics به‌منظور سنجش عملکرد دسته‌بندی تعداد زیادی تابع زیان، امتیاز و مطلوبیت اجرا می‌کند.

اعتبارسنجی متقاطع

هماهنگ کردن مدل
جستوجوی مشبک

تابع GridSearchCV دو متد fit و score را اجرا می‌کند. همچنین اگر predict، predict_proba، decision_function، transform و inverse_transform در تخمین­گر استفاده شده باشند، آن‌ها را نیز اجرا می‌کند.

بهینه‌سازی پارامتر تصادفی

تابع RandomizedSearchCV یک جستوجوی تصادفی روی ابرپارامترها انجام می‌دهد. این تابع برخلاف تابع GridSearchCV، تمامی مقادیر پارامترها را بررسی نمی‌کند، بلکه از هر توزیع معین تعداد ثابتی از پیکربندی پارامترها به عنوان نمونه انتخاب می‌شوند. تعداد پیکربندی پارامترهایی که تحت بررسی قرار خواهند گرفت توسط متغیر n_iter مشخص شده است.

بارگیری تقلب‌نامه پایتون برای کتابخانه اسکیت لرن

اگر به مطالعه مقالات محبوب درخصوص فناوری‌های پرطرفدار همچون هوش مصنوعی، دواپس و هک قانونی علاقه دارید، می‌توانید به وب‌سایت Edureka مراجعه نمایید.

منتظر دیدن هوش مصنوعی دارای احساسات باشید

مقاله قبلی

با هوش مصنوعی صحبت کنید

مقاله بعدی

شما همچنین ممکن است دوست داشته باشید

نظرات

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *