گردش کار (workflow) در تیمهای یادگیری ماشین و دادهکاوی
در کنار فراگرفتن مهارتهای فنی، آشنایی با روند کاری یا گردش کار تیمهای مختلف هوش مصنوعی برای طیف مختلف علاقهمندان به هوش مصنوعی ضروری است. در این مقاله با استفاده از مثالهایی سعی میکنیم گردش کار در تیمهای یادگیری ماشین و دادهکاوی را توضیح دهیم. در تهیه این مطلب از دوره هوش مصنوعی برای همه اندرو ان جی استفاده شده است.
اگر اندکی با هوش مصنوعی آشنا باشید حتماً نام اندرو ان جی را شنیدهاید. ان جی در شرکتهای بزرگی مثل گوگل، بایدو و چند شرکت دیگر تیمهای هوش مصنوعی و یادگیری ماشین را رهبری کرده است. بنابراین توضیحاتی که او درباره گردش کار در تیمهای مختلف هوش مصنوعی میدهد میتواند برای بسیاری از شرکتها و علاقهمندان این حوزه مفید باشد.
گردش کار در تیمهای یادگیری ماشین
الگوریتمهای یادگیری ماشین میتوانند نحوه رسیدن از ورودی به خروجی یا از A تا B را بیاموزند. اما این فرایند چگونه در یک پروژه یادگیری ماشین طی میشود؟
برای درک بهتر مسئله بگذارید از همان ابتدا بحث را با یک مثال پیش ببریم. فرض کنید میخواهیم محصولی را با استفاده از یادگیری ماشین تولید کنیم. مثلاً محصول تولیدی ما مربوط به فناوری تشخیص گفتار است.
محصولاتی مثل الکسای آمازون، گوگل هوم، سیری اپل مثالهایی از این فناوری هستند.
مراحل اساسی در یک پروژه ماشین لرنینگ
به نظر شما در تولید الکسا چه فرایندی طی شده است؟
- جمعآوری داده
اولین مرحله در پروژههای هوش مصنوعی و یادگیری ماشین جمعآوری داده است.
مثلاً درمورد الکسا شما باید صداها و لهجههای مختلفی را جمعآوری کنید که در آن بگویند «الکسا». همچنین نیاز دارید افراد دیگری باشند که واژه های دیگری را بگویند مانند «سلام» یا خیلی از واژههای دیگر.
[irp posts=”14919″]- آموزش مدل
حال که مقدار زیادی داده صوتی جمع کردید که در آن افراد الکسا را صدا میزنند یا از کلمات دیگر استفاده میکنند نوبت به آموزش دادن مدل میرسد. این مرحله بدین معناست که ما از الگوریتمهای یادگیری ماشین استفاده میکنیم تا ماشین فرایند رسیدن از ورودی به خروجی را بیاموزد.
در اینجا ورودی ما فایل صوتی است که کسی میگوید الکسا و خروجی ما این است که سیستم میآموزد بگوید الکسا.
وقتی که تیم هوش مصنوعی فرایند یادگیری را شروع میکنند، طبیعی است که تلاشهای اولیه کیفیت لازم را نداشته باشد. بنابراین تیم باید چند بار این مسیر را طی کند تا به نتیجه مطلوب برسد.
- جاسازی و بهکارگیری مدل
در این بخش مدلی که طراحی کردهایم را درون یک اسپیکر هوشمند واقعی قرار میدهیم. و بهصورت آزمایشی به تعدادی از کاربران میدهیم. معمولاً اتفاقی که در این مرحله میافتد این است که با استفاده ای که این کاربران از مدل میکنند دادههای جدیدی وارد مدل میشود و عملکرد سیستم بهبود مییابد.
برای مثال فرض کنید شما یک سیستم بازشناسی گفتار دارید که با دادههای صوتی انگلیسی با لهجه آمریکایی آموزش دادهاید. حال این محصول را در اختیار تعداد محدودی از کاربران با لهجه انگلیسی بریتانیایی هم قرار میدهید. چه اتفاقی میافتد؟ احتمالا سیستمتان با لهجه بریتانیایی خیلی خوب کار نمیکند. اما شما این دادهها را جمع میکنید و مدل را بهروزرسانی میکنید.
نکتهای که باید در نظر داشت این است که این مراحل خطی نیستند و بارها و بارها در طول تولید محصول به مراحل مختلف بازمیگردیم و با دانستههای جدید بهبود میبخشیمشان.
این مراحل اصلی تقریباً در بقیه پروژههای یادگیری ماشین نیز تکرار میشود. برای مثال بگذارید نگاهی بیندازیم به مراحل اصلی استفاده از یادگیری ماشین در تولید ماشینهای خودران.
برای استفاده از یادگیری ماشین در خودروهای خودران مانند مثال قبل باید ابتدا به این سوال پاسخ دهیم که ورودی و خروجی ما چه خواهد بود؟ در اینجا ورودی ما تصاویر خودروهاست و خروجی ما سیستمی است که میتواند خودروها را در موقعیتهای مختلف تشخیص دهد. در اینجا نیز دوباره اولین قدم جمعآوری دادههاست.
ما به تصاویر متعددی نیاز داریم که در آن انواع خودروها را در موقعیتهای مختلف نشان دهد.
پس از آن نوبت به آموزش مدل میرسد. در این مرحله سیستمی که ساختهایم باید بتواند با استفاده از الگوریتمهای یادگیری ماشین خودروها را تشخیص دهد. و در آخر نوبت به جایگذاری و استفاده از این فناوری میرسد. این محصول را بهصورت آزمایشی در اختیار کاربران قرار میدهیم و از طریق دادههای جدیدی که این خودروها حین استفاده جمع میکنند دوباره وارد چرخه گردش کاری یادگیری ماشین میشویم.
گردش کار در پروژههای دادهکاوی
برخلاف پروژه یادگیری ماشین، برونداد پروژه در علوم داده مجموعهای از بینشهای عملیاتی است. بینشهایی که ممکن است باعث شود ما عملکردهایمان را تغییر دهیم. با توجه به این هدف متفاوت، گردش کار در پروژههای دادهکاوی هم از پروژههای یادگیری ماشین متفاوت است.
همانند یادگیری ماشین بگذارید در اینجا هم بحث را با مثالی پیش ببریم. فرض کنیم که شما فروشگاه اینترنتی دارید که کارش فروختن ماگ است. خریداران برای خریدن ماگ از شما مراحلی را طی میکنند. ابتدا وارد سایت شما میشوند و نگاهی به محصولاتتان میاندازند، بعد احتمالاً محصولی را انتخاب میکنند، به صفحه محصول موردنظر میروند و آن را در سبد خرید خود قرار میدهند و سپس پرداخت را انجام میدهند و فرایند تمام میشود. علم داده در این فرایند چه کمکی میتواند به شما بکند؟
[irp posts=”5199″]گامهای اساسی در یک پروژه علم داده
- جمعآوری داده
همانطور که پیش از این گفتیم جمعآوری داده نقطه شروع اغلب پروژههای هوش مصنوعی است. در همین مثال فروشگاه، ما میتوانیم مجموعهدادهای بسازیم از نام کاربری، IPهای وارد شده، زمان ورود، میزان خرید و مواردی از این دست
- تحلیل دادهها
در این مرحله تیم دادهکاوی ایدهها و تحلیلهای زیادی را از دادهها بیرون میکشند.
برای مثال با در نظر گرفتن IPهای که وارد سایت شده میتوان فهمید برخی از کاربران که از کشورهای دیگر وارد سایت شدهاند تا صفحه خرید محصول رفتهاند اما بهخاطر هزینههای زیاد خرید محصول از خارج از کشور از خرید منصرف شدهاند. یا مثلاً ازطریق تحلیل داده ها الگویی به دست میآید که نشان میدهد در روزهای تعطیل خریدها افزایش یا کاهش داشته است. کشف نقاط اوج و نزول خرید میتواند در سیاستهای تبلیغاتی شرکت هم اثرگذار باشد و تبلیغات اثرگذارتر پیش برود و از صرف هزینههای بیهوده پیشگیری میشود.
یک گروه تحلیل داده خوب ایدههای زیادی دارد و همه ایدهها را بهصورت مستمر بررسی میکند. بنابراین در این مرحله ما با فرایندهای تکراری و بررسیهای چندباره یک ایده مواجهیم.
- پیشنهاد فرضیهها/ اقدامات
در مرحله آخر تیم تحلیل داده از دل بررسی و آزمون ایدههای زیادی که دارد به چند فرضیه و اقدامات موثر در راستای آن فرضیهها میرسد.
با بهکارگیری استراتژیها و بینشهای جدیدی که از دل تحلیل دادهها درآمده دوباره دادههای جدیدی تولید میشود. تیم دادهکاوی دوباره این دادهها را تحلیل میکند و همان مراحل قبلی را طی میکند. اینجاست که چرخه گردش کاری یک تیم تحلیل داده شکل میگیرد.
برای اینکه درک بهتری از این چرخه داشته باشید، یک مثال دیگر میزنیم.
فرض کنیم میخواهیم با استفاده از علم داده پیشنهادهایی برای بهبود کار خط تولید یک کارخانه ارائه دهیم. بگذارید با همان مثال قبلیمان، یعنی ماگ، پیش برویم. قدم اول در تولید ماگ ترکیب خاک و دیگر مواد اولیه با هم است. مرحله دوم به شکل ماگ درآوردن این مواد اولیه است. در مرحله دوم حاصل کار مراحل قبلی رنگآمیزی میشود و لعاب داده میشود. حال ماگهای ساخته شده به حرارت نیاز دارند، بنابراین آنها را در کوره میگذاریم تا حرارت لازم را ببینند. مرحله آخر فرایند تولید ماگ هم تشخیص ماگهای سالم و غیر سالم و بدون کیفیت است.
بالا بردن بهرهوری در خط تولید همواره از دغدغههای اصلی کارخانههای تولیدی بوده است. در اینجا هم تلاش برای به حداقل رساندن ماگهای معیوب و ناقص میتواند مسئله مهمی برای کارفرما باشد.
حال اگر به مراحل انجام پروژه دادهکاوی بازگردیم، مرحله اول جمعآوری داده است. در این مثال میتوان اطلاعات بسیار زیادی جمعآوری کرد. از درصد استفاده از مواد اولیه صرفشده برای هر دسته ماگ تا مدت زمان ماندن در کوره، دمای کوره تا میزان محصولات نامرغوب در هر دسته از ماگهای تولید شده.
[irp posts=”12130″]در اینجا هم تیم دادهکاوی دادهها را بارها و بارها تحلیل میکند و به هم ربط میدهد و ایدههای زیادی از دادهها بیرون میکشد. تیم پس از غربال کردن ایدهها و تحلیلهایش به تعداد اندکی ایده و راهنمای عمل مشخص میرسد.
این راهنمای عمل و استراتژی جدید در خط تولید به کار گرفته میشود، دادههای جدید تولید میشود و این دادهها دوباره نیاز به تحلیل دارد و این چرخه ادامه پیدا میکند.
جمعبندی
بسته به اینکه پروژهها در چه حوزهای از هوش مصنوعی تعریف شوند، گردش کاری آنها نیز متفاوت خواهد بود. در این مطلب با استفاده از مثالهای مختلف گردش کار در پروژههای یادگیری ماشین و دادهکاوی را بررسی کردیم. لازمه هر نوع فعالیت در بازار هوش مصنوعی، چه در بخش سرمایهگذاری و چه بهعنوان نیروی متخصص، آشنایی با روندی است که در هر پروژه هوش مصنوعی طی میشود.