رقابت Netflix Prize چقدر تأثیرگذار بوده است؟
نتفلیکس، این سرویس پخش محبوب، در سال 2006 رقابتی ترتیب داد و از پژوهشگران، دانشجویان و ریاضیدانان برای شرکت در این رقابت دعوت به عمل آورد. Netflix اعلام کرد هر کس بتواند عملکرد الگوریتم پیشنهاددهنده این سرویس را ارتقا دهد، برنده جایزه 1 میلیون دلاری این رقابت خواهد بود. شرکتکنندگان در این رقابت میبایست الگوریتمی توسعه دهند که عملکرد آن 10 درصد بهتر از Cinematch باشد. این روزها افراد بسیاری با دیده تردید به رقابت Netflix Prize، که آغازگر رقابتهای الگوریتمی بود، مینگرند.
رقابت Netflix Prize
به گفته خاویر آماترین، مدیر سابق مهندسی در نتفلیکس، سال 2006، Kaggle هنوز تأسیس نشده بود و تنها پس از انتشار خبر برگزاری رقابت Netflix Prize به صورت متن باز درآمد. در آن برهه، هوش مصنوعی به اندازه امروز کارایی نداشت. از این روی، Netflix Prize برای بسیاری از برنامهنویسان فرصت ارزشمندی به شمار میرفت.
دیتاست آموزشی تقریباً از 100 میلیون نقطهداده، از جمله کاربر، فیلم، داده و امتیاز فیلم (از یک تا پنج ستاره)، Kaggle تشکیل میشد. علاوه بر این، دسترسی به یک دیتاست اعتبارسنجی عمومی و کوچک موسوم به “prob” نیز برای شرکتکنندگان فراهم شد. این دیتاست از حدود 5/1 میلیون نقطهداده (بدون امتیاز فیلمها) تشکیل شده بود. و در آخر، دو دیتاست آزمایشی نیز در اختیار شرکتکنندگان قرار گرفت، البته در این دیتاستها، شرکتکنندگان در جریان امتیازات فیلمها قرار نمیگرفتند. لذا، داوران عملکرد الگوریتم شرکتکنندگان را بر اساس امتیازاتی که الگوریتم برای فیلمهای موجود در دیتاست آزمون(Quiz set) پیشبینی کرده ارزیابی میکنند؛ دقت الگوریتم در پیشبینی امتیاز فیلمها بر حسب RSME محاسبه میشد. البته، برای تعیین برنده جایزه سالانه Progress Prize و جایزه بزرگ، الگوریتمها بر مبنای دیتاست آزمایشی (Test set) متفاوتی سنجیده میشدند.
در نهایت، گروه BellKor’s Pragmatic Chaos جایزه 1 میلیون دلاری این رقابت را بُرد. این گروه، متشکل از KorBell (گروهی از محققان شرکت مخابراتی AT&T که در سال اول این رقابت هم، یعنی در سال 2007، برنده جایزه Progress Prize شدند)، تیم Big Chaos از استرالیا و تیم Pragmatic Theory از کِبک بود که به مدت سه سال با هم همکاری داشتند. این سه گروه با هدف افزایش امتیاز خود با یکدیگر همکاری کردند و در نهایت توانستند الگوریتمی توسعه دهند که عملکرد آن 10 درصد بهتر از Cinematch بود.
همانطور که گفتیم تیم Korbell در سال 2007 موفق با دریافت جایزه Progress Prize شد. این تیم در این الگوریتم از تجزیه مقادیر منفرد (SVD) و ماشینهای محدود بولتزمن (RBM) استفاده کرد. RMSE تجزیه مقادیر منفرد و RBM به ترتیب برابر با 8914/0 و 88/0 بود (برای برنده شده جایزه بزرگ RMSE میبایست 8572/0 باشد). الگورتیمی که این تیم پس از سه سال توسعه داد و توانست پیروز این رقابت شود، از 104 مجموعه پیشبینی کننده جداگانه تشکیل شده بود. چندین گروه مختلف این این پیشبینی کنندهها را ایجاد کرده بودند و سپس در یک شبکه عصبی یک لایه در کنار یکدیگر قرار داند. عملکرد الگوریتم برنده کمی بهتر از 10 درصد بود و با همین تفاوت کوچک توانست بر الگویتم اصلی Netflix غلبه کند.
آیا این رقابت تأثیرگذار بود؟
به گفته آماترین، عملکرد الگوریتمی که در سال 2007 برنده جایزه Progress Prize شد در همان وقت هم بهتر از الگوریتم Cinematch بود. به همین دلیل، Netflix تیمی گرد هم آورد تا این الگوریتم را مجدداً طراحی کنند؛ این تیم میبایست این الگوریتم را بار دیگر کدنویسی کنند، آن را مقیاسپذیر کنند، و مجدداً آن را بر روی امتیازات جدید آموزش دهند. با این وجود، مهندسان زمان و تلاش بسیاری را صرف بازتولید الگوریتم برنده Grand Prize (با 104 الگوریتم) کردند که به عقیده آماترین، دقت آن در حد ناچیزی بهبود پیدا میکرد و ارزش صرف این همه وقت و تلاش را نداشت. یکی از دلایل اصلی آن تغییر در شیوه پخش بود؛ به بیانی دیگر، نتفلیکس تصمیم گرفت DVDها را از طریق پُست برای کاربران و علاقهمندان ارسال کند و به همین دلیل پیشبینی میزان مصرف در اولویت بالاتری از پیشبینی امتیازات قرار گرفت.
با این وجود، به اعتقاد آماترین بی انصافی است اگر بگوییم سرمایهگذاری میلیون دلاری نتفلیکس در این رقابت، تأثیری بر این حوزه نداشته است. اولاً، نتفلیکس یکی از مهندسان سیلیکون وَلی را به مدت سه سال به استخدام خود در آورد و استخدام این شخص یک میلیون دلار برای این شرکت هزینه داشته است. ثانیاً، نتفلیکس با این کار باعث شد بسیاری از مهندسان و پژوهشگران با یکدیگر به گفتوگو بنشینند و به دنبال راه چارهای برای حل مشکل نتفلیکس باشند. میتوان گفت این شرکت حتی پیش از تأسیس Kaggle و فراگیری AI در مسیر نوآوری قرار گرفت.
علیرغم آنچه گفته شد، برخی معتقدند اینکه تیمهایی از شرکتها و سازمانهای دیگر بر سر پول با یکدیگر رقابت کردند و اینگونه مسیر را برای پیشرفت ML هموار کردند، چیزی جز استثمار نبوده است. برخی از فعالان این حوزه نیز این کار نتفلیکس را «بیگاری کشیدن از افراد برای ساخت مدلهایی که خود قادر به تولید آنها نیستید» مینامند.
جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید