Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش خبری
پرامپت‌ نویسی
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
خطرات هوش مصنوعی
دیتاست
مدل‌های بنیادی
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
پیاده‌سازی هوش مصنوعی
گزارش
مصاحبه
هوش مصنوعی در عمل
 مسئله کنترل کیفیت هوش مصنوعی مولد

آنچه آمازون از خودکارسازی فرایند ایجاد صفحات محصول آموخت

مسئله کنترل کیفیت هوش مصنوعی مولد

زمان مطالعه: 12 دقیقه

با وجود تمام شوروشوق پیرامون هوش مصنوعی مولد؛ یک مانع اصلی، پذیرش گسترده آن را محدود کرده است: تمایل این فناوری به ساختن اطلاعات نادرست، حذف برخی اطلاعات و ایجاد گزینه‌های متعددی که انتخاب موارد مؤثر از میان آن‌ها دشوار است.

به همین دلیل، اکثر شرکت‌ها اکنون از بررسی‌های انسانی و ابزارها یا خدمات آزمایشی مستقل برای رفع نواقص هوش مصنوعی مولد استفاده می‌کنند. بااین‌حال، هر دوی این روش‌های کنترل کیفیت پرهزینه هستند و تنها بخش کوچکی از کل خروجی‌های هوش مصنوعی مولد را می‌توانند مدیریت کنند. «مجله کسب‌وکار هاروارد» نیز در جدیدترین نسخه خود (September-October 2025)، در گزارشی به بررسی این موضوع پرداخته است.

آمازون چه کرد؟

اما آمازون رویکرد بهتری برای عملیات عظیم کاتالوگ محصولات خود توسعه داده است؛ سیستمی مبتنی بر هوش مصنوعی مولد به نام Catalog AI که داده‌های غیرقابل‌اعتماد را شناسایی و مسدود می‌کند، ایده‌هایی برای صفحات جدید محصولات تولید و اثربخشی آن‌ها را آزمایش می‌کند و با استفاده از بازخوردهای حاصل از بررسی‌های کیفی و آزمایش‌ها به‌صورت خودکار خود را بهبود می‌بخشد. این سیستم قادر است سالانه ده‌ها میلیون فرضیه را ایجاد و آزمایش کند، درحالی‌که سیستم‌های مبتنی بر نیروی انسانی معمولاً تنها چند هزار فرضیه را می‌توانند آزمایش کنند.

درحالی‌که بسیاری از سازمان‌ها برای دستیابی به بازده مالی از سرمایه‌گذاری‌های خود در هوش مصنوعی با مشکل مواجه هستند، پروژه کاتالوگ هوش مصنوعی آمازون در حال حاضر ارزش قابل‌توجهی ایجاد کرده است. تا زمان نگارش این گزارش، ۸ درصد از پیشنهادهای این سیستم تأثیر مثبتی بر درآمد فروش آمازون داشته‌اند. یکی از ما نویسندگان این گزارش از کسب‌وکارهای دیگری نیز اطلاع دارد که آزمایش‌های آنلاین آن‌ها نرخ موفقیت بالاتری (بین ۱۰ تا ۲۰ درصد) داشته‌اند. اما این شرکت‌ها برای تولید فرضیه‌ها به نیروی انسانی وابسته بودند و سیستم‌های آزمایشی آن‌ها به‌اندازه آمازون خودکار نبودند؛ یعنی تعداد فرضیه‌های تولیدشده و آزمایش‌شده توسط آن‌ها بسیار کمتر از آمازون بود.

علاوه بر این، توانایی سامانه آمازون برای بهبود خودکار، تضمین می‌کند که نرخ بازده آن با گذشت زمان افزایش خواهد یافت. اگرچه آمازون این سیستم را که در سال ۲۰۲۳ راه‌اندازی شده، همچنان درحال‌توسعه می‌داند، اما نویسندگان اعتقاد دارند که این سیستم به‌اندازه کافی پیشرفت کرده است که مدیران سایر سازمان‌ها نیز بتوانند از یادگیری نحوه کنترل کیفیت محتوای تولیدشده توسط هوش مصنوعی در مقیاس بزرگ آمازون بهره‌مند شوند.

اشکالات رویکرد سنتی

کاتالوگ آنلاین آمازون شامل صدها میلیون محصول است که به مشتریان در سراسر جهان عرضه می‌شود. روزانه میلیون‌ها فهرست محصول اضافه یا ویرایش می‌شود و داده‌های این محصولات شامل تصاویر، عناوین، توضیحات و توصیه‌ها می‌بایست کامل، دقیق و جذاب باشند تا خریداران بتوانند به‌سرعت محصولات موردنظر خود را پیدا کنند. علاوه بر این، خریداران بازگشتی انتظار دارند طرح‌بندی‌های (Layout) تصاویر، عناوین محصول، توضیحات و دکمه‌های خرید آشنایی را ببینند که به‌راحتی قابل‌دسترس باشند و سریع بارگذاری شوند. اما مخاطرات هم زیاد است: وقتی اطلاعات محصول ناقص، نامربوط یا کاملاً اشتباه باشد، مشتریان خرید خود را تکمیل نمی‌کنند یا محصولاتی را که با انتظاراتشان مطابقت ندارد، مرجوع می‌کنند. در هر دو حالت، آمازون پول و اعتماد مشتری را از دست می‌دهد.

برای اطمینان از کیفیت داده‌ها، آمازون به طور سنتی از تخصص هزاران کارمند که در مدیریت فهرست محصولات تخصص داشتند، استفاده می‌کرد. همچنین صدها مدل یادگیری ماشین را به کار می‌گرفت که هر یک برای یک دسته محصول (مانند پیراهن یا تلویزیون) و یک جزء طرح‌بندی (مانند عنوان محصول یا توضیحات) بهینه شده بودند. متخصصان با این مدل‌ها همکاری می‌کردند تا اطلاعات را اضافه یا حذف کنند، اشکالات را شناسایی کنند، اطلاعات را یکپارچه کنند، متن را به زبان‌های مختلف ترجمه کنند و داده‌های منابع شخص ثالث را ادغام کنند. اما این مدل‌های یادگیری ماشین سنتی محدودیت‌هایی دارند: آن‌ها برای مجموعه‌داده‌های کوچک و ساختاریافته مناسب‌تر هستند و تعمیم آن‌ها به دسته‌های مختلف محصولات هزینه‌بر است. برای مثال، یک مدل یادگیری ماشین که برای پیراهن‌ها آموزش دیده؛ نمی‌تواند به طور به‌صرفه‌ای برای تلویزیون یا هر محصول غیر پیراهنی دیگری استفاده شود. در مقابل، مدل‌های زبانی بزرگ روی مجموعه‌داده‌های بزرگی آموزش دیده‌اند و می‌توانند در دسته‌های مختلف محصولات کار کنند. با جایگزینی مدل‌های یادگیری ماشین با مدل‌های زبانی بزرگ، آمازون زیرساخت فناوری (مدل‌های کمتر) و سازمان (متخصصان عملکردی کمتر) را ساده کرد و هزینه‌ها را کاهش داد.

اطمینان از قابلیت اطمینان رویکرد جدید 

در چند هفته اول پس از راه‌اندازی کاتالوگ هوش مصنوعی (Catalog AI)، حدود ۸۰ درصد از نتایج آن غیرقابل‌اعتماد بودند. این سیستم اطلاعات نادرستی تولید می‌کرد، اطلاعاتی را حذف می‌کرد یا توصیه‌هایی ارائه می‌داد که برای مشتریان جذاب نبود. برای مثال، ادعا کرد که یک پمپ الکتریکی ۱۵ اسب بخار قدرت دارد، درحالی‌که چنین اطلاعاتی اصلاً وجود نداشت. به طور مشابه، وقتی درباره جنس یک مبل سؤال شد، مدل اطلاعاتی درباره جنس قاب مبل ارائه داد، نه جنس نشیمنگاه مبل که بیشتر مشتریان به آن علاقه‌مند بودند. برای رفع این مشکلات کیفی و آزمایش اثربخشی تغییرات احتمالی، آمازون چهار گام زیر را برداشت.

انجام ممیزی 

برای رصد پیشرفت، یک سازمان باید عملکرد پایه سیستم خود را بشناسد. در روند تولید، این کار با ارزیابی یک فرایند در دوره‌ای پایدار و استفاده از آن اطلاعات برای تعیین محدودیت‌های کنترل‌کننده انجام می‌شود. آمازون مدل زبانی بزرگ خود را وادار کرد تا هزاران صفحه محصول که از قبل شناخته‌شده بودند را تولید کند؛ سپس ممیزهای انسانی صفحات تولیدشده توسط مدل را با اطلاعات شناخته‌شده مقایسه کردند، قابلیت اطمینان آن‌ها را امتیازدهی کردند و دلایل اصلی عملکرد ضعیف مدل‌ها را تحلیل کردند. این کار به مجموعه‌ای از بهبودهای سریع منجر شد که در ادامه بررسی خواهد شد.

اعمال گاردریل‌ها 

«توهم» در مدل یعنی خروجی نادرست یا غیردقیقی که به‌گونه‌ای ارائه می‌شود که گویی درست است؛ معمولاً زمانی رخ می‌دهد که مدل به نتیجه‌ای می‌رسد که مبتنی بر داده‌های ورودی نیست. یکی از راه‌های بهبود قابلیت اطمینان و جلوگیری از توهم، محدودکردن LLM است تا فقط خروجی‌هایی تولید کند که از داده‌های خاص خود کسب‌وکار به دست آمده‌اند، نه از اطلاعات عمومی وب یا منابع داده‌ای غیرمرتبط با کسب‌وکار. اما این کار به‌نوعی یک بده‌بستان است: یعنی هرچه LLM آزادی بیشتری برای دسترسی به داده‌های خارجی و داخلی داشته باشد، ایده‌های جدید بیشتری می‌تواند کاوش، اصلاح و آزمایش کند. برای مثال، با استفاده از اطلاعاتی که از وب به دست می‌آورد، مدل ممکن است پیشنهاد دهد که بشقاب‌های کاغذی قابل شستشو در ماشین ظرف‌شویی نیستند. اعمال محدودیت‌های بیش از حد بر ورودی‌های LLM، توانایی آن را برای استنتاج چنین نتایجی کاهش می‌دهد. به همین دلیل، آمازون به‌جای محدودکردن ورودی‌های LLM خود، تصمیم گرفت سه نوع محدودیت دیگر را اعمال کند.

  1. قوانین ساده: یکی از روش‌های تضمین قابلیت اطمینان، دستوردادن به سیستم برای رد محتوایی است که با قوانین مطابقت ندارد. برای مثال، یک قانون می‌تواند این باشد که عددی که وزن را توصیف می‌کند، باید با واحدی مانند کیلوگرم یا پوند همراه باشد. آمازون قانونی ایجاد کرد که Catalog AI باید پیشنهادهایی را که تغییرات غیرضروری نسبت به فهرست فعلی ایجاد می‌کنند (مثلاً تغییر سبک محصول از «معاصر» به «مدرن») را رد کند. قوانین ساده همچنین طرح‌بندی صفحه را تعیین می‌کنند تا مشتریان تجربه‌ای یکپارچه در کل سایت داشته باشند.
  2. پروفایل‌های آماری: گاردریل‌ها مانند محدودیت‌های «کنترل فرایند آماری» (Statistical Process Control – SPC) در کارخانه‌ها عمل می‌کنند. وقتی متغیرهای فرایند از این محدودیت‌ها خارج شوند، زنگ هشدار به صدا درمی‌آید و علت اصلی مشکل بررسی می‌شود. برای ایجاد چنین گاردریل‌هایی برای مدل‌های هوش مصنوعی مولد، شرکت‌ها می‌توانند از داده‌های محصولات فعلی استفاده کنند تا بررسی کنند آیا خروجی در محدوده موردانتظار قرار دارد یا خیر. برای مثال، یک LLM ممکن است اطلاعاتی درباره یک میز که توسط فروشنده شخص ثالث عرضه می‌شود، تولید کند و اطلاعات مربوط به میزهای معمولی فروخته‌شده در فروشگاه آنلاین آمازون برای ایجاد گاردریل‌ها استفاده می‌شود. وقتی اطلاعات محصول تولیدشده توسط LLM خارج از محدودیت‌های کنترلی باشد، مدل توسط یک LLM دیگر مورد سؤال قرار می‌گیرد. در برخی موارد، LLM اول می‌تواند اشتباهات خود را وقتی از او خواسته می‌شود دلیل اطلاعاتش را توضیح دهد، تشخیص دهد.
  3. هوش مصنوعی برای بررسی‌کردن هوش مصنوعی: یک نمونه از این موضوع همان چیزی است که در بالا توضیح داده شد؛ اما امکان ایجاد قوانین یا گاردریل‌هایی که هر خروجی ممکن از هوش مصنوعی را پوشش دهند، وجود ندارد؛ ولی سیستم هوش مصنوعی مولد دوم می‌تواند این موارد را مدیریت کند. آمازون از هوش مصنوعی مولد برای شناسایی مشکلاتی که توسط هوش مصنوعی مولد تولید شده‌اند، استفاده می‌کند. LLM اول به‌عنوان تولیدکننده محتوا برای تولید فرضیه‌ها آموزش دیده است و مدل دوم به‌عنوان بازبین محتوا، برای بررسی خروجی مدل اول آموزش دیده است. این دو مدل به هم متصل هستند و به‌صورت خودکار با استفاده از دانش پس‌زمینه متفاوت خود با یکدیگر گفت‌وگو می‌کنند.  

برای مثال، آمازون از یک LLM برای شناسایی ناسازگاری‌ها در صفحات محصول استفاده می‌کند؛ مانند اطمینان از اینکه رنگ ذکرشده در عنوان محصول با رنگ تصویر مطابقت دارد یا نه. اگر ناسازگاری شناسایی شود، تغییرات در اطلاعات محصول به‌صورت خودکار مسدود می‌شود. سیستم هوش مصنوعی مولد می‌تواند توسط بازبین محتوا مورد سؤال قرار گیرد؛ مثلاً «چرا صفحه محصول جدید بهتر از صفحه فعلی است؟» این کار تولیدکننده محتوا را مجبور می‌کند خروجی خود را تحلیل کند و احتمالاً پیشنهاد قبلی خود را کنار بگذارد. برای افزایش دقت بررسی‌های قابلیت اطمینان، Catalog AI می‌تواند به مدل‌های زبانی بزرگ داخلی و خارجی که روی داده‌های متفاوتی آموزش دیده‌اند، متصل شود و ازآنجایی‌که LLMها روی اطلاعات متفاوتی آموزش دیده‌اند، مشکلات متفاوتی را نیز پیدا می‌کنند. برای مثال، اگر مدل تولیدکننده محتوا در محاسبه حجم محصول دچار خطای استدلالی شود، مدل بازبینی‌کننده که روی مجموعه‌داده متفاوتی آموزش دیده به‌احتمال زیاد می‌تواند این خطا را تشخیص دهد و می‌تواند آن را مسدود کند.  

پس از اینکه یک فرضیه از هوش مصنوعی مولد تمام بررسی‌های کیفی را با موفقیت پشت سر گذاشت، به یک پلتفرم آزمایشی منتقل می‌شود تا اثربخشی آن ارزیابی شود: آیا تغییر پیشنهادی، فروش یا تعداد واحدهای فروخته‌شده را افزایش می‌دهد؟

آزمایش اثربخشی 

شرکت‌ها باید راه‌های مؤثری برای ارزیابی اینکه کدام‌یک از ایده‌های متعدد تولیدشده توسط هوش مصنوعی مولد واقعاً کارآمد است، پیدا کنند. پیش‌تر، متخصصان کاتالوگ آمازون قوانین و الگوریتم‌هایی ایجاد می‌کردند که به‌صورت خودکار طرح‌بندی صفحاتی که به نظرشان مؤثرتر بودند را تأیید، طراحی و بهبود می‌دادند.

اما این رویکرد چند محدودیت داشت؛ متخصصان در ایجاد این قوانین و الگوریتم‌ها برخی فرضیات آزمایش‌نشده را وارد می‌کردند و از آزمایش‌هایی استفاده می‌کردند که همیشه مقرون‌به‌صرفه یا خودکار نبودند. علاوه بر این، روش‌های سنتی تحقیقات بازار مانند نظرسنجی ممکن بود گمراه‌کننده باشند؛ زیرا آنچه مشتریان می‌گفتند همیشه با آنچه انجام می‌دادند مطابقت نداشت. این موضوع پیش‌بینی ترجیحات مشتریان را بسیار دشوار می‌کرد. به گفته یکی از مدیران Booking.com: «ما هر روز شواهدی می‌بینیم که نشان می‌دهد مردم در حدس‌زدن بسیار ضعیف هستند و پیش‌بینی‌های ما درباره رفتار مشتریان در ۹ مورد از ۱۰ مورد اشتباه است.»

برای اینکه مشخص شود کدام تغییرات با خواسته مشتریان هم‌خوانی دارد، تیم Catalog AI، آزمون A/B را در جریان کاری سیستم ادغام کرد. اجرای روند آزمایش علمی برای این حجم بسیار بالای خروجی‌های هوش مصنوعی مولد نیازمند یک سری زیرساخت‌های آزمایشگاهی است؛ مواردی شامل ابزارهای ثبت داده (برای ذخیره مواردی مانند کلیک‌ها، حرکت ماوس و زمان رویدادها)، خطوط انتقال داده و دانشمندان داده. چندین ابزار و سرویس شخص ثالث انجام آزمایش‌ها را ساده‌تر می‌کنند؛ اما برای اجرای صحیح مقیاس‌پذیری، یک شرکت باید این قابلیت را به طور کامل در جریان کاری خود ادغام کند. در آمازون، این زیرساخت کاملاً خودکار است و تمام تغییرات پیشنهادی صفحات محصول توسط Catalog AI تحت آزمون A/B قرار می‌گیرند.  

این سیستم یک آزمایش کنترل‌شده را اجرا می‌کند که دو یا چند احتمال ممکن را مقایسه می‌کند: «A» (کنترل یا قهرمان) فهرست محصول فعلی است و «B» (چالشگر) نسخه‌ای اصلاح‌شده از آن اطلاعات است که توسط هوش مصنوعی برای هدفی خاص، مثل بهبود نرخ تبدیل مشتریان تولید شده است. کاربران به‌صورت تصادفی این رویدادها را تجربه می‌کنند و معیارهای ترکیبی آن محاسبه و مقایسه می‌شوند. این معیارها باید با اهداف استراتژیک هم‌راستا باشند و بهترین معیارهای کوتاه‌مدت باید بتوانند نتایج بلندمدت را پیش‌بینی کنند.

در آزمایشی اخیر درباره یک محصول مراقبت از پوست، Catalog AI یک توضیح چالشگر تولید کرد که بر مزایای کلیدی محصول تمرکز داشت؛ در مقابل، توضیح قهرمان شامل فهرست بلندی از ویژگی‌ها و مزایای آن‌ها بود. درحالی‌که قهرمان به جزئیات چگونگی ایجاد مزایایی مانند باز کردن منافذ پوست، بهبود بافت پوست و کاهش قرمزی پرداخته بود، نسخه بسیار کوتاه‌تر پیشنهادی توسط هوش مصنوعی به‌سادگی مزایای اصلی محصول را فهرست کرد: پوست نرم‌تر، مرطوب‌شده و کاهش چین‌وچروک. این نسخه کوتاه‌تر فروش را در میان گروهی از مشتریان که به‌صورت تصادفی انتخاب شده بودند، به طور قابل‌توجهی افزایش داد. آزمایش‌های دیگر نشان دادند که مدل زبانی بزرگ برخی مزایا را از عناوین محصول حذف می‌کرد. برای مثال، حذف عبارت «پوست درخشان» توسط هوش مصنوعی از عنوان محصول تأثیر منفی بر فروش داشت. به‌طورکلی، آزمایش‌ها نشان داده‌اند که حدود ۴۰ درصد از محتوای تولیدشده توسط هوش مصنوعی که آزمون‌های قابلیت اطمینان آمازون را با موفقیت پشت سر می‌گذارد، یا معیارهای عملکرد اصلی مانند نرخ تبدیل مشتری را بهبود می‌دهد یا تأثیر مثبت یا منفی ندارد. اما ۶۰ درصد دیگر نتایج منفی قابل‌توجهی دارند و چنین محتوا معمولاً در کاتالوگ شرکت منتشر نمی‌شود.

ایجاد یک سامانه یادگیری 

یک سیستم کیفیت ایده‌آل باید سیستمی یادگیرنده باشد که به‌صورت مداوم و با حداقل دخالت انسانی بهبود یابد. سیستم آمازون داده‌هایی تولید می‌کند که عملکرد LLM را بهبود می‌بخشد و آن را در به چالش کشیدن فرضیات درباره آنچه مشتریان دوست دارند یا ندارند، کارآمدتر می‌کند. بااین‌حال، مهندسان آمازون دریافتند که گاهی دخالت انسان برای تولید داده‌های آموزشی بهتر، مفید است. برای مثال، بررسی‌های انسانی آزمایش‌های با نتایج منفی، گاهی اوقات اشکالات LLM را آشکار و اصلاح می‌کنند. در یک بررسی، تیم متوجه شد که مدل به‌اشتباه هرگاه اطلاعاتی وجود نداشته باشد؛ عبارت «بدون گارانتی» را به‌عنوان پیش‌فرض در نظر می‌گرفت و در اطلاعات محصول می‌نوشت. بااین‌حال، با بهبود Catalog AI، دخالت انسانی به تصمیم‌گیری‌های مربوط به طراحی سیستم و زیرساخت‌ها محدود خواهد شد. در ادامه، اجزای موردنیاز برای ساخت یک سیستم یادگیرنده را بررسی می‌کنیم:

  • مدل مشتری: برای تسریع در روند بازخورد، شرکت‌ها می‌توانند یک معیار ترکیبی ایجاد کنند که ترجیحات مشتریان را مدل‌سازی کند. اگرچه به طور دقیق، مدل مشتری برای ساخت یک سیستم یادگیری الزامی نیست، اما اگر دقیق باشد، باعث می‌شود سیستم بسیار سریع‌تر عمل کند. یک مدل به شرکت اجازه می‌دهد با اجرای آزمایش‌های مجازی، بازخوردهای تقریباً آنی دریافت کند. طراحی معیاری که مانند یک مشتری معمولی واکنش نشان دهد، نیازمند بررسی دقیق است. شرکت باید تعیین کند که کدام داده‌ها را شامل شود و از طریق آزمایش‌های متعدد با مشتریان، اعتبار آن را تأیید کند.  Catalog AI از یک مدل مشتری همراه با آزمایش‌های زنده به اسم معیار «کیفیت داده کاتالوگ» (Catalog Data Quality – CDQ) استفاده می‌کند. این معیار شامل اطلاعاتی از قوانین، پروفایل‌های آماری و بررسی‌های قابلیت اطمینان است. در نهایت، CDQ جایگزین اکثر آزمایش‌های شامل مشتریان واقعی خواهد شد که روند یادگیری سیستم را تسریع می‌کند.
  • آزمایش‌های چندمتغیره: علاوه بر آزمون‌های A/B، سیستم آمازون از آزمایش‌های چندمتغیره استفاده می‌کند. آزمایش‌های پیچیده‌تری که بینش عمیق‌تری درباره تعامل چندین متغیر (مانند متن، رنگ و تصاویر) یا تعیین بهترین انتخاب‌های طراحی را ارائه می‌دهند. الگوریتم‌های آمازون الگوها را شناسایی کرده و آن‌ها را از طریق آزمایش‌های چندمتغیره روی محصولاتی که صفحات وب آن‌ها ترافیک بالایی دارند و تأثیرشان بر معیارهای عملکرد اصلی از نظر آماری معنادار است، بررسی می‌کنند. آزمایش‌هایی که نتایج قابل‌توجهی دارند؛ یعنی آن‌هایی که بیش از ۱ درصد تأثیر مثبت بر برخی معیارهای اصلی دارند و کمتر از ۱ درصد تأثیر منفی بر سایر معیارها، توسط دانشمندان داده برای یافتن الگوها و خطاها بررسی می‌شوند. باتوجه‌به حجم ترافیک مشتری و تراکنش‌ها در بازار آمازون، حتی تغییرات کوچک در میلیون‌ها فهرست محصول می‌تواند به میلیاردها دلار درآمد اضافی منجر شود. شرکت‌هایی با ترافیک وب بسیار کمتر، آستانه متفاوتی برای اعمال تغییرات نسبت به آمازون باید داشته باشند.
    اگرچه هدف این است که Catalog AI به‌صورت خودکار خودش را آموزش دهد؛ اما در حال حاضر انسان در فرایند یادگیری آن مشارکت دارد. برخی آزمایش‌ها اثرات را ایزوله کرده و اتفاقاتی رقم می‌زنند که می‌توانند بین تیم مدیریت Catalog AI و دانشمندان داده به اشتراک گذاشته شوند. برای مثال، تیم عناوین Catalog AI ممکن است LLM  را وادار کند تا عناوین محصولی با طول‌ها و اطلاعات متفاوتی تولید کند:

Brand X Plant Protein Powder, vanilla, 22g protein, 20 servings (75 characters)
Brand X Plant Protein Powder, vanilla, 22g protein, non-GMO, vegan, no gluten, dairy, or soy, 20 servings (120 characters)
Brand X Plant Protein Vanilla 22g protein, non-GMO, vegan, no gluten, dairy, or soy, no artificial flavors, synthetic coloring, preservatives, or additives, 20 servings (180 characters).

آزمایش‌ها مشخص می‌کنند که کدام‌یک از این سه عنوان محصول مؤثرتر است و سپس از آن برای آموزش LLM  استفاده می‌شود. با تولید داده‌های آموزشی بهتر در دسته‌های مختلف محصولات، کیفیت خروجی Catalog AI به طور قابل‌توجهی بهبود یافته است و اکنون ۸۰ درصد از خروجی‌های Catalog AI بررسی‌های اولیه کیفیت را با موفقیت پشت سر می‌گذارد.

  • آزمایش‌های مفهومی: هنگامی که Catalog AI راه‌اندازی شد، میلیون‌ها تغییر در فهرست‌ها ایجاد کرد که باید روی مشتریان آزمایش می‌شد. در حالت ایده‌آل، هر تغییر باید در آزمایشی مستقل آزمایش می‌شد؛ اما بسیاری از فهرست‌های محصول ترافیک کافی مشتری برای دستیابی به اندازه نمونه بحرانی موردنیاز را ندارند. هنگامی که ترافیک مشتری به اندازه کافی قوی نیست (کمتر از یک میلیون بازدید) پلتفرم آزمایشی به طور خودکار محتوای تولیدشده توسط هوش مصنوعی را با دسته‌بندی فهرست‌های محصول مشابه در آزمایش‌های مفهومی واحد آزمایش می‌کند تا بینش‌هایی را کشف کند. یک الگوریتم ویژه، بسته محتوا را گاهی از هزاران فهرست تولیدشده توسط هوش مصنوعی، بر اساس دسته‌های محصول دسته‌بندی می‌کند. (برای محصولاتی که بیش از یک میلیون بازدید دارند، یک آزمایش مستقل اجرا می‌شود.) دسته‌ها تاحدامکان کوچک هستند، درحالی‌که می‌بایست الزامات اندازه نمونه آماری را برآورده کنند. هوش مصنوعی هزاران متغیر را برای بهبود توضیحات، مثلاً قهوه‌سازها، تولید می‌کند که در یک آزمایش مفهومی واحد ترکیب می‌شوند. این آزمایش‌ها می‌توانند فرضیات درباره ترجیحات مشتریان را که هرگز آزمایش نشده‌اند، به چالش بکشند.
    برای مثال، یک آزمایش یک فرضیه قدیمی متخصصان که در مدل‌های یادگیری ماشین گنجانده شده بود را به چالش کشید؛ اینکه خریداران ترجیح می‌دهند تضاد شدیدی بین پس‌زمینه سفید و محصول نمایش‌داده‌شده وجود داشته باشد یا نه. آزمایش مفهومی بررسی کرد که چگونه تصاویر بهبودیافته توسط هوش مصنوعی بر تعامل مشتری تأثیر می‌گذارد. هزاران صفحه تولیدشده توسط هوش مصنوعی پیشنهادهایی برای پس‌زمینه‌هایی داشتند که محصولات را در محیط اصلی خود فروشنده نشان می‌دادند. این پیشنهادها در یک آزمایش مفهومی دسته‌بندی شدند که شامل یک کنترل با پس‌زمینه سفید و یک مدل با بلوز حرارتی مشکی بود. تصویر مورد آزمایش پس‌زمینه‌ای غنی‌شده اضافه کرد و مدل با بلوز را در یک محیط داخلی قرار داد تا به مشتریان کمک کند محصول را در استفاده روزمره تجسم کنند. آزمایش نشان داد که افزودن پس‌زمینه غنی‌شده فروش را افزایش داد و این تغییر برای صدها محصول فشن اعمال شد.

افزایش اثربخشی پروژه‌های هوش مصنوعی 

هنگامی که سیستم‌های کیفیت مستقر شوند، می‌توانند فراتر از مدیریت کیفیت خروجی تولیدشده توسط هوش مصنوعی عمل کنند؛ آن‌ها می‌توانند منابع را به پروژه‌های جاری هوش مصنوعی با بالاترین نرخ بازگشت سرمایه (ROI) هدایت کنند. معمولاً کسب‌وکارهایی که این ابتکارات را اجرا می‌کنند، برآوردهای بیش از حد خوش‌بینانه‌ای از بازده مالی موردانتظار خود ارائه می‌دهند که به نوبه خود میزان دربرگیری متخصصان و منابع محاسباتی را تعیین می‌کند. وقتی سیستم کیفیت، اثربخشی پروژه‌های جدید را با مشتریان آزمایش می‌کند؛ مدیران می‌توانند بر اساس شواهد محکم تصمیم بگیرند که بهترین راه تخصیص منابع چیست.

برای مثال، چنین سیستمی به شرکت اجازه می‌دهد قبل از اینکه به اجرای گسترده‌تر بپردازد، از نمونه‌های اولیه یاد بگیرد. بهبودهای کاتالوگ هوش مصنوعی اغلب به‌عنوان نمونه‌های اولیه شروع می‌شوند و گاهی با یکدیگر رقابت می‌کنند. تیم‌ها آزمایش‌هایی اجرا می‌کنند و از نتایج برای درخواست منابع اضافی برای مقیاس‌بندی نمونه‌های اولیه خود استفاده می‌کنند و طرح‌های برندگان در نهایت اجرا می‌شوند.

آزمایش همچنین می‌تواند به مدیریت معاملات و تعاملات زیرساخت‌های هوش مصنوعی، مانند عملکرد مدل و هزینه محاسباتی کمک کند. افزایش اندازه مدل‌های زبانی بزرگ ممکن است تنها مزایای حاشیه‌ای داشته باشد و آموزش آن‌ها می‌تواند بسیار زمان‌بر باشد. آمازون با انجام این آزمایش‌ها دریافت که برخی مدل‌های کوچک‌تر از مدل‌های بزرگ‌تر عملکرد بهتری دارند؛ زیرا منابع کمتری نیاز دارند، می‌توانند با تکرار بیشتری آموزش ببینند و پاسخ‌های سریع‌تری به پرس‌وجوهای مشتریان ارائه می‌دهند. شرکت‌های دیگر نیز می‌توانند آزمایش‌های مشابهی انجام دهند تا بهترین مسیر پیش‌رو را برای خودشان در سؤالاتی مانند توسعه مدل‌های زبانی بزرگ داخلی یا استفاده از مدل‌های شخص ثالث تعیین کنند.

ده‌ها سال پیش، پروفسور «دیوید گاروین» (David Garvin) نوشت که سیستم‌های کیفیت مزیت پایداری به شرکت‌ها می‌دهند (“Quality on the Line” HBR September–October 1983). گاروین مطالعه‌اش درباره تولیدکنندگان کولرهای گازی، دریافت که نرخ شکست محصولات ساخته‌شده توسط تولیدکنندگان با بالاترین کیفیت بین ۵۰۰ تا ۱۰۰۰ برابر کمتر از محصولات تولیدکنندگان با پایین‌ترین کیفیت است و نتیجه گرفت که دستیابی به کیفیت بالا به داشتن یک سیستم کنترل کیفیت جامع بستگی دارد. درس گاروین در عصر هوش مصنوعی نیز همچنان صادق است.

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
1 دیدگاه
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها

در جریان مهم‌ترین اتفاقات AI بمانید

هر هفته، خلاصه‌ای از اخبار، تحلیل‌ها و رویدادهای هوش مصنوعی را در ایمیل‌تان دریافت کنید.

[wpforms id="48325"]