
آنچه آمازون از خودکارسازی فرایند ایجاد صفحات محصول آموخت
مسئله کنترل کیفیت هوش مصنوعی مولد
با وجود تمام شوروشوق پیرامون هوش مصنوعی مولد؛ یک مانع اصلی، پذیرش گسترده آن را محدود کرده است: تمایل این فناوری به ساختن اطلاعات نادرست، حذف برخی اطلاعات و ایجاد گزینههای متعددی که انتخاب موارد مؤثر از میان آنها دشوار است.
به همین دلیل، اکثر شرکتها اکنون از بررسیهای انسانی و ابزارها یا خدمات آزمایشی مستقل برای رفع نواقص هوش مصنوعی مولد استفاده میکنند. بااینحال، هر دوی این روشهای کنترل کیفیت پرهزینه هستند و تنها بخش کوچکی از کل خروجیهای هوش مصنوعی مولد را میتوانند مدیریت کنند. «مجله کسبوکار هاروارد» نیز در جدیدترین نسخه خود (September-October 2025)، در گزارشی به بررسی این موضوع پرداخته است.
آمازون چه کرد؟
اما آمازون رویکرد بهتری برای عملیات عظیم کاتالوگ محصولات خود توسعه داده است؛ سیستمی مبتنی بر هوش مصنوعی مولد به نام Catalog AI که دادههای غیرقابلاعتماد را شناسایی و مسدود میکند، ایدههایی برای صفحات جدید محصولات تولید و اثربخشی آنها را آزمایش میکند و با استفاده از بازخوردهای حاصل از بررسیهای کیفی و آزمایشها بهصورت خودکار خود را بهبود میبخشد. این سیستم قادر است سالانه دهها میلیون فرضیه را ایجاد و آزمایش کند، درحالیکه سیستمهای مبتنی بر نیروی انسانی معمولاً تنها چند هزار فرضیه را میتوانند آزمایش کنند.

درحالیکه بسیاری از سازمانها برای دستیابی به بازده مالی از سرمایهگذاریهای خود در هوش مصنوعی با مشکل مواجه هستند، پروژه کاتالوگ هوش مصنوعی آمازون در حال حاضر ارزش قابلتوجهی ایجاد کرده است. تا زمان نگارش این گزارش، ۸ درصد از پیشنهادهای این سیستم تأثیر مثبتی بر درآمد فروش آمازون داشتهاند. یکی از ما نویسندگان این گزارش از کسبوکارهای دیگری نیز اطلاع دارد که آزمایشهای آنلاین آنها نرخ موفقیت بالاتری (بین ۱۰ تا ۲۰ درصد) داشتهاند. اما این شرکتها برای تولید فرضیهها به نیروی انسانی وابسته بودند و سیستمهای آزمایشی آنها بهاندازه آمازون خودکار نبودند؛ یعنی تعداد فرضیههای تولیدشده و آزمایششده توسط آنها بسیار کمتر از آمازون بود.
علاوه بر این، توانایی سامانه آمازون برای بهبود خودکار، تضمین میکند که نرخ بازده آن با گذشت زمان افزایش خواهد یافت. اگرچه آمازون این سیستم را که در سال ۲۰۲۳ راهاندازی شده، همچنان درحالتوسعه میداند، اما نویسندگان اعتقاد دارند که این سیستم بهاندازه کافی پیشرفت کرده است که مدیران سایر سازمانها نیز بتوانند از یادگیری نحوه کنترل کیفیت محتوای تولیدشده توسط هوش مصنوعی در مقیاس بزرگ آمازون بهرهمند شوند.

اشکالات رویکرد سنتی
کاتالوگ آنلاین آمازون شامل صدها میلیون محصول است که به مشتریان در سراسر جهان عرضه میشود. روزانه میلیونها فهرست محصول اضافه یا ویرایش میشود و دادههای این محصولات شامل تصاویر، عناوین، توضیحات و توصیهها میبایست کامل، دقیق و جذاب باشند تا خریداران بتوانند بهسرعت محصولات موردنظر خود را پیدا کنند. علاوه بر این، خریداران بازگشتی انتظار دارند طرحبندیهای (Layout) تصاویر، عناوین محصول، توضیحات و دکمههای خرید آشنایی را ببینند که بهراحتی قابلدسترس باشند و سریع بارگذاری شوند. اما مخاطرات هم زیاد است: وقتی اطلاعات محصول ناقص، نامربوط یا کاملاً اشتباه باشد، مشتریان خرید خود را تکمیل نمیکنند یا محصولاتی را که با انتظاراتشان مطابقت ندارد، مرجوع میکنند. در هر دو حالت، آمازون پول و اعتماد مشتری را از دست میدهد.
برای اطمینان از کیفیت دادهها، آمازون به طور سنتی از تخصص هزاران کارمند که در مدیریت فهرست محصولات تخصص داشتند، استفاده میکرد. همچنین صدها مدل یادگیری ماشین را به کار میگرفت که هر یک برای یک دسته محصول (مانند پیراهن یا تلویزیون) و یک جزء طرحبندی (مانند عنوان محصول یا توضیحات) بهینه شده بودند. متخصصان با این مدلها همکاری میکردند تا اطلاعات را اضافه یا حذف کنند، اشکالات را شناسایی کنند، اطلاعات را یکپارچه کنند، متن را به زبانهای مختلف ترجمه کنند و دادههای منابع شخص ثالث را ادغام کنند. اما این مدلهای یادگیری ماشین سنتی محدودیتهایی دارند: آنها برای مجموعهدادههای کوچک و ساختاریافته مناسبتر هستند و تعمیم آنها به دستههای مختلف محصولات هزینهبر است. برای مثال، یک مدل یادگیری ماشین که برای پیراهنها آموزش دیده؛ نمیتواند به طور بهصرفهای برای تلویزیون یا هر محصول غیر پیراهنی دیگری استفاده شود. در مقابل، مدلهای زبانی بزرگ روی مجموعهدادههای بزرگی آموزش دیدهاند و میتوانند در دستههای مختلف محصولات کار کنند. با جایگزینی مدلهای یادگیری ماشین با مدلهای زبانی بزرگ، آمازون زیرساخت فناوری (مدلهای کمتر) و سازمان (متخصصان عملکردی کمتر) را ساده کرد و هزینهها را کاهش داد.

اطمینان از قابلیت اطمینان رویکرد جدید
در چند هفته اول پس از راهاندازی کاتالوگ هوش مصنوعی (Catalog AI)، حدود ۸۰ درصد از نتایج آن غیرقابلاعتماد بودند. این سیستم اطلاعات نادرستی تولید میکرد، اطلاعاتی را حذف میکرد یا توصیههایی ارائه میداد که برای مشتریان جذاب نبود. برای مثال، ادعا کرد که یک پمپ الکتریکی ۱۵ اسب بخار قدرت دارد، درحالیکه چنین اطلاعاتی اصلاً وجود نداشت. به طور مشابه، وقتی درباره جنس یک مبل سؤال شد، مدل اطلاعاتی درباره جنس قاب مبل ارائه داد، نه جنس نشیمنگاه مبل که بیشتر مشتریان به آن علاقهمند بودند. برای رفع این مشکلات کیفی و آزمایش اثربخشی تغییرات احتمالی، آمازون چهار گام زیر را برداشت.
انجام ممیزی
برای رصد پیشرفت، یک سازمان باید عملکرد پایه سیستم خود را بشناسد. در روند تولید، این کار با ارزیابی یک فرایند در دورهای پایدار و استفاده از آن اطلاعات برای تعیین محدودیتهای کنترلکننده انجام میشود. آمازون مدل زبانی بزرگ خود را وادار کرد تا هزاران صفحه محصول که از قبل شناختهشده بودند را تولید کند؛ سپس ممیزهای انسانی صفحات تولیدشده توسط مدل را با اطلاعات شناختهشده مقایسه کردند، قابلیت اطمینان آنها را امتیازدهی کردند و دلایل اصلی عملکرد ضعیف مدلها را تحلیل کردند. این کار به مجموعهای از بهبودهای سریع منجر شد که در ادامه بررسی خواهد شد.
اعمال گاردریلها
«توهم» در مدل یعنی خروجی نادرست یا غیردقیقی که بهگونهای ارائه میشود که گویی درست است؛ معمولاً زمانی رخ میدهد که مدل به نتیجهای میرسد که مبتنی بر دادههای ورودی نیست. یکی از راههای بهبود قابلیت اطمینان و جلوگیری از توهم، محدودکردن LLM است تا فقط خروجیهایی تولید کند که از دادههای خاص خود کسبوکار به دست آمدهاند، نه از اطلاعات عمومی وب یا منابع دادهای غیرمرتبط با کسبوکار. اما این کار بهنوعی یک بدهبستان است: یعنی هرچه LLM آزادی بیشتری برای دسترسی به دادههای خارجی و داخلی داشته باشد، ایدههای جدید بیشتری میتواند کاوش، اصلاح و آزمایش کند. برای مثال، با استفاده از اطلاعاتی که از وب به دست میآورد، مدل ممکن است پیشنهاد دهد که بشقابهای کاغذی قابل شستشو در ماشین ظرفشویی نیستند. اعمال محدودیتهای بیش از حد بر ورودیهای LLM، توانایی آن را برای استنتاج چنین نتایجی کاهش میدهد. به همین دلیل، آمازون بهجای محدودکردن ورودیهای LLM خود، تصمیم گرفت سه نوع محدودیت دیگر را اعمال کند.
- قوانین ساده: یکی از روشهای تضمین قابلیت اطمینان، دستوردادن به سیستم برای رد محتوایی است که با قوانین مطابقت ندارد. برای مثال، یک قانون میتواند این باشد که عددی که وزن را توصیف میکند، باید با واحدی مانند کیلوگرم یا پوند همراه باشد. آمازون قانونی ایجاد کرد که Catalog AI باید پیشنهادهایی را که تغییرات غیرضروری نسبت به فهرست فعلی ایجاد میکنند (مثلاً تغییر سبک محصول از «معاصر» به «مدرن») را رد کند. قوانین ساده همچنین طرحبندی صفحه را تعیین میکنند تا مشتریان تجربهای یکپارچه در کل سایت داشته باشند.
- پروفایلهای آماری: گاردریلها مانند محدودیتهای «کنترل فرایند آماری» (Statistical Process Control – SPC) در کارخانهها عمل میکنند. وقتی متغیرهای فرایند از این محدودیتها خارج شوند، زنگ هشدار به صدا درمیآید و علت اصلی مشکل بررسی میشود. برای ایجاد چنین گاردریلهایی برای مدلهای هوش مصنوعی مولد، شرکتها میتوانند از دادههای محصولات فعلی استفاده کنند تا بررسی کنند آیا خروجی در محدوده موردانتظار قرار دارد یا خیر. برای مثال، یک LLM ممکن است اطلاعاتی درباره یک میز که توسط فروشنده شخص ثالث عرضه میشود، تولید کند و اطلاعات مربوط به میزهای معمولی فروختهشده در فروشگاه آنلاین آمازون برای ایجاد گاردریلها استفاده میشود. وقتی اطلاعات محصول تولیدشده توسط LLM خارج از محدودیتهای کنترلی باشد، مدل توسط یک LLM دیگر مورد سؤال قرار میگیرد. در برخی موارد، LLM اول میتواند اشتباهات خود را وقتی از او خواسته میشود دلیل اطلاعاتش را توضیح دهد، تشخیص دهد.
- هوش مصنوعی برای بررسیکردن هوش مصنوعی: یک نمونه از این موضوع همان چیزی است که در بالا توضیح داده شد؛ اما امکان ایجاد قوانین یا گاردریلهایی که هر خروجی ممکن از هوش مصنوعی را پوشش دهند، وجود ندارد؛ ولی سیستم هوش مصنوعی مولد دوم میتواند این موارد را مدیریت کند. آمازون از هوش مصنوعی مولد برای شناسایی مشکلاتی که توسط هوش مصنوعی مولد تولید شدهاند، استفاده میکند. LLM اول بهعنوان تولیدکننده محتوا برای تولید فرضیهها آموزش دیده است و مدل دوم بهعنوان بازبین محتوا، برای بررسی خروجی مدل اول آموزش دیده است. این دو مدل به هم متصل هستند و بهصورت خودکار با استفاده از دانش پسزمینه متفاوت خود با یکدیگر گفتوگو میکنند.
برای مثال، آمازون از یک LLM برای شناسایی ناسازگاریها در صفحات محصول استفاده میکند؛ مانند اطمینان از اینکه رنگ ذکرشده در عنوان محصول با رنگ تصویر مطابقت دارد یا نه. اگر ناسازگاری شناسایی شود، تغییرات در اطلاعات محصول بهصورت خودکار مسدود میشود. سیستم هوش مصنوعی مولد میتواند توسط بازبین محتوا مورد سؤال قرار گیرد؛ مثلاً «چرا صفحه محصول جدید بهتر از صفحه فعلی است؟» این کار تولیدکننده محتوا را مجبور میکند خروجی خود را تحلیل کند و احتمالاً پیشنهاد قبلی خود را کنار بگذارد. برای افزایش دقت بررسیهای قابلیت اطمینان، Catalog AI میتواند به مدلهای زبانی بزرگ داخلی و خارجی که روی دادههای متفاوتی آموزش دیدهاند، متصل شود و ازآنجاییکه LLMها روی اطلاعات متفاوتی آموزش دیدهاند، مشکلات متفاوتی را نیز پیدا میکنند. برای مثال، اگر مدل تولیدکننده محتوا در محاسبه حجم محصول دچار خطای استدلالی شود، مدل بازبینیکننده که روی مجموعهداده متفاوتی آموزش دیده بهاحتمال زیاد میتواند این خطا را تشخیص دهد و میتواند آن را مسدود کند.
پس از اینکه یک فرضیه از هوش مصنوعی مولد تمام بررسیهای کیفی را با موفقیت پشت سر گذاشت، به یک پلتفرم آزمایشی منتقل میشود تا اثربخشی آن ارزیابی شود: آیا تغییر پیشنهادی، فروش یا تعداد واحدهای فروختهشده را افزایش میدهد؟

آزمایش اثربخشی
شرکتها باید راههای مؤثری برای ارزیابی اینکه کدامیک از ایدههای متعدد تولیدشده توسط هوش مصنوعی مولد واقعاً کارآمد است، پیدا کنند. پیشتر، متخصصان کاتالوگ آمازون قوانین و الگوریتمهایی ایجاد میکردند که بهصورت خودکار طرحبندی صفحاتی که به نظرشان مؤثرتر بودند را تأیید، طراحی و بهبود میدادند.
اما این رویکرد چند محدودیت داشت؛ متخصصان در ایجاد این قوانین و الگوریتمها برخی فرضیات آزمایشنشده را وارد میکردند و از آزمایشهایی استفاده میکردند که همیشه مقرونبهصرفه یا خودکار نبودند. علاوه بر این، روشهای سنتی تحقیقات بازار مانند نظرسنجی ممکن بود گمراهکننده باشند؛ زیرا آنچه مشتریان میگفتند همیشه با آنچه انجام میدادند مطابقت نداشت. این موضوع پیشبینی ترجیحات مشتریان را بسیار دشوار میکرد. به گفته یکی از مدیران Booking.com: «ما هر روز شواهدی میبینیم که نشان میدهد مردم در حدسزدن بسیار ضعیف هستند و پیشبینیهای ما درباره رفتار مشتریان در ۹ مورد از ۱۰ مورد اشتباه است.»
برای اینکه مشخص شود کدام تغییرات با خواسته مشتریان همخوانی دارد، تیم Catalog AI، آزمون A/B را در جریان کاری سیستم ادغام کرد. اجرای روند آزمایش علمی برای این حجم بسیار بالای خروجیهای هوش مصنوعی مولد نیازمند یک سری زیرساختهای آزمایشگاهی است؛ مواردی شامل ابزارهای ثبت داده (برای ذخیره مواردی مانند کلیکها، حرکت ماوس و زمان رویدادها)، خطوط انتقال داده و دانشمندان داده. چندین ابزار و سرویس شخص ثالث انجام آزمایشها را سادهتر میکنند؛ اما برای اجرای صحیح مقیاسپذیری، یک شرکت باید این قابلیت را به طور کامل در جریان کاری خود ادغام کند. در آمازون، این زیرساخت کاملاً خودکار است و تمام تغییرات پیشنهادی صفحات محصول توسط Catalog AI تحت آزمون A/B قرار میگیرند.
این سیستم یک آزمایش کنترلشده را اجرا میکند که دو یا چند احتمال ممکن را مقایسه میکند: «A» (کنترل یا قهرمان) فهرست محصول فعلی است و «B» (چالشگر) نسخهای اصلاحشده از آن اطلاعات است که توسط هوش مصنوعی برای هدفی خاص، مثل بهبود نرخ تبدیل مشتریان تولید شده است. کاربران بهصورت تصادفی این رویدادها را تجربه میکنند و معیارهای ترکیبی آن محاسبه و مقایسه میشوند. این معیارها باید با اهداف استراتژیک همراستا باشند و بهترین معیارهای کوتاهمدت باید بتوانند نتایج بلندمدت را پیشبینی کنند.
در آزمایشی اخیر درباره یک محصول مراقبت از پوست، Catalog AI یک توضیح چالشگر تولید کرد که بر مزایای کلیدی محصول تمرکز داشت؛ در مقابل، توضیح قهرمان شامل فهرست بلندی از ویژگیها و مزایای آنها بود. درحالیکه قهرمان به جزئیات چگونگی ایجاد مزایایی مانند باز کردن منافذ پوست، بهبود بافت پوست و کاهش قرمزی پرداخته بود، نسخه بسیار کوتاهتر پیشنهادی توسط هوش مصنوعی بهسادگی مزایای اصلی محصول را فهرست کرد: پوست نرمتر، مرطوبشده و کاهش چینوچروک. این نسخه کوتاهتر فروش را در میان گروهی از مشتریان که بهصورت تصادفی انتخاب شده بودند، به طور قابلتوجهی افزایش داد. آزمایشهای دیگر نشان دادند که مدل زبانی بزرگ برخی مزایا را از عناوین محصول حذف میکرد. برای مثال، حذف عبارت «پوست درخشان» توسط هوش مصنوعی از عنوان محصول تأثیر منفی بر فروش داشت. بهطورکلی، آزمایشها نشان دادهاند که حدود ۴۰ درصد از محتوای تولیدشده توسط هوش مصنوعی که آزمونهای قابلیت اطمینان آمازون را با موفقیت پشت سر میگذارد، یا معیارهای عملکرد اصلی مانند نرخ تبدیل مشتری را بهبود میدهد یا تأثیر مثبت یا منفی ندارد. اما ۶۰ درصد دیگر نتایج منفی قابلتوجهی دارند و چنین محتوا معمولاً در کاتالوگ شرکت منتشر نمیشود.

ایجاد یک سامانه یادگیری
یک سیستم کیفیت ایدهآل باید سیستمی یادگیرنده باشد که بهصورت مداوم و با حداقل دخالت انسانی بهبود یابد. سیستم آمازون دادههایی تولید میکند که عملکرد LLM را بهبود میبخشد و آن را در به چالش کشیدن فرضیات درباره آنچه مشتریان دوست دارند یا ندارند، کارآمدتر میکند. بااینحال، مهندسان آمازون دریافتند که گاهی دخالت انسان برای تولید دادههای آموزشی بهتر، مفید است. برای مثال، بررسیهای انسانی آزمایشهای با نتایج منفی، گاهی اوقات اشکالات LLM را آشکار و اصلاح میکنند. در یک بررسی، تیم متوجه شد که مدل بهاشتباه هرگاه اطلاعاتی وجود نداشته باشد؛ عبارت «بدون گارانتی» را بهعنوان پیشفرض در نظر میگرفت و در اطلاعات محصول مینوشت. بااینحال، با بهبود Catalog AI، دخالت انسانی به تصمیمگیریهای مربوط به طراحی سیستم و زیرساختها محدود خواهد شد. در ادامه، اجزای موردنیاز برای ساخت یک سیستم یادگیرنده را بررسی میکنیم:
- مدل مشتری: برای تسریع در روند بازخورد، شرکتها میتوانند یک معیار ترکیبی ایجاد کنند که ترجیحات مشتریان را مدلسازی کند. اگرچه به طور دقیق، مدل مشتری برای ساخت یک سیستم یادگیری الزامی نیست، اما اگر دقیق باشد، باعث میشود سیستم بسیار سریعتر عمل کند. یک مدل به شرکت اجازه میدهد با اجرای آزمایشهای مجازی، بازخوردهای تقریباً آنی دریافت کند. طراحی معیاری که مانند یک مشتری معمولی واکنش نشان دهد، نیازمند بررسی دقیق است. شرکت باید تعیین کند که کدام دادهها را شامل شود و از طریق آزمایشهای متعدد با مشتریان، اعتبار آن را تأیید کند. Catalog AI از یک مدل مشتری همراه با آزمایشهای زنده به اسم معیار «کیفیت داده کاتالوگ» (Catalog Data Quality – CDQ) استفاده میکند. این معیار شامل اطلاعاتی از قوانین، پروفایلهای آماری و بررسیهای قابلیت اطمینان است. در نهایت، CDQ جایگزین اکثر آزمایشهای شامل مشتریان واقعی خواهد شد که روند یادگیری سیستم را تسریع میکند.
- آزمایشهای چندمتغیره: علاوه بر آزمونهای A/B، سیستم آمازون از آزمایشهای چندمتغیره استفاده میکند. آزمایشهای پیچیدهتری که بینش عمیقتری درباره تعامل چندین متغیر (مانند متن، رنگ و تصاویر) یا تعیین بهترین انتخابهای طراحی را ارائه میدهند. الگوریتمهای آمازون الگوها را شناسایی کرده و آنها را از طریق آزمایشهای چندمتغیره روی محصولاتی که صفحات وب آنها ترافیک بالایی دارند و تأثیرشان بر معیارهای عملکرد اصلی از نظر آماری معنادار است، بررسی میکنند. آزمایشهایی که نتایج قابلتوجهی دارند؛ یعنی آنهایی که بیش از ۱ درصد تأثیر مثبت بر برخی معیارهای اصلی دارند و کمتر از ۱ درصد تأثیر منفی بر سایر معیارها، توسط دانشمندان داده برای یافتن الگوها و خطاها بررسی میشوند. باتوجهبه حجم ترافیک مشتری و تراکنشها در بازار آمازون، حتی تغییرات کوچک در میلیونها فهرست محصول میتواند به میلیاردها دلار درآمد اضافی منجر شود. شرکتهایی با ترافیک وب بسیار کمتر، آستانه متفاوتی برای اعمال تغییرات نسبت به آمازون باید داشته باشند.
اگرچه هدف این است که Catalog AI بهصورت خودکار خودش را آموزش دهد؛ اما در حال حاضر انسان در فرایند یادگیری آن مشارکت دارد. برخی آزمایشها اثرات را ایزوله کرده و اتفاقاتی رقم میزنند که میتوانند بین تیم مدیریت Catalog AI و دانشمندان داده به اشتراک گذاشته شوند. برای مثال، تیم عناوین Catalog AI ممکن است LLM را وادار کند تا عناوین محصولی با طولها و اطلاعات متفاوتی تولید کند:
Brand X Plant Protein Powder, vanilla, 22g protein, 20 servings (75 characters)
Brand X Plant Protein Powder, vanilla, 22g protein, non-GMO, vegan, no gluten, dairy, or soy, 20 servings (120 characters)
Brand X Plant Protein Vanilla 22g protein, non-GMO, vegan, no gluten, dairy, or soy, no artificial flavors, synthetic coloring, preservatives, or additives, 20 servings (180 characters).
آزمایشها مشخص میکنند که کدامیک از این سه عنوان محصول مؤثرتر است و سپس از آن برای آموزش LLM استفاده میشود. با تولید دادههای آموزشی بهتر در دستههای مختلف محصولات، کیفیت خروجی Catalog AI به طور قابلتوجهی بهبود یافته است و اکنون ۸۰ درصد از خروجیهای Catalog AI بررسیهای اولیه کیفیت را با موفقیت پشت سر میگذارد.
- آزمایشهای مفهومی: هنگامی که Catalog AI راهاندازی شد، میلیونها تغییر در فهرستها ایجاد کرد که باید روی مشتریان آزمایش میشد. در حالت ایدهآل، هر تغییر باید در آزمایشی مستقل آزمایش میشد؛ اما بسیاری از فهرستهای محصول ترافیک کافی مشتری برای دستیابی به اندازه نمونه بحرانی موردنیاز را ندارند. هنگامی که ترافیک مشتری به اندازه کافی قوی نیست (کمتر از یک میلیون بازدید) پلتفرم آزمایشی به طور خودکار محتوای تولیدشده توسط هوش مصنوعی را با دستهبندی فهرستهای محصول مشابه در آزمایشهای مفهومی واحد آزمایش میکند تا بینشهایی را کشف کند. یک الگوریتم ویژه، بسته محتوا را گاهی از هزاران فهرست تولیدشده توسط هوش مصنوعی، بر اساس دستههای محصول دستهبندی میکند. (برای محصولاتی که بیش از یک میلیون بازدید دارند، یک آزمایش مستقل اجرا میشود.) دستهها تاحدامکان کوچک هستند، درحالیکه میبایست الزامات اندازه نمونه آماری را برآورده کنند. هوش مصنوعی هزاران متغیر را برای بهبود توضیحات، مثلاً قهوهسازها، تولید میکند که در یک آزمایش مفهومی واحد ترکیب میشوند. این آزمایشها میتوانند فرضیات درباره ترجیحات مشتریان را که هرگز آزمایش نشدهاند، به چالش بکشند.
برای مثال، یک آزمایش یک فرضیه قدیمی متخصصان که در مدلهای یادگیری ماشین گنجانده شده بود را به چالش کشید؛ اینکه خریداران ترجیح میدهند تضاد شدیدی بین پسزمینه سفید و محصول نمایشدادهشده وجود داشته باشد یا نه. آزمایش مفهومی بررسی کرد که چگونه تصاویر بهبودیافته توسط هوش مصنوعی بر تعامل مشتری تأثیر میگذارد. هزاران صفحه تولیدشده توسط هوش مصنوعی پیشنهادهایی برای پسزمینههایی داشتند که محصولات را در محیط اصلی خود فروشنده نشان میدادند. این پیشنهادها در یک آزمایش مفهومی دستهبندی شدند که شامل یک کنترل با پسزمینه سفید و یک مدل با بلوز حرارتی مشکی بود. تصویر مورد آزمایش پسزمینهای غنیشده اضافه کرد و مدل با بلوز را در یک محیط داخلی قرار داد تا به مشتریان کمک کند محصول را در استفاده روزمره تجسم کنند. آزمایش نشان داد که افزودن پسزمینه غنیشده فروش را افزایش داد و این تغییر برای صدها محصول فشن اعمال شد.

افزایش اثربخشی پروژههای هوش مصنوعی
هنگامی که سیستمهای کیفیت مستقر شوند، میتوانند فراتر از مدیریت کیفیت خروجی تولیدشده توسط هوش مصنوعی عمل کنند؛ آنها میتوانند منابع را به پروژههای جاری هوش مصنوعی با بالاترین نرخ بازگشت سرمایه (ROI) هدایت کنند. معمولاً کسبوکارهایی که این ابتکارات را اجرا میکنند، برآوردهای بیش از حد خوشبینانهای از بازده مالی موردانتظار خود ارائه میدهند که به نوبه خود میزان دربرگیری متخصصان و منابع محاسباتی را تعیین میکند. وقتی سیستم کیفیت، اثربخشی پروژههای جدید را با مشتریان آزمایش میکند؛ مدیران میتوانند بر اساس شواهد محکم تصمیم بگیرند که بهترین راه تخصیص منابع چیست.
برای مثال، چنین سیستمی به شرکت اجازه میدهد قبل از اینکه به اجرای گستردهتر بپردازد، از نمونههای اولیه یاد بگیرد. بهبودهای کاتالوگ هوش مصنوعی اغلب بهعنوان نمونههای اولیه شروع میشوند و گاهی با یکدیگر رقابت میکنند. تیمها آزمایشهایی اجرا میکنند و از نتایج برای درخواست منابع اضافی برای مقیاسبندی نمونههای اولیه خود استفاده میکنند و طرحهای برندگان در نهایت اجرا میشوند.
آزمایش همچنین میتواند به مدیریت معاملات و تعاملات زیرساختهای هوش مصنوعی، مانند عملکرد مدل و هزینه محاسباتی کمک کند. افزایش اندازه مدلهای زبانی بزرگ ممکن است تنها مزایای حاشیهای داشته باشد و آموزش آنها میتواند بسیار زمانبر باشد. آمازون با انجام این آزمایشها دریافت که برخی مدلهای کوچکتر از مدلهای بزرگتر عملکرد بهتری دارند؛ زیرا منابع کمتری نیاز دارند، میتوانند با تکرار بیشتری آموزش ببینند و پاسخهای سریعتری به پرسوجوهای مشتریان ارائه میدهند. شرکتهای دیگر نیز میتوانند آزمایشهای مشابهی انجام دهند تا بهترین مسیر پیشرو را برای خودشان در سؤالاتی مانند توسعه مدلهای زبانی بزرگ داخلی یا استفاده از مدلهای شخص ثالث تعیین کنند.
دهها سال پیش، پروفسور «دیوید گاروین» (David Garvin) نوشت که سیستمهای کیفیت مزیت پایداری به شرکتها میدهند (“Quality on the Line” HBR September–October 1983). گاروین مطالعهاش درباره تولیدکنندگان کولرهای گازی، دریافت که نرخ شکست محصولات ساختهشده توسط تولیدکنندگان با بالاترین کیفیت بین ۵۰۰ تا ۱۰۰۰ برابر کمتر از محصولات تولیدکنندگان با پایینترین کیفیت است و نتیجه گرفت که دستیابی به کیفیت بالا به داشتن یک سیستم کنترل کیفیت جامع بستگی دارد. درس گاروین در عصر هوش مصنوعی نیز همچنان صادق است.