برترین متخصصین

از سراسر دنیا

مجموعه وبینارهای مدل‌های بزرگ زبانی (LLM)

Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش خبری
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
گزارش
مصاحبه
  آنچه تصاویر تولید شده توسط هوش مصنوعی از دنیای ما آشکار می‌سازند

ردپای پنهان بشریت:

 آنچه تصاویر تولید شده توسط هوش مصنوعی از دنیای ما آشکار می‌سازند

زمان مطالعه: 20 دقیقه

با پیشرفت هوش مصنوعی مولد، ممکن است این احساس به وجود آید که ماشین‌ها در حال تسلط بر یک عرصه جدید هستند، اما انسان‌ها همچنان در مرکز هنر تولید شده توسط هوش مصنوعی قرار دارند. البته این حضور به شیوه‌هایی است که شاید کمتر به آن فکر کرده باشیم.

این مقاله به قلم از راشل اسیپ در گاردین منتشر شده و به جنبه‌های مختلف توسعه مدل‌های هوش مصنوعی مولد بخصوص مدل‌های تولید تصویر می‌پردازد.

بنویس و بکش

زمانی که دوستانم فرصتی برای استراحت پیدا می‌کنند، معمولاً به یک بازی ساده و سرگرم‌کننده روی می‌آورند. این بازی بر اساس یک بازی سوررئالیستی به نام «جسد نفیس» (Exquisite Corpse) طراحی شده و شامل تبدیل توضیحات کوتاه نوشتاری به نقاشی‌های سریع و بالعکس است. یک گروه از دوستانم این بازی را «پیش‌نویس تلفنی» می‌نامند، در حالی که گروه دیگری آن را «بنویس و بکش» می‌خوانند. وقتی در اینترنت به دنبال این بازی گشتم، متوجه شدم که نام‌های عجیبی نیز برای آن وجود دارد. یکی از این نام‌ها «بخور مدفوع، گربه!» است که احتمالاً از یکی از نتایج خنده‌دار و غیرمنتظره‌ای که در طول بازی به وجود آمده، الهام‌گرفته شده است.

تا چند سال گذشته، دیدن ترجمه‌های نادرست میان متن و تصویر یا بالعکس در زندگی روزمره چندان رایج نبود و به همین خاطر، نتایج غیرمنتظره بازی‌ها جذابیت و تازگی خاصی داشتند. اما از آن زمان، ما به مرحله‌ای نوین در تولید تصاویر پا گذاشته‌ایم.

امروزه با بهره‌گیری از تولیدکننده‌های تصویر هوش مصنوعی مانند Dall-E 3، Stable Diffusion و Midjourney و همچنین امکانات تولیدی موجود در نرم‌افزارهای Creative Cloud ادوبی، می‌توانید به سادگی یک جمله یا عبارت را در عرض چند ثانیه به تصویری دقیق تبدیل کنید. به همین ترتیب، تصاویر نیز می‌توانند به سرعت به متن توصیفی تبدیل شوند. اکنون می‌توانید به تنهایی در اتاق خود بازی «بخور مدفوع، گربه!» را تجربه کنید و از سرگرمی با الگوریتم‌ها لذت ببرید.

در تابستان 2023، من این بازی را تجربه کردم. از نسخه آنلاین Stable Diffusion و یک برنامه هوش مصنوعی به نام Clip Interrogator استفاده کردم که قادر است هر تصویری را به متن تبدیل کند. برای انجام بازی دو دور، حدود سه دقیقه زمان صرف کردم. کارم را با نوشتن عبارت «بخور مدفوع، گربه!» (چرا که نه؟) در بخشی که از من خواسته شده بود «عبارت خود را وارد کنید» آغاز کردم و سپس روی دکمه «تولید تصویر» کلیک کردم.

Stable Diffusion در پاسخ به هر عبارت ورودی، چهار تصویر تولید می‌کرد. من کمی تقلب کردم و تنها یکی از تصاویری را که بیشتر پسندیدم انتخاب کردم تا ادامه دهم. در مرکز تصویر، یک گربه راه‌راه نسبتاً واقعی با چشم‌های سبز درخشان به من نگاه می‌کرد. دهانش باز بود و زبان صورتی‌اش نمایان بود. پس‌زمینه خاکستری و کمی کثیف به نظر می‌رسید و جزئیات زیادی نداشت. در قسمت پایین تصویر، متنی سفید و حبابی نوشته شده بود که می‌گفت: «بخور بخور مدفوع، تو هم می‌دانی!»

من این تصویر را به Clip Interrogator دادم و آن به سرعت این متن را برایم تولید کرد: «نمای نزدیک از یک گربه با چشم‌های سبز، متنی آبی که می‌گوید kliksphilip3، پس‌زمینه‌ای زیبا از یک شهر، مدفوع، حاشیه و پس‌زمینه سفید، در حال لیسیدن، پوستر جذاب، پس‌زمینه‌ای از یک اتاق اداری، توالت طلایی، خنده‌دار و کارتونی، ارین، جواهر کلاسیک، خورنده نامرتب، تصویری قابل‌استفاده، ترک کردن، انگیزشی، شعر متحرک، توالت.»

با پیشرفت ابزارهای هوش مصنوعی تولیدی (genAI)، نوعی دستور زبان پیچیده برای تولید متن‌های ورودی تصاویر به وجود آمده است و «پرامپت» Clip Interrogator نمایانگر انبوهی از سبک‌ها، جزئیات و توصیف‌ها بود. اما به نظر من، این لیست بسیار طولانی و شلوغ به نظر می‌رسید و مانند یک تفسیر عجیب از تصویر جلوه می‌کرد. خوشحالم که متوجه شدم این تصویر قبلاً به عنوان یک «جواهر کلاسیک» شناخته شده است.

پس از چندین بار رفت و برگشت، در نهایت موفق شدم تصویری از یک گربه سیاه و قهوه‌ای پیدا کنم که بر روی توالتی نشسته بود، توالتی که احتمالاً توسط «فرانک لوید» رایت طراحی شده بود. تکه‌ای کاغذ توالت که از رول بالای سر گربه به رویش افتاده بود، به شکل یک کلاه به نظر می‌رسید. این تصویر به صورت مسطح و شبیه به یک نقاشی جلوه می‌کرد. سبک آن آشنا بود؛ آیا اکسپرسیونیستی بود؟ اکسپرسیونیسم آلمانی؟ یا شاید فاکس‌نایف؟ به طور قطع تحت تأثیر «مدیلیانی»، «پیکاسو» در اوایل و برخی از طبیعت بی‌جان‌های بعدی هنرمند مکعبی لهستانی، «هنری هایدن»، قرار داشت.

Clip Interrogator (یک نرم‌افزار هوش مصنوعی) تصویر را به این صورت توصیف کرد: «نقاشی از یک گربه که بر روی توالت نشسته و حالتی شبیه به تصاویر بازی PlayStation 2 دارد. این اثر به سبک هنر عامه طراحی شده و به «ایگناسی ویتکیویچ»، هنرمند لهستانی، مرتبط است. همچنین به کارت تاروت دلقک، «فیل فاگیو»، کارتونیست، و موضوعات دیگر اشاره می‌کند.»

این برنامه همچنین به موضوعات جالبی مانند «نابود کردن تنها» اشاره کرد که به یک هنرمند زمینه موسیقی از آتلانتا مربوط می‌شود و نه به یک دستور خاص. «روبات‌راک» نیز نام یک جاروبرقی خودکار مشابه روومبا است. «فیل فاگیو» به خاطر کاریکاتورهای طنزآمیزش در بازی Magic: The Gathering شناخته شده است. در نهایت، اشاره به «ایگناسی ویتکیویچ» نشان‌دهنده ارتباط تصویر با فرهنگ لهستانی است.

Stable Diffusion تصاویری را با تطبیق کلمات و عبارات به یک مجموعه وسیع از ویژگی‌های بصری تبدیل می‌کند، در حالی که Clip Interrogator وظیفه معکوس را بر عهده دارد. رشته‌های به نظر تصادفی از نام‌ها، عبارات و صفات نتیجه فعالیت شبکه‌های عصبی هستند که تصویر را «تجزیه و تحلیل» کرده و بخش‌های مختلف پیکسل را بررسی می‌کنند تا سرنخ‌هایی را شناسایی کنند.

این سرنخ‌ها سپس به کلمات و اصطلاحات مرتبط تبدیل می‌شوند، هرچند این ارتباط همیشه به وضوح قابل درک نیست. به عنوان مثال، زمانی که پیکسل‌ها به «گربه‌ای که روی توالت نشسته» تبدیل می‌شوند، ارتباط کاملاً مشخص است. اما برای عبارات مانند «پانک درون» یا «کارت تاروت دلقک»، این ارتباط کمتر واضح و روشن به نظر می‌رسد.

روش‌های متعددی برای به تصویر کشیدن یک گربه ساده در شرایط ابتدایی وجود دارد. به همین دلیل، مدل‌های تبدیل متن به تصویر و تبدیل تصویر به متن نمی‌توانند به طور مستقیم و یک‌به‌یک یکدیگر را ترجمه کنند. اگر این امکان وجود داشت، الگوریتم‌ها و من نمی‌توانستیم این بازی را انجام دهیم.

البته با توجه به این عبارات و تصاویر خنده‌دار، می‌توانیم درک کنیم که این سیستم‌ها چگونه عمل می‌کنند و همچنین متوجه می‌شویم که انسان‌ها هنگام توصیف یک تصویر، معمولاً به طور نامنظم و گیج‌کننده‌ای از زبان استفاده می‌کنند.

چگونه می‌توانیم شخصیت‌هایی را خلق کنیم که وجود ندارند؟

اگرچه پیش از این نیز امکان خلق تصاویر با استفاده از هوش مصنوعی وجود داشت، اما تا ژانویه ۲۰۲۱ بحث درباره «هنرمندان هوش مصنوعی» به طور جدی مطرح نشده بود. در آن زمان، پلتفرم Dall-E که تصاویر را بر اساس توضیحات متنی تولید می‌کرد، توجه‌ها را به خود جلب کرد. در آن روزها، توصیف «هنرمند هوش مصنوعی» به نوعی شبیه به یک داستان کودکانه به نظر می‌رسید: فقط کافی بود جمله‌ای را تایپ کنی و کامپیوتر به طرز شگفت‌انگیزی تصویری برایت بسازد!

این فناوری به نظر بسیار پیشرفته می‌رسد، اما در واقع، توسعه آن دهه‌ها به طول انجامیده است. اولین شبکه عصبی در سال ۱۹۴۳ معرفی شد و روند پیشرفت این تکنولوژی در طول قرن بیستم با نوساناتی همراه بود. به عنوان نمونه، از سال ۱۹۸۹، شبکه‌های عصبی توانایی تشخیص کاراکترهای تایپ شده و نوشته‌های دستی را پیدا کردند و با افزایش ظرفیت سخت‌افزار، کاربردهای بینایی کامپیوتر به سرعت گسترش یافتند. فناوری تشخیص کاراکترهای نوری (OCR) به ما این امکان را می‌دهد که فایل‌های PDF را به متن قابل ویرایش تبدیل کنیم و اکنون می‌توانیم بخش‌های متنی را از تصاویری که با گوشی‌های خود می‌گیریم، کپی کنیم.

تشخیص کاراکترهای نوری به پردازش زبان طبیعی مرتبط است. این حوزه بر روی این موضوع تمرکز دارد که چگونه الگوریتم‌ها می‌توانند پیام‌ها را به زبان انسان (به جای زبان برنامه‌نویسی) تولید و دریافت کنند. پردازش زبان طبیعی به ترکیب زبان‌شناسی محاسباتی، مدل‌سازی آماری و الگوریتم‌ها می‌پردازد که امروزه عمدتاً شامل شبکه‌های عصبی می‌شود. این علم به ما کمک می‌کند تا زبان طبیعی را از طریق روش‌های مختلفی مانند تجزیه جملات، شناسایی اجزای کلام، ارزیابی موقعیت‌های متداول کلمات در جملات و شناسایی کلماتی که بیشترین بار معنایی را دارند (معمولاً اسم‌ها و فعل‌ها) پردازش و تولید کنیم.

تا سال ۲۰۱۵، سیستم‌های الگوریتمی توانایی تولید جملات یا عبارات ساده برای توصیف تصاویر را داشتند. الگوهای پیکسلی که به عنوان مثال به عنوان «گربه» یا «فنجان» شناسایی می‌شدند، با برچسب‌های زبانی مرتبط می‌شدند و سپس به توضیحات خودکار تصویر به زبان طبیعی تبدیل می‌شدند.

محققان به‌سرعت دریافتند که می‌توانند ترتیب این عملیات را به حالت معکوس درآورند. اگر برچسب‌ها یا حتی زبان طبیعی را وارد کنیم و از شبکه‌های عصبی بخواهیم که تصاویر را به‌عنوان خروجی تولید کنند، نتیجه چه خواهد بود؟

البته معکوس کردن فرآیند تبدیل تصویر به متن به اندازه‌ای که تصور می‌شد، ساده‌تر بود، زیرا تفاوت قابل‌توجهی بین پیچیدگی یک عبارت ساده و حتی ابتدایی‌ترین تصویر وجود دارد. (در حالی که تقریباً هر تصویری از یک گربه بزرگ و واضح را می‌توان به عنوان «تصویری نزدیک از یک گربه» توصیف کرد، روش‌های بی‌پایانی برای به تصویر کشیدن این عبارت وجود دارد.) همچنین برای درک نشانه‌های بصری که به طور تقریبی بی‌نهایت هستند و می‌توان آن‌ها را به زبان توصیف کرد، نیاز به جمع‌آوری حجم زیادی از داده‌های بصری بود.

تلاش‌های اولیه برای تولید تصاویر به منظور مواجهه با چالش‌های پیچیدگی و اندازه دیتاست، با محدود کردن نوع و موضوع تصاویر صورت گرفت. نویسندگان یک مقاله مهم در سال ۲۰۱۶ با عنوان «تولید تصویر از متن به‌صورت رقابتی» (Generative Adversarial Text to Image Synthesis) مدل‌های خود را بر روی مجموعه‌های کوچک‌تری از تصاویر آموزش دادند. این مجموعه‌ها شامل گل‌های آکسفورد-۱۰۲ و پرندگان کالتک – یوسی‌اس‌دی بودند.

دیتاست پرندگان شامل ۱۱,۷۸۸ تصویر از پرندگان است که به ۲۰۰ گونه مختلف (عمدتاً از آمریکای شمالی) تقسیم‌بندی شده‌اند. این تصاویر با ویژگی‌های اضافی نظیر «شکل نوک»، «الگوی شکم» و «رنگ زیر بدن» توصیف شده‌اند. تصاویر این دیتاست از وب‌سایت فلیکر دانلود شده و سپس توسط کارگران انسانی که از طریق پلتفرم crowdsourcing آمازون به نام Mechanical Turk استخدام شده بودند، دسته‌بندی و توصیف گردیده‌اند. این پلتفرم گاهی به عنوان «هوش مصنوعی» شناخته می‌شود.

اگرچه امروزه به نظر می‌رسد که ابزارهای تبدیل متن به تصویر به طور کامل خودکار عمل می‌کنند، اما ساختار و نگهداری این سیستم‌ها به مقدار زیادی به کار انسانی وابسته است. این فعالیت‌ها ممکن است شامل کلیک‌های تکراری باشد که عمدتاً توسط کارگرانی در کشورهای درحال‌توسعه انجام می‌شود و این افراد برای هر کار کوچک، مبلغ ناچیزی دریافت می‌کنند. همچنین، کار داوطلبانه‌ای که ما با پر کردن کد امنیتی (Captcha) انجام می‌دهیم نیز می‌تواند بخشی از این فعالیت‌ها باشد.

برای آموزش، شبکه‌های عصبی به یک مجموعه اولیه از تصاویر که برچسب‌گذاری و دسته‌بندی شده‌اند، نیاز دارند؛ بنابراین، یک فرد باید این برچسب‌گذاری و دسته‌بندی را انجام دهد. به عنوان مثال، در این مورد، کاربر باید بخش‌های مختلف بدن پرنده، مانند «پشت»، «نوک»، «شکم» و «سینه» و ویژگی‌هایی مانند «طول نوک تقریباً مشابه سر» را در ۵۹ تصویری که به «مرغ‌ماهی بال‌خاکستری» مربوط می‌شود، شناسایی کند. (گل‌های آکسفورد-۱۰۲ به طور دقیق‌تری جمع‌آوری نشده‌اند و برای به‌دست آوردن تصاویر آن‌ها از روش‌های جستجوی اینترنتی و عکاسی استفاده شده است. به عبارت دیگر، بر خلاف دیتاست پرندگان که شامل تصاویر با برچسب‌گذاری دقیق است، اطلاعاتی درباره ویژگی‌های خاص این گل‌ها در دسترس نیست و تنها تصاویری از آن‌ها ثبت شده است.)

با استفاده از آموزش شبکه مولد تخاصمی  (GAN) بر روی مجموعه‌های محدود از تصاویر برچسب‌گذاری‌شده، نویسندگان مقاله موفق به تولید تصاویری منحصربه‌فرد و نسبتاً واقعی از پرندگان شدند. به عنوان مثال، آن‌ها از توصیفاتی نظیر «این پرنده کوچک دارای نوک تیز نارنجی و شکم سفیدی است» و «این پرنده زیبا تقریباً کاملاً سیاه است و تاج قرمزی دارد و لکه‌سفیدی بر روی گونه‌هایش مشاهده می‌شود» بهره بردند.

StyleGAN

سال‌ها بعد، در اوایل سال ۲۰۱۹، شرکت آمریکایی انویدیا نسخه متن‌باز StyleGAN را معرفی کرد. این هوش مصنوعی قادر است تصاویری بی‌پایان و منحصر به فرد از چهره‌ها تولید کند و به کاربران اجازه می‌دهد ویژگی‌هایی مانند شکل صورت و مدل موها را تنظیم کنند. (این هوش مصنوعی بر اساس هزاران تصویر از فلیکر آموزش دیده و انویدیا اعلام کرده است که «تنها تصاویر با مجوزهای آزاد جمع‌آوری شده‌اند»).

 پس از آن، فیلیپ وانگ، یک مهندس نرم‌افزار، وب‌سایت thispersondoesnotexist.com را راه‌اندازی کرد که با هر بار تازه‌سازی، یک پرتره تصادفی جدید ایجاد می‌کند. به دنبال آن، وب‌سایت‌های مشابهی مانند This Horse Does Not Exist، This City Does Not Exist و This Chair Does Not Exist نیز راه‌اندازی شدند.

نگرانی‌ها درباره تصاویر جعل عمیق (deepfake) بیش از یک سال در صدر اخبار و مباحث قرار داشتند، اما ناگهان ظهور تصاویری از افرادی که وجود ندارند، تأثیر قابل‌توجهی بر آگاهی عمومی گذاشت. این چهره‌های جعلی به سرعت به عنوان تهدیدی برای دموکراسی شناسایی شدند و درخواست‌هایی برای ایجاد الگوریتم‌هایی که قادر به شناسایی و علامت‌گذاری این تصاویر تولیدشده باشند، مطرح گردید. در همین حال، StyleGAN به توسعه خود ادامه داد و شروع به تولید پرتره‌های انیمه کرد. با وجود تغییر نوع تصویر، موضوع آن همچنان محدود باقی ماند.

پروژه ImageNet

در مقابل، پروژه ImageNet که در سال ۲۰۰۶ توسط دانشمند کامپیوتر «فی‌فی لی» راه‌اندازی شد، هدف بلندی «نقشه‌برداری از تمام اشیاء جهان» را داشت. این دیتاست شامل بیش از ۱۴ میلیون تصویر برچسب‌گذاری شده است که در بیش از ۱۰۰,۰۰۰ «دسته معنادار» سازماندهی شده‌اند. این پروژه همچنین بیش از ۲۵,۰۰۰ نفر کارگر را از طریق Mechanical Turk به کار گرفته است. با اینکه ۱۰۰,۰۰۰ دسته عددی چشمگیر به نظر می‌رسد، اما با توجه به پیچیدگی بصری دنیای واقعی، این عدد چندان زیاد نیست.

کاهش تعداد دسته‌ها و ساده‌سازی بیش از حد، به‌ویژه در زمینه برچسب‌گذاری انسان‌ها، نتایج مطلوبی به همراه نخواهد داشت. ImageNet بر اساس یک طبقه‌بندی لغوی که در دهه ۱۹۸۰ ایجاد شده بود، طراحی شده و از چندین مجموعه لغوی پیشین الهام‌گرفته است. هر دیتاست جدید بر اساس دیتاست قبلی شکل می‌گرفت و منطق و سلسله مراتب آن را به ارث می‌برد، حتی اگر تمامی اصطلاحات آن را شامل نمی‌شد.

«کیت کرافورد» و «تروور پاگلن»، دو پژوهشگر، به بررسی مشکلات موجود در دیتاست ImageNet پرداخته‌اند. آن‌ها به این نکته اشاره می‌کنند که در نسخه اولیه این دیتاست، عکسی از یک کودک به اشتباه با عنوان «بازنده» طبقه‌بندی شده بود. همچنین، دسته‌بندی‌هایی نظیر «فاحشه»، «هرزه» و «نژاد سیاه» نیز در این دیتاست وجود داشت.

به طرز عجیبی، واژه «هرمافرودیت» که به افرادی با ویژگی‌های مردانه و زنانه اشاره دارد، به عنوان زیرمجموعه‌ای از «دوجنسه» دسته‌بندی شده بود. همچنین، واژه «دوجنسه» نیز به عنوان زیرمجموعه‌ای از «حس‌گرا» طبقه‌بندی شده بود. در کنار این برچسب‌ها، واژه‌های دیگری مانند «زناکار» و «لذیذ» نیز وجود داشتند.

در سال ۲۰۱۹، ImageNet تصمیم به حذف بیش از ۶۰۰,۰۰۰ تصویر با برچسب‌های «غیر ایمن»، «توهین‌آمیز» یا «حساس» گرفت. این اقدام به منظور حل مشکلات عمده این سیستم انجام شد. با این وجود، دسته‌بندی‌های ImageNet هنوز هم در مقایسه با دیتاست‌های جدیدتر، به نظر می‌رسد که کنترل‌شده‌تر و دقیق‌تر هستند.

GenAI به جریان اصلی می‌رسد

در تاریخ ۵ ژانویه ۲۰۲۱، آزمایشگاه OpenAI در سانفرانسیسکو از فناوری نوینی به نام Dall-E رونمایی کرد. علاوه بر این، یک شبکه عصبی به نام Clip نیز معرفی شد که به شناسایی و دسته‌بندی تصاویر یاری می‌رساند.

در یک پست وبلاگی، OpenAI به انتقاد از دیتاست قدیمی ImageNet پرداخته و اشاره می‌کند که جمع‌آوری آن هزینه و زمان زیادی را به خود اختصاص داده است. آن‌ها همچنین محدودیت محتوای ImageNet را مورد بررسی قرار می‌دهند. نویسندگان این پست توضیح می‌دهند که Clip به‌عنوان یک ابزار نوین، از جفت‌های متن و تصویر استفاده می‌کند که به‌راحتی در اینترنت قابل‌دسترسی هستند و نیازی به صرف هزینه و زمان زیاد ندارند. (هرچند هنوز مشخص نیست که این جفت‌های تصویر و متن دقیقاً در کدام بخش‌های اینترنت قرار دارند، اما با توجه به اینکه Clip از بیش از ۴۰۰ میلیون جفت تصویر و متن بهره می‌برد، احتمالاً این اطلاعات در نقاط مختلف اینترنت موجود است.)

ما آگاهیم که Clip شامل هزاران اثر از هنرمندان، طراحان، عکاسان و گرافیست‌ها می‌باشد. یکی از قابلیت‌های Dall-E این است که می‌توان از آن خواست تا تصاویری به سبک هنرمندان خاص خلق کند. در تابستان ۲۰۲۲، تقریباً یک سال پس از انتشار نسخه عمومی با نام Dall-E Mini، شبکه‌های اجتماعی مملو از تصاویری شد که از فرمول «A اما B» بهره می‌بردند.

در حقیقت، این تصاویر موضوعاتی را با سبک‌ها یا زمینه‌های غیرمنتظره ترکیب می‌کردند. به عنوان مثال، تصاویری نظیر «کیم کارداشیان به سبک سالوادور دالی»، «آر 2-دی2 در حال تعمید» و «مکعب روبیک به شکل ساندویچ کره بادام‌زمینی» در شبکه‌های اجتماعی به شدت مورد توجه قرار گرفتند.

تصاویری که این مدل‌های هوش مصنوعی تولید می‌کنند، صرفاً ترکیبی تصادفی از بخش‌های مختلف تصاویر موجود در اینترنت نیستند. در واقع، مدل‌های هوش مصنوعی تولیدکننده تصاویر (genAI) ایده‌های کلی از نشانه‌ها، علامت‌ها، انواع تصاویر و سبک‌ها را ایجاد می‌کنند که با الگوهای پیکسل‌ها در ارتباط هستند.

الگوریتم‌های یادگیری عمیق دال-ای (Dall-E) ترتیب پیکسل‌های یک تصویر دیجیتال را به صدها متغیر مختلف تقسیم می‌کنند و از این داده‌ها برای تحلیل تصویر و اجزای آن بهره می‌برند تا بتوانند در آینده تصاویری مشابه و منحصر به فرد خلق کنند.

زمانی که از ابزارهایی مانند دال-ای یا Stable Diffusion درخواست می‌کنید تا تصویری به سبک یک هنرمند خاص ایجاد کنند، این مدل‌ها به کپی‌برداری از آثار آن هنرمند نمی‌پردازند. بلکه آن‌ها الگوهای هنری شامل موضوعات، انتخاب‌های ترکیبی و نحوه استفاده از رنگ، خط و فرم را تفسیر کرده و بازتولید می‌کنند.

تعداد و تنوع تصاویری که در اینترنت وجود دارد و نحوه برچسب‌گذاری آن‌ها تأثیر قابل‌توجهی بر عملکرد ابزارهای هوش مصنوعی دارد. هرچه تعداد تصاویر مربوط به یک هنرمند خاص بیشتر باشد، این ابزارها قادر به بازتولید سبک آن هنرمند به شکل بهتری خواهند بود. همچنین، هرچه یک ایده بصری بیشتر در فضای مجازی مشاهده شود، احتمال تکرار آن نیز افزایش می‌یابد. به عنوان مثال، به دلیل وجود تصاویر فراوان و توضیحات مختلف درباره مردان سفیدپوست به عنوان جراحان، ابزارهای هوش مصنوعی در سال 2023 تقریباً همیشه زمانی که از آن‌ها خواسته می‌شود تصویری از یک جراح بسازند، تصویر یک مرد سفیدپوست را ارائه می‌دهند.

به‌جای آنکه توسعه‌دهندگان این ابزارها به مشکلات اساسی موجود در داده‌ها رسیدگی کنند، سعی کرده‌اند این مسائل را با روش‌هایی مانند «کاهش تعصب» پنهان نمایند. در واقع، آن‌ها تلاش کرده‌اند با برنامه‌نویسی تدابیری برای افزایش تنوع، به ابزارها کمک کنند تا تصاویر متنوع‌تری تولید کنند. به‌عنوان مثال، وقتی از ابزار جدید هوش مصنوعی گوگل به نام Gemini خواسته می‌شود «تصویری از یک سرباز آلمانی در سال 1943 تولید کند»، تصاویری از نازی‌های رنگین‌پوست ارائه می‌دهد.

اوه، بشریت!

با توسعه روزافزون ابزارهای هوش مصنوعی در زمینه تبدیل متن به تصویر، مباحث و نگرانی‌ها نیز افزایش یافته است. عناوین خبری به شدت نگران‌کننده شده‌اند: «هوش مصنوعی مولد همه چیز را دگرگون می‌کند»، «آیا هوش مصنوعی تولید تصویر، هنرمندان را بی‌معنا کرده است؟»، «آیا هوش مصنوعی می‌تواند به شغل شما در طراحی پایان دهد؟»، «هنر مرده است و ما آن را نابود کرده‌ایم».

بسیاری از این بیانیه‌ها از سوی حامیان هوش مصنوعی و همچنین هنرمندان بصری و منتقدان فناوری مطرح شده است. در اوایل ماه مه ۲۰۲۳، نامه‌ای با عنوان «محدود کردن تصویرسازی با هوش مصنوعی در انتشار» در وب‌سایت مرکز تحقیق و گزارش هنری منتشر گردید. این نامه توسط «ماریسا مازریا کاتز»، مدیر این مرکز، و تصویرگر معروف چپ‌گرا، «مالی کراپبل»، نوشته شده است. در این نامه، رابطه‌ای مشابه افسانه بین روزنامه‌نگاری و تصویرگری توصیف شده که «به چیزی اشاره دارد که نه تنها به طور عمیق به اخبار مرتبط است، بلکه ذاتاً انسانی بوده و به داستان‌ها بازمی‌گردد».

از سوی دیگر، ابزارهای تولید محتوا قادرند در عرض چند ثانیه شبیه‌سازی‌های دقیق و باکیفیتی از تصاویری که قبلاً باید به‌دست انسان خلق می‌شدند، ارائه دهند. این ابزارها همچنین تصاویری تولید می‌کنند که یا به طور کامل رایگان هستند یا هزینه‌ای ناچیز دارند. این نامه با دعوت به «پیمانی برای حفظ ارزش‌های انسانی در برابر استفاده از تصاویر تولید شده با هوش مصنوعی به جای هنر خلق‌شده توسط انسان» به پایان می‌رسد. بیش از ۴۰۰۰ نفر از جمله نویسندگان، روزنامه‌نگاران، هنرمندان و چهره‌های مشهور این نامه را امضا کرده‌اند.

تولید تصاویر خبری

استفاده از هوش مصنوعی در تولید تصاویر خبری با چالش‌های متعددی همراه است که از جمله مهم‌ترین آن‌ها می‌توان به تعصبات ذاتی این فناوری و مصرف بالای انرژی آن اشاره کرد. تا پایان سال ۲۰۲۳، سیستم Stable Diffusion نشان داد که تصویر «عراق» همواره به صورت اشغال نظامی نمایش داده می‌شود. همچنین، «یک فرد در خدمات اجتماعی» هرگز به عنوان سفیدپوست معرفی نمی‌شود، در حالی که «یک فرد مولد» معمولاً سفیدپوست و همیشه مرد است. به همین ترتیب، «یک فرد در حال تمیز کردن» همواره زن به تصویر کشیده می‌شود.

مدل Midjourney به طور مداوم «یک فرد هندی» را به عنوان مردی سالخورده با ریش و عمامه نارنجی به تصویر می‌کشد و «یک خانه در نیجریه» را به شکل ساختمانی ویران با سقف قوطی یا کاه‌گلی نمایش می‌دهد. همچنین، یک مطالعه در نوامبر ۲۰۲۳ نشان داد که تولید یک تصویر با استفاده از هوش مصنوعی می‌تواند تا نیمی از باتری یک گوشی هوشمند را مصرف کند، که این مقدار به مراتب بیشتر از انرژی لازم برای تولید متن است. به طور کلی، با پیشرفت مدل‌ها و افزایش قدرت و پیچیدگی آن‌ها، مصرف انرژی نیز به طور قابل‌توجهی افزایش یافته است.

به نظر من، تهدیداتی که برای «ارزش‌های انسانی» و «انسانیت» در زمینه هنر مطرح می‌شوند، اغراق‌آمیز هستند. در واقع، این انسان‌ها هستند که هوش مصنوعی را توسعه می‌دهند. این موضوع نه تنها شامل کدها و مکانیزم‌های پایه این فناوری می‌شود، بلکه زیرساخت‌های مرتبط با هر مرحله از فرآیند تولید آن را نیز شامل می‌گردد.

به عنوان نمونه، کارگران Mechanical Turk که مسئول برچسب‌گذاری تصاویر پرندگان Caltech-UCSD هستند و افرادی که به طور ناشناس در شبکه‌های اجتماعی محتواهای بی‌معنا منتشر می‌کنند. همچنین ناظران محتوای کنیایی که تنها ۲ دلار در ساعت برای بررسی مداوم مطالب وحشتناک دریافت می‌کنند، به منظور جلوگیری از تولید تصاویری نامناسب مانند سوءاستفاده جنسی از کودکان در Dall-E استخدام شده‌اند.

هنرمندان در برابر هوش مصنوعی

اما پرسش این است که وضعیت معیشتی هنرمندان چگونه خواهد بود؟ واقعیت این است که هیچ تصویرگری نمی‌تواند به اندازه کافی سریع و با هزینه کم کار کند تا بتواند با ربات‌های تولیدکننده تصاویر رقابت کند. مازریا کاتز و مالی کراپابل در این زمینه کاملاً درست می‌گویند.

به‌راستی زمانی که ادعا می‌شود «اگر این فناوری بدون نظارت رها شود، به طور جدی روزنامه‌نگاری را دگرگون خواهد کرد»، تصویری خوشبینانه از این حوزه به نمایش گذاشته می‌شود. آینده‌ای که آن­ها از آن نگرانند، جایی است که تنها تعداد محدودی از هنرمندان قادر به ادامه فعالیت خواهند بود و آثارشان به نمادی از ثروت تبدیل می‌شود. در واقع، این وضعیت هم‌اکنون در حال شکل‌گیری است؛ به‌طوری که بسیاری از نشریات و احتمالاً بیشتر آن­ها، پرداخت دستمزد مناسب برای تولید یک تصویر سفارشی را هزینه‌ای غیرقابل توجیه می‌دانند.

آن‌ها می‌پرسند چرا باید برای تصاویر هزینه کنیم در حالی که گزینه‌های آماده و ارزان‌قیمت زیادی در دسترس است؟ یا میم‌هایی که به راحتی قابل کپی هستند، تصاویر رایگان و منبع‌باز که می‌توان از ویکی‌مدیا دانلود کرد، یا کلیپ آرت‌هایی که به سادگی قابل استفاده‌اند و آثار هنرمندانی که برخی افراد بدون اجازه از آن‌ها اسکرین‌شات می‌گیرند؟

واقعیت این است که بسیاری از نشریات و کسب و کارهایی که هنوز به سفارش آثار اصلی می‌پردازند، به جای استخدام مستقیم طراحان، مدت‌هاست که از طریق پلتفرم‌های آنلاین مانند Fiverr این کار را انجام می‌دهند، جایی که خدمات به‌صورت آزاد و با هزینه کمتر ارائه می‌شود.

بهترین روش برای حمایت از حقوق کارگران در زمینه تصویرسازی، تغییر دادن شرایط به نفع آن‌هاست. در واقع، افرادی که در تولید تصاویر جذاب و مؤثر تخصص دارند، از جمله تصویرگران، هنرمندان، عکاسان و ویرایشگران عکس، باید به نحو احسن از سیستم‌های هوش مصنوعی بهره‌برداری کنند.

به‌عنوان نمونه، مجله Wired به‌عنوان اولین نشریه در ایالات متحده که سیاست رسمی در زمینه هوش مصنوعی را ارائه کرده، این مفهوم را در راهنماهای خود لحاظ کرده است. در این سیاست ذکر شده است که «برخی از هنرمندان در حال حاضر از هوش مصنوعی مولد به‌عنوان بخشی از فرآیند خلاقانه خود استفاده می‌کنند، به‌گونه‌ای که مشابه دیگر ابزارهای دیجیتال به کار گرفته می‌شود».

Wired همچنین اعلام کرده است که «این هنرمندان را به کار خواهد گرفت، به شرطی که آثار آن‌ها شامل ورودی خلاقانه معناداری باشد و به طور واضح آثار دیگران را تقلید نکند یا حقوق مالکیت معنوی را نقض نکند. در این موارد، ما به طور شفاف اعلام خواهیم کرد که از هوش مصنوعی مولد استفاده شده است».

علاوه بر این، این نشریه تأکید کرده است که به جای استفاده از عکس‌های موجود در آرشیو، از تصاویر تولید شده با هوش مصنوعی بهره نخواهد برد، زیرا «فروش تصاویر به آرشیوهای استوک، یکی از منابع درآمد بسیاری از عکاسان به شمار می‌رود». همچنین می‌توانید بیانیه The Guardian درباره رویکرد آن نسبت به هوش مصنوعی مولد را مطالعه کنید.

همان‌طور که لپ‌تاپ‌ها، دوربین‌ها و قلم‌موها ابزارهایی هستند که کارایی واقعی آن‌ها به مهارت و دانش کاربر وابسته است، مدل‌های هوش مصنوعی مولد نیز از این قاعده مستثنی نیستند. این ابزارها توسط انسان‌ها طراحی و نگهداری می‌شوند، بنابراین باید در فرآیند تولید تصویر و مباحث مربوط به معیشت مورد توجه قرار گیرند.

در حقیقت، به جای اینکه این ابزارها را «هوش مصنوعی» بنامیم، من ترجیح می‌دهم آن‌ها را «هوش بیگانه» یا «هوش alienated» خطاب کنیم. این نوع هوش نشان‌دهنده این است که انسانیت نه تنها جعلی یا ساختگی نیست، بلکه به طور پنهانی، برون‌سپاری و ترکیب شده است. به عبارت دیگر، انسانیت در الگوریتم‌هایی تجلی یافته که سعی دارند به تدریج آن را اصلاح و آموزش دهند.

من به‌خوبی درک می‌کنم که «مزیریا کاتز» و «کرباپل» چه احساسی دارند. دزدیده شدن سبکی که با زحمت به‌دست آمده، واقعاً نشانه‌ای از بی‌احترامی است. می‌خواهم باور کنم که در تصاویری که با هوش مصنوعی تولید می‌شوند، چیزی واضح و ارزشمند گم شده است؛ چیزی به نام «دست»، که به نقص‌های ظریف و ویژگی‌های انسانی اشاره دارد و در این آثار هنری به طور کامل ناپدید شده است.

با این حال، من در بسیاری از آزمون‌های آنلاین شرکت کرده‌ام که ادعا می‌کنند می‌توانند توانایی تشخیص بین تصاویر تولید شده با هوش مصنوعی و عکس‌ها یا نقاشی‌های واقعی را ارزیابی کنند. باید بگویم که در این آزمون‌ها نتایج خوبی کسب نکرده‌ام. این آزمون‌ها به گونه‌ای طراحی شده‌اند که تشخیص تفاوت‌ها را دشوار می‌کنند، زیرا بهترین خروجی‌های تولیدکننده را در برابر آثار هنری واقعی قرار می‌دهند. به طور کلی، با توجه به تجربیاتم به عنوان طراح گرافیک، مربی طراحی و ویراستار در یک نشریه هنری، انتظار داشتم که بتوانم این تفاوت‌ها را تشخیص دهم. بنابراین، در این شرایط، نشانه‌های غیبت انسانیت در این تصاویر کجاست؟

در روزهای ابتدایی استفاده از ابزارهای تولید تصویر مانند Dall-E، Stable Diffusion و Midjourney، نقاط ضعفی در تصاویر تولید شده مشاهده می‌شد. به عنوان نمونه، دست‌های نامنظم، تکرار مکرر برخی جزئیات، تمایل به قرارگیری عناصر در مرکز تصویر و اشتباهات فیزیکی به وضوح نشان می‌داد که این تصاویر حاصل کار هوش مصنوعی هستند.

این نقاط ضعف به ما امکان می‌داد تا به سادگی تصاویر تولید شده توسط هر یک از این ابزارها را شناسایی کنیم. اما با پیشرفت فناوری و معرفی نسل‌های جدید این ابزارها، شناسایی این نشانه‌ها و نقاط ضعف دشوارتر و در برخی موارد حتی غیرممکن شده است.

عصر «مهندسی پرامپت»

ابزارهای هوش مصنوعی که برای تبدیل متن به تصویر و بالعکس طراحی شده‌اند، بر پایه پردازش زبان طبیعی عمل می‌کنند. با این حال، زبانی که برای دستیابی به بهترین نتایج به کار می‌رود، معمولاً از حالت «طبیعی» فاصله دارد. دستور زبانی که در این زمینه استفاده می‌شود، به قدری خاص و منحصر به فرد است که منجر به شکل‌گیری بازار جدیدی برای افرادی به نام «مهندسان پرامپت» شده است. همچنین، وبلاگ‌ها و ویدئوهای آموزشی با عنوان «راهنمای نوشتن پرامپت» در فضای مجازی به شدت مورد توجه قرار گرفته‌اند.

بسیاری از راهنماها برای نوشتن پرامپت‌های مؤثر از یک ساختار سه‌گانه بهره می‌برند که شامل یک موضوع، یک توصیف و یک سبک یا زیبایی‌شناسی تصویر است. در این ساختار، بخش «توصیف» معمولاً به صورت یک عبارت در زمان حال ارائه می‌شود. به عنوان مثال، می‌توانید بنویسید: «گربه‌ای که در حال نوشیدن قهوه است» یا «سگ بولداگی که در اقیانوس شنا می‌کند».

زمانی که به «سبک یا زیبایی‌شناسی» تصویر می‌پردازیم، وضعیت کمی پیچیده‌تر می‌شود. تعیین اینکه کدام نوع سبک مناسب است، کار آسانی نیست. به عنوان مثال، عبارات مانند «پوستر حماسی» یا «کارتون خنده‌دار» می‌توانند به عنوان سبک‌های خاص شناخته شوند. همچنین، عبارت «تصویر قابل‌استفاده» به تصاویری اشاره دارد که می‌توانند به عنوان میم‌های قابل سفارشی‌سازی به کار روند، به این معنا که می‌توانند با افزودن متن یا تصاویر اضافی تغییر کنند. البته این توصیف‌ها معمولاً در هنگام ایجاد سبک‌های بصری به ذهن نمی‌آید.

عباراتی که به عنوان اصطلاحات مختصر برای نوشتن درخواست‌ها در زمینه هوش مصنوعی به محبوبیت رسیده‌اند، شامل «رترو»، «عکاسی محصول»، «عکاسی غذا»، «بسیار دقیق»، «شاهکار هنر دیجیتال»، «رندر C4D»، «رندر اوکتان» و «پرطرفدار در ArtStation» می‌باشند. نام‌های خاص نرم‌افزارها نیز به سرعت به صفات تبدیل شده‌اند. به عنوان مثال، Cinema4D که نرم‌افزاری برای مدل‌سازی سه‌بعدی است و به اختصار C4D نامیده می‌شود، و Octane که نرم‌افزار رندرینگ گرافیکی است، در این دسته قرار دارند. همچنین، ArtStation به عنوان پلتفرمی برای نمایش آثار طراحان بازی و انیماتورها نیز به همین شکل مورد استفاده قرار می‌گیرد.

علاوه بر این، نام هنرمندان بیشتر به منظور دستیابی به یک سبک بصری مورد استفاده قرار می‌گیرد تا صرفاً تقلید از آثار آن‌ها. به طور کلی، ما عادت داریم از نام‌های خاص به عنوان نمادهایی برای دوره‌ها و سبک‌ها بهره ببریم (مانند لوئی چهاردهم، باهاوس و استودیو ۵۴). اکنون این روند در زبان درخواست‌ها شتاب بیشتری به خود گرفته است. در حال حاضر، وب‌سایت‌هایی وجود دارند که هزاران سبک تصویری را بر اساس نام هنرمندان، به ویژه هنرمندان دیجیتال و طراحان مفهومی، فهرست کرده‌اند.

نوشتن درخواست‌ها به یادگیری اصطلاحات و درک پدیده‌های بصری مختلفی که با آن‌ها مرتبط هستند، بستگی دارد. این پدیده‌ها شامل موضوعات، ویژگی‌های بصری، رسانه‌ها و سبک‌های ترکیب‌بندی می‌باشند. در حالی که نوشتن درخواست به سرعت به یک مهارت ارزشمند در بازار کار تبدیل می‌شود، هنوز بسیاری از جزئیات داخلی الگوریتم‌های یادگیری عمیق برای حتی پیشرفته‌ترین مهندسان نیز به طور کامل قابل درک نیستند.

«سام باومن»، مدیر یک آزمایشگاه تحقیقاتی هوش مصنوعی در دانشگاه نیویورک، بیان کرده است که حتی کارشناسانی مانند او نیز قادر به شناسایی مفاهیم یا «قواعد استدلالی» به کار رفته در بسیاری از این سیستم‌های پیچیده نیستند. او با صراحت گفت: «ما این سیستم را طراحی و آموزش داده‌ایم، اما از عملکرد واقعی آن آگاهی نداریم.»

چالش‌های ترجمه و تفسیر در تولید تصویر با Dall-E 2

تقریباً در اکتبر ۲۰۲۲، Dall-E 2 در فهم معنا و ترتیب کلمات با چالش‌هایی مواجه بود، به‌ویژه زمانی که صفت‌ها یا عبارات توصیفی به اسم‌ها یا فعل‌ها نسبت داده می‌شدند. به عنوان مثال، اگر از Dall-E 2 می‌خواستید «یک ماهی و یک شمش طلا» را تولید کند، معمولاً تصویری از یک ماهی طلایی به شما ارائه می‌داد که اغلب همان «ماهی طلایی» معروف بود، به‌طوری که به نظر می‌رسید در حال انجام یک بازی کلامی است.

Dall-E 2 همچنین به کلمات با معانی مختلف که نوشتار یکسانی دارند، توجه داشت. به عنوان مثال، وقتی درخواست «یک خفاش در حال پرواز بالای یک استادیوم بیسبال» داده می‌شد، تصویری کارتونی و شاداب از استادیوم بیسبال تولید می‌کرد که در آن همزمان یک توپ بیسبال، یک چوب بیسبال و همچنین یک خفاش (به معنای حیوان) در حال پرواز بودند. مشکل اینجا بود که کلمه «خفاش» به دو نوع تصویر متفاوت مرتبط می‌شود و هوش مصنوعی نمی‌توانست تصمیم بگیرد کدام یک را انتخاب کند، بنابراین هر دو را در تصویر به نمایش می‌گذاشت.

در مقاله‌ای که توسط راسین و همکارانش نگاشته شده، به چالشی که در ترجمه‌های زبانی به تصویری وجود دارد، پرداخته شده است. آن­ها این چالش را به عنوان «نشت معنایی ویژگی‌ها میان موجودات» معرفی کرده‌اند. به عبارت دیگر، زمانی که یک عبارت یا واژه دارای معانی متعدد است، سیستم هوش مصنوعی قادر به اتخاذ تصمیم مناسب در انتخاب معنی صحیح نیست.

به عنوان مثال، در تصاویری که با عبارت «یک بچه‌خفاش در حال پرواز بالای یک استادیوم بیسبال» تولید می‌شود، هر دو مفهوم «بچه‌خفاش» (حیوان) و «چوب بیسبال» (ابزار) در تصویر نمایان می‌شوند. این موضوع به این دلیل است که واژه «خفاش» هم به موجود زنده و هم به ابزار ورزشی اشاره دارد، بنابراین هوش مصنوعی هر دو را به تصویر می‌کشد، زیرا نمی‌تواند یکی را به طور خاص انتخاب کند.

در این تصویر، خفاش به گونه‌ای به تصویر کشیده شده که گویی از چوب بیسبال بهره می‌برد. همچنین، یک شکل سفید شبیه به اشک در کنار آن وجود دارد که نمایانگر لبخند و شادی خفاش است.

در سمت چپ خفاش، یک ابر خاکستری و یک صاعقه در آسمان آبی نمایان شده‌اند. نویسندگان مقاله توضیحی درباره دلیل اضافه شدن صاعقه به تصویر ارائه نمی‌دهند، اما من حدس می‌زنم که این ممکن است به این خاطر باشد که خفاش‌ها معمولاً در تصاویری که به جادوگران مربوط می‌شوند، حضور دارند. (جادوگران به واسطه جادو و صاعقه شناخته می‌شوند)

صاعقه نمونه‌ای از آنچه Rassin و همکارانش به عنوان «تحریکات مرتبه دوم» معرفی می‌کنند، به شمار می‌آید. این مفهوم به تداعی‌هایی اشاره دارد که در زبان و تصاویر وجود دارند و معمولاً از دید ما پنهان می‌مانند. به عنوان مثال، زمانی که از Dall-E 2 درخواست می‌کنید تصویری از یک آرمادیلو در کنار ساحل بسازد، معمولاً علاوه بر آرمادیلو، چند صدف نیز در تصویر ظاهر می‌شود. این امر به ارتباطاتی که این مدل بین مفاهیم مختلف برقرار می‌کند، مربوط می‌شود. به عنوان نمونه، وقتی به «آرمادیلو» فکر می‌کنیم، ممکن است واژه‌هایی مانند «پستاندار»، «زره «، «توپ» و «صدف» به ذهن خطور کند. این تداعی‌ها باعث می‌شود که Dall-E 2، صدف‌ها را نیز به تصویر اضافه کند.

در عوض، اگر از این مدل درخواست کنید که تصویر «سگ در کنار ساحل» ایجاد کند، تنها یک ساحل ساده بدون صدف‌ها را به نمایش می‌گذارد. این «نشت» ویژگی‌ها موجب می‌شود که برخی تصاویر غیرمنطقی یا حتی مضحک به نظر برسند. همچنین، این موضوع معمولاً به عنوان نشانه‌ای از ضعف یا عدم دقت کافی این ابزارهای تولید تصویر مطرح می‌شود.

نمی‌توان «نشت معنایی» را به سادگی نشانه‌ای از نادرستی فناوری دانست، بلکه این موضوع نشان‌دهنده حساسیت بالای آن است. به عنوان مثال، زمانی که از Dall-E 2 خواسته می‌شود «یک پرنده بلند با پاهای بلند و گردن بلند و یک محل ساخت و ساز را به تصویر بکشد، نتیجه نهایی تصویری است که هم شامل یک «کرین» (پرنده) و هم یک «کرین» (جرثقیل ساختمانی) می‌شود. در نگاه اول ممکن است این را به‌عنوان یک خطا تلقی کنیم و احتمالاً مهندسان نرم‌افزار نیز در تلاش برای حل این مشکل هستند، اما در واقع این یک پیوند زبانی پیچیده و دقیق است. این مثال به نوعی به مشکل «هم‌آوا»ها اشاره دارد، زیرا کلمه «کرین» (جرثقیل یا پرنده) در درخواست شما ذکر نشده است، اما به دلیل شباهت‌های معنایی و آوایی، هوش مصنوعی هر دو معنا را به تصویر اضافه می‌کند.

با وجود تمامی تعصبات و الگوهایی که هوش مصنوعی به نمایش می‌گذارد، این ابزارها همچنین جنبه‌های ظریف و ابهامات زبان را نیز نمایان می‌کنند. به ویژه در زبان انگلیسی، تعداد زیادی واژه هم‌صدا و هم‌معنا وجود دارد که ممکن است باعث سردرگمی شوند. فناوری‌های نوینی مانند چاپ، دوربین و تصویربرداری ماهواره‌ای که برای تولید تصویر به کار می‌روند، شیوه‌ی درک ما از جهان را دگرگون می‌سازند و این تغییرات می‌توانند بر رفتارهای ما تأثیر بگذارند. بنابراین، پرسش این است: این تصاویر تولید شده توسط الگوریتم‌ها چه چیزی را به ما می‌آموزند تا ببینیم، بگوییم و انجام دهیم؟

در ژانویه 2024، ابزارهای هوش مصنوعی که قادر به تبدیل متن به تصویر هستند، به طور روزانه حدود 34 میلیون تصویر تولید می‌کردند. هرچند این رقم هنوز نسبت به تعداد عکس‌های دیجیتال بسیار کم است، اما به نظر می‌رسد که این وضعیت به زودی تغییر خواهد کرد. بنابراین، بهتر است از این پس فرض کنید که هر تصویری که مشاهده می‌کنید، احتمالاً توسط هوش مصنوعی ایجاد شده است.

ویژگی بارز این تصاویر، نه فقدان احساس انسانی، بلکه وفور و غنای آن‌هاست. در واقع، این تصاویر شامل تمامی اطلاعات انسانی، تاریخچه و ویژگی‌های زبانی موجود در خود هستند که دوباره تولید می‌شوند. هر فردی که دستوری برای تولید تصویر صادر می‌کند، زنجیره‌ای وسیع از همکاری‌ها را با هنرمندان، پژوهشگران و کاربران اینترنت شکل می‌دهد. این همکاری‌ها در زمان‌ها و مکان‌های مختلف به یک بازی بزرگ و مداوم تبدیل می‌شود.

چه بخواهیم و چه نخواهیم، همه ما (چه کسانی که پیش از ظهور این فناوری‌ها به خلق تصویر می‌پرداختند و چه هنرمندانی که به استفاده از هوش مصنوعی روی آورده‌اند) باید بیاموزیم که چگونه در این عرصه مشارکت کنیم.

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]