
ردپای پنهان بشریت:
آنچه تصاویر تولید شده توسط هوش مصنوعی از دنیای ما آشکار میسازند
با پیشرفت هوش مصنوعی مولد، ممکن است این احساس به وجود آید که ماشینها در حال تسلط بر یک عرصه جدید هستند، اما انسانها همچنان در مرکز هنر تولید شده توسط هوش مصنوعی قرار دارند. البته این حضور به شیوههایی است که شاید کمتر به آن فکر کرده باشیم.
این مقاله به قلم از راشل اسیپ در گاردین منتشر شده و به جنبههای مختلف توسعه مدلهای هوش مصنوعی مولد بخصوص مدلهای تولید تصویر میپردازد.
بنویس و بکش
زمانی که دوستانم فرصتی برای استراحت پیدا میکنند، معمولاً به یک بازی ساده و سرگرمکننده روی میآورند. این بازی بر اساس یک بازی سوررئالیستی به نام «جسد نفیس» (Exquisite Corpse) طراحی شده و شامل تبدیل توضیحات کوتاه نوشتاری به نقاشیهای سریع و بالعکس است. یک گروه از دوستانم این بازی را «پیشنویس تلفنی» مینامند، در حالی که گروه دیگری آن را «بنویس و بکش» میخوانند. وقتی در اینترنت به دنبال این بازی گشتم، متوجه شدم که نامهای عجیبی نیز برای آن وجود دارد. یکی از این نامها «بخور مدفوع، گربه!» است که احتمالاً از یکی از نتایج خندهدار و غیرمنتظرهای که در طول بازی به وجود آمده، الهامگرفته شده است.
تا چند سال گذشته، دیدن ترجمههای نادرست میان متن و تصویر یا بالعکس در زندگی روزمره چندان رایج نبود و به همین خاطر، نتایج غیرمنتظره بازیها جذابیت و تازگی خاصی داشتند. اما از آن زمان، ما به مرحلهای نوین در تولید تصاویر پا گذاشتهایم.
امروزه با بهرهگیری از تولیدکنندههای تصویر هوش مصنوعی مانند Dall-E 3، Stable Diffusion و Midjourney و همچنین امکانات تولیدی موجود در نرمافزارهای Creative Cloud ادوبی، میتوانید به سادگی یک جمله یا عبارت را در عرض چند ثانیه به تصویری دقیق تبدیل کنید. به همین ترتیب، تصاویر نیز میتوانند به سرعت به متن توصیفی تبدیل شوند. اکنون میتوانید به تنهایی در اتاق خود بازی «بخور مدفوع، گربه!» را تجربه کنید و از سرگرمی با الگوریتمها لذت ببرید.
در تابستان 2023، من این بازی را تجربه کردم. از نسخه آنلاین Stable Diffusion و یک برنامه هوش مصنوعی به نام Clip Interrogator استفاده کردم که قادر است هر تصویری را به متن تبدیل کند. برای انجام بازی دو دور، حدود سه دقیقه زمان صرف کردم. کارم را با نوشتن عبارت «بخور مدفوع، گربه!» (چرا که نه؟) در بخشی که از من خواسته شده بود «عبارت خود را وارد کنید» آغاز کردم و سپس روی دکمه «تولید تصویر» کلیک کردم.
Stable Diffusion در پاسخ به هر عبارت ورودی، چهار تصویر تولید میکرد. من کمی تقلب کردم و تنها یکی از تصاویری را که بیشتر پسندیدم انتخاب کردم تا ادامه دهم. در مرکز تصویر، یک گربه راهراه نسبتاً واقعی با چشمهای سبز درخشان به من نگاه میکرد. دهانش باز بود و زبان صورتیاش نمایان بود. پسزمینه خاکستری و کمی کثیف به نظر میرسید و جزئیات زیادی نداشت. در قسمت پایین تصویر، متنی سفید و حبابی نوشته شده بود که میگفت: «بخور بخور مدفوع، تو هم میدانی!»
من این تصویر را به Clip Interrogator دادم و آن به سرعت این متن را برایم تولید کرد: «نمای نزدیک از یک گربه با چشمهای سبز، متنی آبی که میگوید kliksphilip3، پسزمینهای زیبا از یک شهر، مدفوع، حاشیه و پسزمینه سفید، در حال لیسیدن، پوستر جذاب، پسزمینهای از یک اتاق اداری، توالت طلایی، خندهدار و کارتونی، ارین، جواهر کلاسیک، خورنده نامرتب، تصویری قابلاستفاده، ترک کردن، انگیزشی، شعر متحرک، توالت.»
با پیشرفت ابزارهای هوش مصنوعی تولیدی (genAI)، نوعی دستور زبان پیچیده برای تولید متنهای ورودی تصاویر به وجود آمده است و «پرامپت» Clip Interrogator نمایانگر انبوهی از سبکها، جزئیات و توصیفها بود. اما به نظر من، این لیست بسیار طولانی و شلوغ به نظر میرسید و مانند یک تفسیر عجیب از تصویر جلوه میکرد. خوشحالم که متوجه شدم این تصویر قبلاً به عنوان یک «جواهر کلاسیک» شناخته شده است.
پس از چندین بار رفت و برگشت، در نهایت موفق شدم تصویری از یک گربه سیاه و قهوهای پیدا کنم که بر روی توالتی نشسته بود، توالتی که احتمالاً توسط «فرانک لوید» رایت طراحی شده بود. تکهای کاغذ توالت که از رول بالای سر گربه به رویش افتاده بود، به شکل یک کلاه به نظر میرسید. این تصویر به صورت مسطح و شبیه به یک نقاشی جلوه میکرد. سبک آن آشنا بود؛ آیا اکسپرسیونیستی بود؟ اکسپرسیونیسم آلمانی؟ یا شاید فاکسنایف؟ به طور قطع تحت تأثیر «مدیلیانی»، «پیکاسو» در اوایل و برخی از طبیعت بیجانهای بعدی هنرمند مکعبی لهستانی، «هنری هایدن»، قرار داشت.
Clip Interrogator (یک نرمافزار هوش مصنوعی) تصویر را به این صورت توصیف کرد: «نقاشی از یک گربه که بر روی توالت نشسته و حالتی شبیه به تصاویر بازی PlayStation 2 دارد. این اثر به سبک هنر عامه طراحی شده و به «ایگناسی ویتکیویچ»، هنرمند لهستانی، مرتبط است. همچنین به کارت تاروت دلقک، «فیل فاگیو»، کارتونیست، و موضوعات دیگر اشاره میکند.»
این برنامه همچنین به موضوعات جالبی مانند «نابود کردن تنها» اشاره کرد که به یک هنرمند زمینه موسیقی از آتلانتا مربوط میشود و نه به یک دستور خاص. «روباتراک» نیز نام یک جاروبرقی خودکار مشابه روومبا است. «فیل فاگیو» به خاطر کاریکاتورهای طنزآمیزش در بازی Magic: The Gathering شناخته شده است. در نهایت، اشاره به «ایگناسی ویتکیویچ» نشاندهنده ارتباط تصویر با فرهنگ لهستانی است.
Stable Diffusion تصاویری را با تطبیق کلمات و عبارات به یک مجموعه وسیع از ویژگیهای بصری تبدیل میکند، در حالی که Clip Interrogator وظیفه معکوس را بر عهده دارد. رشتههای به نظر تصادفی از نامها، عبارات و صفات نتیجه فعالیت شبکههای عصبی هستند که تصویر را «تجزیه و تحلیل» کرده و بخشهای مختلف پیکسل را بررسی میکنند تا سرنخهایی را شناسایی کنند.
این سرنخها سپس به کلمات و اصطلاحات مرتبط تبدیل میشوند، هرچند این ارتباط همیشه به وضوح قابل درک نیست. به عنوان مثال، زمانی که پیکسلها به «گربهای که روی توالت نشسته» تبدیل میشوند، ارتباط کاملاً مشخص است. اما برای عبارات مانند «پانک درون» یا «کارت تاروت دلقک»، این ارتباط کمتر واضح و روشن به نظر میرسد.
روشهای متعددی برای به تصویر کشیدن یک گربه ساده در شرایط ابتدایی وجود دارد. به همین دلیل، مدلهای تبدیل متن به تصویر و تبدیل تصویر به متن نمیتوانند به طور مستقیم و یکبهیک یکدیگر را ترجمه کنند. اگر این امکان وجود داشت، الگوریتمها و من نمیتوانستیم این بازی را انجام دهیم.
البته با توجه به این عبارات و تصاویر خندهدار، میتوانیم درک کنیم که این سیستمها چگونه عمل میکنند و همچنین متوجه میشویم که انسانها هنگام توصیف یک تصویر، معمولاً به طور نامنظم و گیجکنندهای از زبان استفاده میکنند.
چگونه میتوانیم شخصیتهایی را خلق کنیم که وجود ندارند؟
اگرچه پیش از این نیز امکان خلق تصاویر با استفاده از هوش مصنوعی وجود داشت، اما تا ژانویه ۲۰۲۱ بحث درباره «هنرمندان هوش مصنوعی» به طور جدی مطرح نشده بود. در آن زمان، پلتفرم Dall-E که تصاویر را بر اساس توضیحات متنی تولید میکرد، توجهها را به خود جلب کرد. در آن روزها، توصیف «هنرمند هوش مصنوعی» به نوعی شبیه به یک داستان کودکانه به نظر میرسید: فقط کافی بود جملهای را تایپ کنی و کامپیوتر به طرز شگفتانگیزی تصویری برایت بسازد!
این فناوری به نظر بسیار پیشرفته میرسد، اما در واقع، توسعه آن دههها به طول انجامیده است. اولین شبکه عصبی در سال ۱۹۴۳ معرفی شد و روند پیشرفت این تکنولوژی در طول قرن بیستم با نوساناتی همراه بود. به عنوان نمونه، از سال ۱۹۸۹، شبکههای عصبی توانایی تشخیص کاراکترهای تایپ شده و نوشتههای دستی را پیدا کردند و با افزایش ظرفیت سختافزار، کاربردهای بینایی کامپیوتر به سرعت گسترش یافتند. فناوری تشخیص کاراکترهای نوری (OCR) به ما این امکان را میدهد که فایلهای PDF را به متن قابل ویرایش تبدیل کنیم و اکنون میتوانیم بخشهای متنی را از تصاویری که با گوشیهای خود میگیریم، کپی کنیم.

تشخیص کاراکترهای نوری به پردازش زبان طبیعی مرتبط است. این حوزه بر روی این موضوع تمرکز دارد که چگونه الگوریتمها میتوانند پیامها را به زبان انسان (به جای زبان برنامهنویسی) تولید و دریافت کنند. پردازش زبان طبیعی به ترکیب زبانشناسی محاسباتی، مدلسازی آماری و الگوریتمها میپردازد که امروزه عمدتاً شامل شبکههای عصبی میشود. این علم به ما کمک میکند تا زبان طبیعی را از طریق روشهای مختلفی مانند تجزیه جملات، شناسایی اجزای کلام، ارزیابی موقعیتهای متداول کلمات در جملات و شناسایی کلماتی که بیشترین بار معنایی را دارند (معمولاً اسمها و فعلها) پردازش و تولید کنیم.
تا سال ۲۰۱۵، سیستمهای الگوریتمی توانایی تولید جملات یا عبارات ساده برای توصیف تصاویر را داشتند. الگوهای پیکسلی که به عنوان مثال به عنوان «گربه» یا «فنجان» شناسایی میشدند، با برچسبهای زبانی مرتبط میشدند و سپس به توضیحات خودکار تصویر به زبان طبیعی تبدیل میشدند.
محققان بهسرعت دریافتند که میتوانند ترتیب این عملیات را به حالت معکوس درآورند. اگر برچسبها یا حتی زبان طبیعی را وارد کنیم و از شبکههای عصبی بخواهیم که تصاویر را بهعنوان خروجی تولید کنند، نتیجه چه خواهد بود؟
البته معکوس کردن فرآیند تبدیل تصویر به متن به اندازهای که تصور میشد، سادهتر بود، زیرا تفاوت قابلتوجهی بین پیچیدگی یک عبارت ساده و حتی ابتداییترین تصویر وجود دارد. (در حالی که تقریباً هر تصویری از یک گربه بزرگ و واضح را میتوان به عنوان «تصویری نزدیک از یک گربه» توصیف کرد، روشهای بیپایانی برای به تصویر کشیدن این عبارت وجود دارد.) همچنین برای درک نشانههای بصری که به طور تقریبی بینهایت هستند و میتوان آنها را به زبان توصیف کرد، نیاز به جمعآوری حجم زیادی از دادههای بصری بود.
تلاشهای اولیه برای تولید تصاویر به منظور مواجهه با چالشهای پیچیدگی و اندازه دیتاست، با محدود کردن نوع و موضوع تصاویر صورت گرفت. نویسندگان یک مقاله مهم در سال ۲۰۱۶ با عنوان «تولید تصویر از متن بهصورت رقابتی» (Generative Adversarial Text to Image Synthesis) مدلهای خود را بر روی مجموعههای کوچکتری از تصاویر آموزش دادند. این مجموعهها شامل گلهای آکسفورد-۱۰۲ و پرندگان کالتک – یوسیاسدی بودند.
دیتاست پرندگان شامل ۱۱,۷۸۸ تصویر از پرندگان است که به ۲۰۰ گونه مختلف (عمدتاً از آمریکای شمالی) تقسیمبندی شدهاند. این تصاویر با ویژگیهای اضافی نظیر «شکل نوک»، «الگوی شکم» و «رنگ زیر بدن» توصیف شدهاند. تصاویر این دیتاست از وبسایت فلیکر دانلود شده و سپس توسط کارگران انسانی که از طریق پلتفرم crowdsourcing آمازون به نام Mechanical Turk استخدام شده بودند، دستهبندی و توصیف گردیدهاند. این پلتفرم گاهی به عنوان «هوش مصنوعی» شناخته میشود.

اگرچه امروزه به نظر میرسد که ابزارهای تبدیل متن به تصویر به طور کامل خودکار عمل میکنند، اما ساختار و نگهداری این سیستمها به مقدار زیادی به کار انسانی وابسته است. این فعالیتها ممکن است شامل کلیکهای تکراری باشد که عمدتاً توسط کارگرانی در کشورهای درحالتوسعه انجام میشود و این افراد برای هر کار کوچک، مبلغ ناچیزی دریافت میکنند. همچنین، کار داوطلبانهای که ما با پر کردن کد امنیتی (Captcha) انجام میدهیم نیز میتواند بخشی از این فعالیتها باشد.
برای آموزش، شبکههای عصبی به یک مجموعه اولیه از تصاویر که برچسبگذاری و دستهبندی شدهاند، نیاز دارند؛ بنابراین، یک فرد باید این برچسبگذاری و دستهبندی را انجام دهد. به عنوان مثال، در این مورد، کاربر باید بخشهای مختلف بدن پرنده، مانند «پشت»، «نوک»، «شکم» و «سینه» و ویژگیهایی مانند «طول نوک تقریباً مشابه سر» را در ۵۹ تصویری که به «مرغماهی بالخاکستری» مربوط میشود، شناسایی کند. (گلهای آکسفورد-۱۰۲ به طور دقیقتری جمعآوری نشدهاند و برای بهدست آوردن تصاویر آنها از روشهای جستجوی اینترنتی و عکاسی استفاده شده است. به عبارت دیگر، بر خلاف دیتاست پرندگان که شامل تصاویر با برچسبگذاری دقیق است، اطلاعاتی درباره ویژگیهای خاص این گلها در دسترس نیست و تنها تصاویری از آنها ثبت شده است.)
با استفاده از آموزش شبکه مولد تخاصمی (GAN) بر روی مجموعههای محدود از تصاویر برچسبگذاریشده، نویسندگان مقاله موفق به تولید تصاویری منحصربهفرد و نسبتاً واقعی از پرندگان شدند. به عنوان مثال، آنها از توصیفاتی نظیر «این پرنده کوچک دارای نوک تیز نارنجی و شکم سفیدی است» و «این پرنده زیبا تقریباً کاملاً سیاه است و تاج قرمزی دارد و لکهسفیدی بر روی گونههایش مشاهده میشود» بهره بردند.
StyleGAN
سالها بعد، در اوایل سال ۲۰۱۹، شرکت آمریکایی انویدیا نسخه متنباز StyleGAN را معرفی کرد. این هوش مصنوعی قادر است تصاویری بیپایان و منحصر به فرد از چهرهها تولید کند و به کاربران اجازه میدهد ویژگیهایی مانند شکل صورت و مدل موها را تنظیم کنند. (این هوش مصنوعی بر اساس هزاران تصویر از فلیکر آموزش دیده و انویدیا اعلام کرده است که «تنها تصاویر با مجوزهای آزاد جمعآوری شدهاند»).
پس از آن، فیلیپ وانگ، یک مهندس نرمافزار، وبسایت thispersondoesnotexist.com را راهاندازی کرد که با هر بار تازهسازی، یک پرتره تصادفی جدید ایجاد میکند. به دنبال آن، وبسایتهای مشابهی مانند This Horse Does Not Exist، This City Does Not Exist و This Chair Does Not Exist نیز راهاندازی شدند.
نگرانیها درباره تصاویر جعل عمیق (deepfake) بیش از یک سال در صدر اخبار و مباحث قرار داشتند، اما ناگهان ظهور تصاویری از افرادی که وجود ندارند، تأثیر قابلتوجهی بر آگاهی عمومی گذاشت. این چهرههای جعلی به سرعت به عنوان تهدیدی برای دموکراسی شناسایی شدند و درخواستهایی برای ایجاد الگوریتمهایی که قادر به شناسایی و علامتگذاری این تصاویر تولیدشده باشند، مطرح گردید. در همین حال، StyleGAN به توسعه خود ادامه داد و شروع به تولید پرترههای انیمه کرد. با وجود تغییر نوع تصویر، موضوع آن همچنان محدود باقی ماند.
پروژه ImageNet
در مقابل، پروژه ImageNet که در سال ۲۰۰۶ توسط دانشمند کامپیوتر «فیفی لی» راهاندازی شد، هدف بلندی «نقشهبرداری از تمام اشیاء جهان» را داشت. این دیتاست شامل بیش از ۱۴ میلیون تصویر برچسبگذاری شده است که در بیش از ۱۰۰,۰۰۰ «دسته معنادار» سازماندهی شدهاند. این پروژه همچنین بیش از ۲۵,۰۰۰ نفر کارگر را از طریق Mechanical Turk به کار گرفته است. با اینکه ۱۰۰,۰۰۰ دسته عددی چشمگیر به نظر میرسد، اما با توجه به پیچیدگی بصری دنیای واقعی، این عدد چندان زیاد نیست.
کاهش تعداد دستهها و سادهسازی بیش از حد، بهویژه در زمینه برچسبگذاری انسانها، نتایج مطلوبی به همراه نخواهد داشت. ImageNet بر اساس یک طبقهبندی لغوی که در دهه ۱۹۸۰ ایجاد شده بود، طراحی شده و از چندین مجموعه لغوی پیشین الهامگرفته است. هر دیتاست جدید بر اساس دیتاست قبلی شکل میگرفت و منطق و سلسله مراتب آن را به ارث میبرد، حتی اگر تمامی اصطلاحات آن را شامل نمیشد.
«کیت کرافورد» و «تروور پاگلن»، دو پژوهشگر، به بررسی مشکلات موجود در دیتاست ImageNet پرداختهاند. آنها به این نکته اشاره میکنند که در نسخه اولیه این دیتاست، عکسی از یک کودک به اشتباه با عنوان «بازنده» طبقهبندی شده بود. همچنین، دستهبندیهایی نظیر «فاحشه»، «هرزه» و «نژاد سیاه» نیز در این دیتاست وجود داشت.
به طرز عجیبی، واژه «هرمافرودیت» که به افرادی با ویژگیهای مردانه و زنانه اشاره دارد، به عنوان زیرمجموعهای از «دوجنسه» دستهبندی شده بود. همچنین، واژه «دوجنسه» نیز به عنوان زیرمجموعهای از «حسگرا» طبقهبندی شده بود. در کنار این برچسبها، واژههای دیگری مانند «زناکار» و «لذیذ» نیز وجود داشتند.
در سال ۲۰۱۹، ImageNet تصمیم به حذف بیش از ۶۰۰,۰۰۰ تصویر با برچسبهای «غیر ایمن»، «توهینآمیز» یا «حساس» گرفت. این اقدام به منظور حل مشکلات عمده این سیستم انجام شد. با این وجود، دستهبندیهای ImageNet هنوز هم در مقایسه با دیتاستهای جدیدتر، به نظر میرسد که کنترلشدهتر و دقیقتر هستند.
GenAI به جریان اصلی میرسد
در تاریخ ۵ ژانویه ۲۰۲۱، آزمایشگاه OpenAI در سانفرانسیسکو از فناوری نوینی به نام Dall-E رونمایی کرد. علاوه بر این، یک شبکه عصبی به نام Clip نیز معرفی شد که به شناسایی و دستهبندی تصاویر یاری میرساند.
در یک پست وبلاگی، OpenAI به انتقاد از دیتاست قدیمی ImageNet پرداخته و اشاره میکند که جمعآوری آن هزینه و زمان زیادی را به خود اختصاص داده است. آنها همچنین محدودیت محتوای ImageNet را مورد بررسی قرار میدهند. نویسندگان این پست توضیح میدهند که Clip بهعنوان یک ابزار نوین، از جفتهای متن و تصویر استفاده میکند که بهراحتی در اینترنت قابلدسترسی هستند و نیازی به صرف هزینه و زمان زیاد ندارند. (هرچند هنوز مشخص نیست که این جفتهای تصویر و متن دقیقاً در کدام بخشهای اینترنت قرار دارند، اما با توجه به اینکه Clip از بیش از ۴۰۰ میلیون جفت تصویر و متن بهره میبرد، احتمالاً این اطلاعات در نقاط مختلف اینترنت موجود است.)
ما آگاهیم که Clip شامل هزاران اثر از هنرمندان، طراحان، عکاسان و گرافیستها میباشد. یکی از قابلیتهای Dall-E این است که میتوان از آن خواست تا تصاویری به سبک هنرمندان خاص خلق کند. در تابستان ۲۰۲۲، تقریباً یک سال پس از انتشار نسخه عمومی با نام Dall-E Mini، شبکههای اجتماعی مملو از تصاویری شد که از فرمول «A اما B» بهره میبردند.

در حقیقت، این تصاویر موضوعاتی را با سبکها یا زمینههای غیرمنتظره ترکیب میکردند. به عنوان مثال، تصاویری نظیر «کیم کارداشیان به سبک سالوادور دالی»، «آر 2-دی2 در حال تعمید» و «مکعب روبیک به شکل ساندویچ کره بادامزمینی» در شبکههای اجتماعی به شدت مورد توجه قرار گرفتند.
تصاویری که این مدلهای هوش مصنوعی تولید میکنند، صرفاً ترکیبی تصادفی از بخشهای مختلف تصاویر موجود در اینترنت نیستند. در واقع، مدلهای هوش مصنوعی تولیدکننده تصاویر (genAI) ایدههای کلی از نشانهها، علامتها، انواع تصاویر و سبکها را ایجاد میکنند که با الگوهای پیکسلها در ارتباط هستند.
الگوریتمهای یادگیری عمیق دال-ای (Dall-E) ترتیب پیکسلهای یک تصویر دیجیتال را به صدها متغیر مختلف تقسیم میکنند و از این دادهها برای تحلیل تصویر و اجزای آن بهره میبرند تا بتوانند در آینده تصاویری مشابه و منحصر به فرد خلق کنند.
زمانی که از ابزارهایی مانند دال-ای یا Stable Diffusion درخواست میکنید تا تصویری به سبک یک هنرمند خاص ایجاد کنند، این مدلها به کپیبرداری از آثار آن هنرمند نمیپردازند. بلکه آنها الگوهای هنری شامل موضوعات، انتخابهای ترکیبی و نحوه استفاده از رنگ، خط و فرم را تفسیر کرده و بازتولید میکنند.
تعداد و تنوع تصاویری که در اینترنت وجود دارد و نحوه برچسبگذاری آنها تأثیر قابلتوجهی بر عملکرد ابزارهای هوش مصنوعی دارد. هرچه تعداد تصاویر مربوط به یک هنرمند خاص بیشتر باشد، این ابزارها قادر به بازتولید سبک آن هنرمند به شکل بهتری خواهند بود. همچنین، هرچه یک ایده بصری بیشتر در فضای مجازی مشاهده شود، احتمال تکرار آن نیز افزایش مییابد. به عنوان مثال، به دلیل وجود تصاویر فراوان و توضیحات مختلف درباره مردان سفیدپوست به عنوان جراحان، ابزارهای هوش مصنوعی در سال 2023 تقریباً همیشه زمانی که از آنها خواسته میشود تصویری از یک جراح بسازند، تصویر یک مرد سفیدپوست را ارائه میدهند.
بهجای آنکه توسعهدهندگان این ابزارها به مشکلات اساسی موجود در دادهها رسیدگی کنند، سعی کردهاند این مسائل را با روشهایی مانند «کاهش تعصب» پنهان نمایند. در واقع، آنها تلاش کردهاند با برنامهنویسی تدابیری برای افزایش تنوع، به ابزارها کمک کنند تا تصاویر متنوعتری تولید کنند. بهعنوان مثال، وقتی از ابزار جدید هوش مصنوعی گوگل به نام Gemini خواسته میشود «تصویری از یک سرباز آلمانی در سال 1943 تولید کند»، تصاویری از نازیهای رنگینپوست ارائه میدهد.
اوه، بشریت!
با توسعه روزافزون ابزارهای هوش مصنوعی در زمینه تبدیل متن به تصویر، مباحث و نگرانیها نیز افزایش یافته است. عناوین خبری به شدت نگرانکننده شدهاند: «هوش مصنوعی مولد همه چیز را دگرگون میکند»، «آیا هوش مصنوعی تولید تصویر، هنرمندان را بیمعنا کرده است؟»، «آیا هوش مصنوعی میتواند به شغل شما در طراحی پایان دهد؟»، «هنر مرده است و ما آن را نابود کردهایم».
بسیاری از این بیانیهها از سوی حامیان هوش مصنوعی و همچنین هنرمندان بصری و منتقدان فناوری مطرح شده است. در اوایل ماه مه ۲۰۲۳، نامهای با عنوان «محدود کردن تصویرسازی با هوش مصنوعی در انتشار» در وبسایت مرکز تحقیق و گزارش هنری منتشر گردید. این نامه توسط «ماریسا مازریا کاتز»، مدیر این مرکز، و تصویرگر معروف چپگرا، «مالی کراپبل»، نوشته شده است. در این نامه، رابطهای مشابه افسانه بین روزنامهنگاری و تصویرگری توصیف شده که «به چیزی اشاره دارد که نه تنها به طور عمیق به اخبار مرتبط است، بلکه ذاتاً انسانی بوده و به داستانها بازمیگردد».

از سوی دیگر، ابزارهای تولید محتوا قادرند در عرض چند ثانیه شبیهسازیهای دقیق و باکیفیتی از تصاویری که قبلاً باید بهدست انسان خلق میشدند، ارائه دهند. این ابزارها همچنین تصاویری تولید میکنند که یا به طور کامل رایگان هستند یا هزینهای ناچیز دارند. این نامه با دعوت به «پیمانی برای حفظ ارزشهای انسانی در برابر استفاده از تصاویر تولید شده با هوش مصنوعی به جای هنر خلقشده توسط انسان» به پایان میرسد. بیش از ۴۰۰۰ نفر از جمله نویسندگان، روزنامهنگاران، هنرمندان و چهرههای مشهور این نامه را امضا کردهاند.
تولید تصاویر خبری
استفاده از هوش مصنوعی در تولید تصاویر خبری با چالشهای متعددی همراه است که از جمله مهمترین آنها میتوان به تعصبات ذاتی این فناوری و مصرف بالای انرژی آن اشاره کرد. تا پایان سال ۲۰۲۳، سیستم Stable Diffusion نشان داد که تصویر «عراق» همواره به صورت اشغال نظامی نمایش داده میشود. همچنین، «یک فرد در خدمات اجتماعی» هرگز به عنوان سفیدپوست معرفی نمیشود، در حالی که «یک فرد مولد» معمولاً سفیدپوست و همیشه مرد است. به همین ترتیب، «یک فرد در حال تمیز کردن» همواره زن به تصویر کشیده میشود.
مدل Midjourney به طور مداوم «یک فرد هندی» را به عنوان مردی سالخورده با ریش و عمامه نارنجی به تصویر میکشد و «یک خانه در نیجریه» را به شکل ساختمانی ویران با سقف قوطی یا کاهگلی نمایش میدهد. همچنین، یک مطالعه در نوامبر ۲۰۲۳ نشان داد که تولید یک تصویر با استفاده از هوش مصنوعی میتواند تا نیمی از باتری یک گوشی هوشمند را مصرف کند، که این مقدار به مراتب بیشتر از انرژی لازم برای تولید متن است. به طور کلی، با پیشرفت مدلها و افزایش قدرت و پیچیدگی آنها، مصرف انرژی نیز به طور قابلتوجهی افزایش یافته است.
به نظر من، تهدیداتی که برای «ارزشهای انسانی» و «انسانیت» در زمینه هنر مطرح میشوند، اغراقآمیز هستند. در واقع، این انسانها هستند که هوش مصنوعی را توسعه میدهند. این موضوع نه تنها شامل کدها و مکانیزمهای پایه این فناوری میشود، بلکه زیرساختهای مرتبط با هر مرحله از فرآیند تولید آن را نیز شامل میگردد.
به عنوان نمونه، کارگران Mechanical Turk که مسئول برچسبگذاری تصاویر پرندگان Caltech-UCSD هستند و افرادی که به طور ناشناس در شبکههای اجتماعی محتواهای بیمعنا منتشر میکنند. همچنین ناظران محتوای کنیایی که تنها ۲ دلار در ساعت برای بررسی مداوم مطالب وحشتناک دریافت میکنند، به منظور جلوگیری از تولید تصاویری نامناسب مانند سوءاستفاده جنسی از کودکان در Dall-E استخدام شدهاند.
هنرمندان در برابر هوش مصنوعی
اما پرسش این است که وضعیت معیشتی هنرمندان چگونه خواهد بود؟ واقعیت این است که هیچ تصویرگری نمیتواند به اندازه کافی سریع و با هزینه کم کار کند تا بتواند با رباتهای تولیدکننده تصاویر رقابت کند. مازریا کاتز و مالی کراپابل در این زمینه کاملاً درست میگویند.
بهراستی زمانی که ادعا میشود «اگر این فناوری بدون نظارت رها شود، به طور جدی روزنامهنگاری را دگرگون خواهد کرد»، تصویری خوشبینانه از این حوزه به نمایش گذاشته میشود. آیندهای که آنها از آن نگرانند، جایی است که تنها تعداد محدودی از هنرمندان قادر به ادامه فعالیت خواهند بود و آثارشان به نمادی از ثروت تبدیل میشود. در واقع، این وضعیت هماکنون در حال شکلگیری است؛ بهطوری که بسیاری از نشریات و احتمالاً بیشتر آنها، پرداخت دستمزد مناسب برای تولید یک تصویر سفارشی را هزینهای غیرقابل توجیه میدانند.
آنها میپرسند چرا باید برای تصاویر هزینه کنیم در حالی که گزینههای آماده و ارزانقیمت زیادی در دسترس است؟ یا میمهایی که به راحتی قابل کپی هستند، تصاویر رایگان و منبعباز که میتوان از ویکیمدیا دانلود کرد، یا کلیپ آرتهایی که به سادگی قابل استفادهاند و آثار هنرمندانی که برخی افراد بدون اجازه از آنها اسکرینشات میگیرند؟
واقعیت این است که بسیاری از نشریات و کسب و کارهایی که هنوز به سفارش آثار اصلی میپردازند، به جای استخدام مستقیم طراحان، مدتهاست که از طریق پلتفرمهای آنلاین مانند Fiverr این کار را انجام میدهند، جایی که خدمات بهصورت آزاد و با هزینه کمتر ارائه میشود.
بهترین روش برای حمایت از حقوق کارگران در زمینه تصویرسازی، تغییر دادن شرایط به نفع آنهاست. در واقع، افرادی که در تولید تصاویر جذاب و مؤثر تخصص دارند، از جمله تصویرگران، هنرمندان، عکاسان و ویرایشگران عکس، باید به نحو احسن از سیستمهای هوش مصنوعی بهرهبرداری کنند.
بهعنوان نمونه، مجله Wired بهعنوان اولین نشریه در ایالات متحده که سیاست رسمی در زمینه هوش مصنوعی را ارائه کرده، این مفهوم را در راهنماهای خود لحاظ کرده است. در این سیاست ذکر شده است که «برخی از هنرمندان در حال حاضر از هوش مصنوعی مولد بهعنوان بخشی از فرآیند خلاقانه خود استفاده میکنند، بهگونهای که مشابه دیگر ابزارهای دیجیتال به کار گرفته میشود».
Wired همچنین اعلام کرده است که «این هنرمندان را به کار خواهد گرفت، به شرطی که آثار آنها شامل ورودی خلاقانه معناداری باشد و به طور واضح آثار دیگران را تقلید نکند یا حقوق مالکیت معنوی را نقض نکند. در این موارد، ما به طور شفاف اعلام خواهیم کرد که از هوش مصنوعی مولد استفاده شده است».
علاوه بر این، این نشریه تأکید کرده است که به جای استفاده از عکسهای موجود در آرشیو، از تصاویر تولید شده با هوش مصنوعی بهره نخواهد برد، زیرا «فروش تصاویر به آرشیوهای استوک، یکی از منابع درآمد بسیاری از عکاسان به شمار میرود». همچنین میتوانید بیانیه The Guardian درباره رویکرد آن نسبت به هوش مصنوعی مولد را مطالعه کنید.
همانطور که لپتاپها، دوربینها و قلمموها ابزارهایی هستند که کارایی واقعی آنها به مهارت و دانش کاربر وابسته است، مدلهای هوش مصنوعی مولد نیز از این قاعده مستثنی نیستند. این ابزارها توسط انسانها طراحی و نگهداری میشوند، بنابراین باید در فرآیند تولید تصویر و مباحث مربوط به معیشت مورد توجه قرار گیرند.
در حقیقت، به جای اینکه این ابزارها را «هوش مصنوعی» بنامیم، من ترجیح میدهم آنها را «هوش بیگانه» یا «هوش alienated» خطاب کنیم. این نوع هوش نشاندهنده این است که انسانیت نه تنها جعلی یا ساختگی نیست، بلکه به طور پنهانی، برونسپاری و ترکیب شده است. به عبارت دیگر، انسانیت در الگوریتمهایی تجلی یافته که سعی دارند به تدریج آن را اصلاح و آموزش دهند.
من بهخوبی درک میکنم که «مزیریا کاتز» و «کرباپل» چه احساسی دارند. دزدیده شدن سبکی که با زحمت بهدست آمده، واقعاً نشانهای از بیاحترامی است. میخواهم باور کنم که در تصاویری که با هوش مصنوعی تولید میشوند، چیزی واضح و ارزشمند گم شده است؛ چیزی به نام «دست»، که به نقصهای ظریف و ویژگیهای انسانی اشاره دارد و در این آثار هنری به طور کامل ناپدید شده است.
با این حال، من در بسیاری از آزمونهای آنلاین شرکت کردهام که ادعا میکنند میتوانند توانایی تشخیص بین تصاویر تولید شده با هوش مصنوعی و عکسها یا نقاشیهای واقعی را ارزیابی کنند. باید بگویم که در این آزمونها نتایج خوبی کسب نکردهام. این آزمونها به گونهای طراحی شدهاند که تشخیص تفاوتها را دشوار میکنند، زیرا بهترین خروجیهای تولیدکننده را در برابر آثار هنری واقعی قرار میدهند. به طور کلی، با توجه به تجربیاتم به عنوان طراح گرافیک، مربی طراحی و ویراستار در یک نشریه هنری، انتظار داشتم که بتوانم این تفاوتها را تشخیص دهم. بنابراین، در این شرایط، نشانههای غیبت انسانیت در این تصاویر کجاست؟
در روزهای ابتدایی استفاده از ابزارهای تولید تصویر مانند Dall-E، Stable Diffusion و Midjourney، نقاط ضعفی در تصاویر تولید شده مشاهده میشد. به عنوان نمونه، دستهای نامنظم، تکرار مکرر برخی جزئیات، تمایل به قرارگیری عناصر در مرکز تصویر و اشتباهات فیزیکی به وضوح نشان میداد که این تصاویر حاصل کار هوش مصنوعی هستند.
این نقاط ضعف به ما امکان میداد تا به سادگی تصاویر تولید شده توسط هر یک از این ابزارها را شناسایی کنیم. اما با پیشرفت فناوری و معرفی نسلهای جدید این ابزارها، شناسایی این نشانهها و نقاط ضعف دشوارتر و در برخی موارد حتی غیرممکن شده است.
عصر «مهندسی پرامپت»
ابزارهای هوش مصنوعی که برای تبدیل متن به تصویر و بالعکس طراحی شدهاند، بر پایه پردازش زبان طبیعی عمل میکنند. با این حال، زبانی که برای دستیابی به بهترین نتایج به کار میرود، معمولاً از حالت «طبیعی» فاصله دارد. دستور زبانی که در این زمینه استفاده میشود، به قدری خاص و منحصر به فرد است که منجر به شکلگیری بازار جدیدی برای افرادی به نام «مهندسان پرامپت» شده است. همچنین، وبلاگها و ویدئوهای آموزشی با عنوان «راهنمای نوشتن پرامپت» در فضای مجازی به شدت مورد توجه قرار گرفتهاند.
بسیاری از راهنماها برای نوشتن پرامپتهای مؤثر از یک ساختار سهگانه بهره میبرند که شامل یک موضوع، یک توصیف و یک سبک یا زیباییشناسی تصویر است. در این ساختار، بخش «توصیف» معمولاً به صورت یک عبارت در زمان حال ارائه میشود. به عنوان مثال، میتوانید بنویسید: «گربهای که در حال نوشیدن قهوه است» یا «سگ بولداگی که در اقیانوس شنا میکند».
زمانی که به «سبک یا زیباییشناسی» تصویر میپردازیم، وضعیت کمی پیچیدهتر میشود. تعیین اینکه کدام نوع سبک مناسب است، کار آسانی نیست. به عنوان مثال، عبارات مانند «پوستر حماسی» یا «کارتون خندهدار» میتوانند به عنوان سبکهای خاص شناخته شوند. همچنین، عبارت «تصویر قابلاستفاده» به تصاویری اشاره دارد که میتوانند به عنوان میمهای قابل سفارشیسازی به کار روند، به این معنا که میتوانند با افزودن متن یا تصاویر اضافی تغییر کنند. البته این توصیفها معمولاً در هنگام ایجاد سبکهای بصری به ذهن نمیآید.
عباراتی که به عنوان اصطلاحات مختصر برای نوشتن درخواستها در زمینه هوش مصنوعی به محبوبیت رسیدهاند، شامل «رترو»، «عکاسی محصول»، «عکاسی غذا»، «بسیار دقیق»، «شاهکار هنر دیجیتال»، «رندر C4D»، «رندر اوکتان» و «پرطرفدار در ArtStation» میباشند. نامهای خاص نرمافزارها نیز به سرعت به صفات تبدیل شدهاند. به عنوان مثال، Cinema4D که نرمافزاری برای مدلسازی سهبعدی است و به اختصار C4D نامیده میشود، و Octane که نرمافزار رندرینگ گرافیکی است، در این دسته قرار دارند. همچنین، ArtStation به عنوان پلتفرمی برای نمایش آثار طراحان بازی و انیماتورها نیز به همین شکل مورد استفاده قرار میگیرد.
علاوه بر این، نام هنرمندان بیشتر به منظور دستیابی به یک سبک بصری مورد استفاده قرار میگیرد تا صرفاً تقلید از آثار آنها. به طور کلی، ما عادت داریم از نامهای خاص به عنوان نمادهایی برای دورهها و سبکها بهره ببریم (مانند لوئی چهاردهم، باهاوس و استودیو ۵۴). اکنون این روند در زبان درخواستها شتاب بیشتری به خود گرفته است. در حال حاضر، وبسایتهایی وجود دارند که هزاران سبک تصویری را بر اساس نام هنرمندان، به ویژه هنرمندان دیجیتال و طراحان مفهومی، فهرست کردهاند.
نوشتن درخواستها به یادگیری اصطلاحات و درک پدیدههای بصری مختلفی که با آنها مرتبط هستند، بستگی دارد. این پدیدهها شامل موضوعات، ویژگیهای بصری، رسانهها و سبکهای ترکیببندی میباشند. در حالی که نوشتن درخواست به سرعت به یک مهارت ارزشمند در بازار کار تبدیل میشود، هنوز بسیاری از جزئیات داخلی الگوریتمهای یادگیری عمیق برای حتی پیشرفتهترین مهندسان نیز به طور کامل قابل درک نیستند.
«سام باومن»، مدیر یک آزمایشگاه تحقیقاتی هوش مصنوعی در دانشگاه نیویورک، بیان کرده است که حتی کارشناسانی مانند او نیز قادر به شناسایی مفاهیم یا «قواعد استدلالی» به کار رفته در بسیاری از این سیستمهای پیچیده نیستند. او با صراحت گفت: «ما این سیستم را طراحی و آموزش دادهایم، اما از عملکرد واقعی آن آگاهی نداریم.»
چالشهای ترجمه و تفسیر در تولید تصویر با Dall-E 2
تقریباً در اکتبر ۲۰۲۲، Dall-E 2 در فهم معنا و ترتیب کلمات با چالشهایی مواجه بود، بهویژه زمانی که صفتها یا عبارات توصیفی به اسمها یا فعلها نسبت داده میشدند. به عنوان مثال، اگر از Dall-E 2 میخواستید «یک ماهی و یک شمش طلا» را تولید کند، معمولاً تصویری از یک ماهی طلایی به شما ارائه میداد که اغلب همان «ماهی طلایی» معروف بود، بهطوری که به نظر میرسید در حال انجام یک بازی کلامی است.
Dall-E 2 همچنین به کلمات با معانی مختلف که نوشتار یکسانی دارند، توجه داشت. به عنوان مثال، وقتی درخواست «یک خفاش در حال پرواز بالای یک استادیوم بیسبال» داده میشد، تصویری کارتونی و شاداب از استادیوم بیسبال تولید میکرد که در آن همزمان یک توپ بیسبال، یک چوب بیسبال و همچنین یک خفاش (به معنای حیوان) در حال پرواز بودند. مشکل اینجا بود که کلمه «خفاش» به دو نوع تصویر متفاوت مرتبط میشود و هوش مصنوعی نمیتوانست تصمیم بگیرد کدام یک را انتخاب کند، بنابراین هر دو را در تصویر به نمایش میگذاشت.
در مقالهای که توسط راسین و همکارانش نگاشته شده، به چالشی که در ترجمههای زبانی به تصویری وجود دارد، پرداخته شده است. آنها این چالش را به عنوان «نشت معنایی ویژگیها میان موجودات» معرفی کردهاند. به عبارت دیگر، زمانی که یک عبارت یا واژه دارای معانی متعدد است، سیستم هوش مصنوعی قادر به اتخاذ تصمیم مناسب در انتخاب معنی صحیح نیست.
به عنوان مثال، در تصاویری که با عبارت «یک بچهخفاش در حال پرواز بالای یک استادیوم بیسبال» تولید میشود، هر دو مفهوم «بچهخفاش» (حیوان) و «چوب بیسبال» (ابزار) در تصویر نمایان میشوند. این موضوع به این دلیل است که واژه «خفاش» هم به موجود زنده و هم به ابزار ورزشی اشاره دارد، بنابراین هوش مصنوعی هر دو را به تصویر میکشد، زیرا نمیتواند یکی را به طور خاص انتخاب کند.
در این تصویر، خفاش به گونهای به تصویر کشیده شده که گویی از چوب بیسبال بهره میبرد. همچنین، یک شکل سفید شبیه به اشک در کنار آن وجود دارد که نمایانگر لبخند و شادی خفاش است.
در سمت چپ خفاش، یک ابر خاکستری و یک صاعقه در آسمان آبی نمایان شدهاند. نویسندگان مقاله توضیحی درباره دلیل اضافه شدن صاعقه به تصویر ارائه نمیدهند، اما من حدس میزنم که این ممکن است به این خاطر باشد که خفاشها معمولاً در تصاویری که به جادوگران مربوط میشوند، حضور دارند. (جادوگران به واسطه جادو و صاعقه شناخته میشوند)
صاعقه نمونهای از آنچه Rassin و همکارانش به عنوان «تحریکات مرتبه دوم» معرفی میکنند، به شمار میآید. این مفهوم به تداعیهایی اشاره دارد که در زبان و تصاویر وجود دارند و معمولاً از دید ما پنهان میمانند. به عنوان مثال، زمانی که از Dall-E 2 درخواست میکنید تصویری از یک آرمادیلو در کنار ساحل بسازد، معمولاً علاوه بر آرمادیلو، چند صدف نیز در تصویر ظاهر میشود. این امر به ارتباطاتی که این مدل بین مفاهیم مختلف برقرار میکند، مربوط میشود. به عنوان نمونه، وقتی به «آرمادیلو» فکر میکنیم، ممکن است واژههایی مانند «پستاندار»، «زره «، «توپ» و «صدف» به ذهن خطور کند. این تداعیها باعث میشود که Dall-E 2، صدفها را نیز به تصویر اضافه کند.
در عوض، اگر از این مدل درخواست کنید که تصویر «سگ در کنار ساحل» ایجاد کند، تنها یک ساحل ساده بدون صدفها را به نمایش میگذارد. این «نشت» ویژگیها موجب میشود که برخی تصاویر غیرمنطقی یا حتی مضحک به نظر برسند. همچنین، این موضوع معمولاً به عنوان نشانهای از ضعف یا عدم دقت کافی این ابزارهای تولید تصویر مطرح میشود.
نمیتوان «نشت معنایی» را به سادگی نشانهای از نادرستی فناوری دانست، بلکه این موضوع نشاندهنده حساسیت بالای آن است. به عنوان مثال، زمانی که از Dall-E 2 خواسته میشود «یک پرنده بلند با پاهای بلند و گردن بلند و یک محل ساخت و ساز را به تصویر بکشد، نتیجه نهایی تصویری است که هم شامل یک «کرین» (پرنده) و هم یک «کرین» (جرثقیل ساختمانی) میشود. در نگاه اول ممکن است این را بهعنوان یک خطا تلقی کنیم و احتمالاً مهندسان نرمافزار نیز در تلاش برای حل این مشکل هستند، اما در واقع این یک پیوند زبانی پیچیده و دقیق است. این مثال به نوعی به مشکل «همآوا»ها اشاره دارد، زیرا کلمه «کرین» (جرثقیل یا پرنده) در درخواست شما ذکر نشده است، اما به دلیل شباهتهای معنایی و آوایی، هوش مصنوعی هر دو معنا را به تصویر اضافه میکند.
با وجود تمامی تعصبات و الگوهایی که هوش مصنوعی به نمایش میگذارد، این ابزارها همچنین جنبههای ظریف و ابهامات زبان را نیز نمایان میکنند. به ویژه در زبان انگلیسی، تعداد زیادی واژه همصدا و هممعنا وجود دارد که ممکن است باعث سردرگمی شوند. فناوریهای نوینی مانند چاپ، دوربین و تصویربرداری ماهوارهای که برای تولید تصویر به کار میروند، شیوهی درک ما از جهان را دگرگون میسازند و این تغییرات میتوانند بر رفتارهای ما تأثیر بگذارند. بنابراین، پرسش این است: این تصاویر تولید شده توسط الگوریتمها چه چیزی را به ما میآموزند تا ببینیم، بگوییم و انجام دهیم؟
در ژانویه 2024، ابزارهای هوش مصنوعی که قادر به تبدیل متن به تصویر هستند، به طور روزانه حدود 34 میلیون تصویر تولید میکردند. هرچند این رقم هنوز نسبت به تعداد عکسهای دیجیتال بسیار کم است، اما به نظر میرسد که این وضعیت به زودی تغییر خواهد کرد. بنابراین، بهتر است از این پس فرض کنید که هر تصویری که مشاهده میکنید، احتمالاً توسط هوش مصنوعی ایجاد شده است.
ویژگی بارز این تصاویر، نه فقدان احساس انسانی، بلکه وفور و غنای آنهاست. در واقع، این تصاویر شامل تمامی اطلاعات انسانی، تاریخچه و ویژگیهای زبانی موجود در خود هستند که دوباره تولید میشوند. هر فردی که دستوری برای تولید تصویر صادر میکند، زنجیرهای وسیع از همکاریها را با هنرمندان، پژوهشگران و کاربران اینترنت شکل میدهد. این همکاریها در زمانها و مکانهای مختلف به یک بازی بزرگ و مداوم تبدیل میشود.
چه بخواهیم و چه نخواهیم، همه ما (چه کسانی که پیش از ظهور این فناوریها به خلق تصویر میپرداختند و چه هنرمندانی که به استفاده از هوش مصنوعی روی آوردهاند) باید بیاموزیم که چگونه در این عرصه مشارکت کنیم.