بررسی مفهوم «جعبه سیاه» هوش مصنوعی بهعنوان عامل نحوه عملکرد مدلها و علت اهمیت آن
راجع به مدلها؛ میدانیم که هنوز نمیدانیم
تصمیماتی که هوش مصنوعی میگیرد، پاسخهایی که تولید میکند، تصاویری که میسازد در نگاه اول بسیار جذاب و هیجانانگیز هستند؛ اما وقتی آنها را دقیقتر بررسی کنیم، میفهمیم که اصلاً نمیدانیم چرا و چگونه مدل به چنین نتیجه و پاسخهایی رسیده است.
در طول تاریخ هرگاه یک پدیده را نتوانستیم درک کنیم، بفهمیم و توضیح دهیم؛ صرفا برای خلاصشدن از شر تلاش برای درکش، گاهی به آن برچسب جادو و ماورایی زدیم و گفتیم «درک چنین چیزی از ظرف ذهن انسان خارج است». اما فناوری ساخته دست بشر است و منطقا، سازنده یک ابزار فناورانه میبایست ابتدا نحوه کار آن ابزار را بفهمد و درک کند تا بتواند آن را بسازد. اما مدلهای هوش مصنوعی و به خصوص هوش مصنوعی مولد، شاید مثال نقضی برای این اصل و باور ریشهای باشند. در ادامه و با گریزی به منابعی مانند Time، Forbes، IMB، The Bulletin، Umdearborn و Axios به بررسی مفهوم «جعبه سیاه» (Black Box) هوش مصنوعی و توضیحپذیری آن میپردازیم.
شوخیای که جدی شد
فرض کنید شرکتی مثل «فراری» نداند و نتواند توضیح دهد که چرا و چگونه موتور خودرویی که ساخته، روشن میشود. یا از یک پزشک درباره علت تجویز استامینوفن برای درمان سرماخوردگی سؤال کنید؛ ولی او نتواند توضیح دهد که چرا این دارو برای این بیماری مفید است. فرقی ندارد چه در جایگاه سازنده یک فناوری باشید یا چه در جایگاه متخصصی که آن را پیشنهاد میدهد؛ اگر نتوانید سایر افراد را بهخوبی از نحوه کارکرد آن آگاه کنید، نهتنها تخصص خود را زیر سؤال میبرید؛ بلکه سبب بیاعتماد افراد به آن فناوری نیز خواهید شد. حتی اگر در جایگاه کاربر هم باشید، وقتی بدانید چه اتفاقی میافتد که موتور خودروتان روشن میشود یا استامینوفن چطور به جنگ ویروسهای سرماخوردگی میرود، احساس خوبی نسبت به استفاده از آن پیدا میکنید و راحتتر آن را میپذیرید.
هر فناوری و ابزاری که بشر تا کنون ساخته، یک دفترچه راهنما از نحوه کار و استفاده همراه خود داشته است. تقریباً غیرمنطقی به نظر میآید اگر ادعا کنیم یک متخصص علت تصمیمی که میگیرد یا نحوه کار ابزاری که میسازد را نداند و نتواند آن را توضیح دهد. در حرفه برنامهنویسی همیشه با این موضوع شوخی میشود که حتی خود برنامهنویس هم نمیداند چرا و چطور کدی که نوشته کار میکند. این موضوع تا چند سال پیش؛ اگر دقیقتر بخواهیم بگوییم دقیقاً تا قبل از انتشار عمومی ChatGPT، صرفاً فقط یک شوخی بامزه و بسیار رایج بود و شاید چندان جدیتی در آن وجود نداشت.

اما مدلهای هوش مصنوعی مولد وقتی در دسترس عموم مردم و سازمانها قرار گرفتند و از اطلاعات و دادههای شخصی تغذیه کردند، موضوع شفافیت و توضیحپذیری هوش مصنوعی (Explainable AI – XAI) بهعنوان یک چالش جدی و جدید مطرح شد. اگر ادعا کنیم که هوش مصنوعی حداقل در طی ۵ سال اخیر، شیوه زندگی روزمره و حرفهای ما را تغییر داده است؛ پر بیراه نگفتهایم. اما برخلاف خودرویی که روشن میشود یا استامینوفنی که سرماخوردگی را درمان میکند، تقریباً هیچیک از کاربران عادی ابزارهای هوش مصنوعی نمیدانند که این مدلها چطور کار میکنند. ماجرا وقتی ترسناکتر میشود که بدانیم حتی خود سازندگان و توسعهدهندگان هم هنوز نمیدانند و نتوانستهاند توضیح دهند که این مدلها چگونه و چطور کار میکنند و تصمیم میگیرند.
میبینیم ولی نمیفهمیم
وقتی بهعنوان کاربر از یک ابزار خاص یک نرمافزار استفاده میکنید، حتی اگر برای دفعه اول هم باشد احتمالاً میدانید نتیجه دقیق آن چه خواهد بود. زیرا هر اقدام کاربر، منجر به نتیجهای ازپیشتعیینشده میشود که توسط توسعهدهندگان، خطبهخط در کد منبع برنامه نوشته و درج شده است. اما سامانههای مبتنی بر هوش مصنوعی، بهویژه مدلهای زبانی بزرگ، به شکلی کاملاً متفاوت ساخته شده و عمل میکنند.
LLMها از طریق فرایندهای یادگیری پیچیده و با آموزش روی حجم عظیمی از دادهها، الگوها را شناسایی و پاسخ را تولید میکنند. سازوکار دقیق اینکه چتباتها یا مدلهای تولید تصویر چگونه کلمه یا تصویر مناسب را میسازند، هنوز هم تا حدی حتی برای سازندگان هم مبهم و نامشخص است؛ زیرا توسعهدهندگان این سامانهها را بهصورت گامبهگام برنامهنویسی نکردهاند. در طی یک دهه اخیر که بحث مدلهای هوش مصنوعی مولد داغ شده؛ این ابهام و عدمتوضیحپذیری، مسئلهای تحت عنوان «جعبه سیاه» هوش مصنوعی را در جوامع علمی و فناوری مطرح کرده است.
چالش «جعبه سیاه» در هوش مصنوعی به ماهیت ذاتی سامانههای پیشرفته هوش مصنوعی، بهویژه مدلهای یادگیری عمیق و یادگیری تقویتی در LLMها، اشاره دارد که در آن فرایندهای تصمیمگیری داخلی مدل برای کاربران یا حتی خود توسعهدهندگان شفاف یا قابلدرک نیست. کاربران ورودیها و خروجیها را میبینند، اما نمیتوانند فرایندهای داخل «جعبه بسته هوش مصنوعی» (سامانههای محاسباتی پیچیدهای که تا حدودی از مغز انسان الهام گرفتهاند) که آن خروجیها را تولید میکند، درک کنند.
این مشکل از اهمیت بالایی برخوردار است؛ زیرا سبب بیاعتماد کاربران شده، تهدیدهای اخلاقی و امنیتی قابلتوجهی را به همراه دارد، فرایند نظارتی و کنترل انسانی را پیچیده میکند و میتواند منجر به نتایج غیرقابلپیشبینی یا مغرضانه و با سوگیری شود. اما ماهیت چالش جعبه سیاه عمدتاً یک اثر جانبی طبیعی از روند آموزش پیچیده مدلهای پیشرفته است، نه یک پنهانکاری عمدی از سوی توسعهدهندگان. بهجرئت میتوان گفت در طول تاریخ علموفناوری، تاکنون هیچ چالشی نبوده که تا این حد غیرقابلتوضیح و نفهمیدنی بوده باشد.

چرا نمیفهمیم؟
علت اصلی ماهیت چالش جعبه سیاه، شیوه یادگیری مدلهای هوش مصنوعی است که از نظریههای هوش انسانی الهامگرفته شدهاند. برخلاف سیستمهای نرمافزاری سنتی که از دستورالعملهای واضح و از پیش نوشتهشده انسان پیروی میکنند؛ مدلهای هوش مصنوعی و بهویژه LLMها و شبکههای عصبی مصنوعی، با تغذیه مکرر و پیوسته از حجم عظیمی از دادهها، الگوها را خودآموز یاد میگیرد، پیکربندیهای داخلی و فرایندهای تصمیمگیری خود را، خودشان توسعه میدهد. چنین فرایندهایی مستقیماً برنامهنویسی نشده و بهراحتی نیز قابل رمزگشایی نیستند. در جعبه سیاه این شبکههای عصبی، میلیونها لایه پنهان و میلیاردها «نورون» مصنوعی حضور دارند که پیوسته در حال ارتباط با هم، وزندهی و وزنگیری هستند و هیچکس واقعاً نمیداند معنی آنها چیست یا چگونه کار میکنند. توسعهدهندگان نیز نمیتوانند فعالیت درون هر لایه پنهان شبکه عصبی را هنگام فعالبودن تکتک نورونهای مدل بفهمند و تفسیر کنند.
اینطور نیست که صرفاً چون مدلهای هوش مصنوعی پیشرفته پیچیدهاند یا وقت و انرژی زیادی برای رمزگشایی نیاز دارند، نمیتوانیم آنها بفهمیم. موانعی در این مسیر فهمیدن وجود دارند که گاهی حتی خود انسان آنها را بر سر راه قرار میدهد.

پنهانکاری
حتی مدلهای هوش مصنوعی منبعباز، با وجود بهاشتراکگذاری کد مرجع خود، به دلیل پیچیدگی شبکه عصبی، باز هم یک جعبه سیاه باقی میمانند. چالش «جعبه سیاه» یک حالت واحد، پایدار و یکپارچه نیست، بلکه طیفی وسیعی از نادیدهها را شامل میشود.
برخی از توسعهدهندگان هوش مصنوعی عمداً به هدف انحصار حق مالکیت فکری، عملکرد داخلی ابزارهای هوش مصنوعی را قبل از انتشار عمومی پنهان میکنند. در این پنهانکاری عمدی، سازندگان میدانند که سیستم چگونه کار میکند؛ اما کد منبع و فرایند تصمیمگیری را محرمانه نگه میدارند. بسیاری از الگوریتمهای هوش مصنوعی سنتی و مبتنی بر قانون به همین دلیل یک جعبه سیاه هستند. اما بسیاری از فناوریهای پیشرفته هوش مصنوعی، از جمله ابزارهای هوش مصنوعی مولد، در نتیجه اجرای مکرر فرایندهای آموزشی پیچیده، خودشان به یک «جعبههای سیاه طبیعی» تبدیل میشوند. توسعهدهندگان آنها دیگر عمداً عملیاتهای خاص آنها را پنهان نمیکنند؛ بلکه سیستمهای یادگیری عمیقی که این مدلها را توسعه میدهند و تقویت میکنند، آنقدری پیچیده هستند که حتی خود سازندگان نیز به طور کامل درک نمیکنند که در داخل آنها چه اتفاقی میافتد. این امر در خصوص مدلهای زبانی بزرگ بسیار رایج است.
این وضعیت به این معنی است که چالش اصلی، دسترسی به کدهای مرجع مدل نیست؛ بلکه در محدودیتهای شناختی و محاسباتی برای درک رفتارهای جدید در سیستمهای عصبی و غیرخطی نهفته است. بنابراین، راهحلها نیز باید متناسب باشند؛ برای پنهانکاری عمدی، چارچوبهای قانونی و نظارتی ممکن است کافی باشند، اما برای جعبههای سیاه ذاتی مدل، تحقیقات بنیادی در زمینه قابلیت تفسیرپذیری و طراحیهای معماری جدید ضروری است که نیازمند به یک رویکرد چندوجهی است.
بیقانونی
توسعهدهندگان هوش مصنوعی غالباً قوانین صریحی برای طراحی و توسعه مدلها نمینویسند؛ در عوض، مدل را با حجم عظیمی از دادهها بمباران میکنند و مدل بهناچار مجبور است خودش بهتنهایی الگوها را تشخیص دهد و یاد بگیرد. ازاینرو مدلهای یادگیری عمیق اساساً توانایی «ردیابی» ورودیهای خاصی که منجر به نتایج خاص شدهاند را ندارند؛ زیرا اصلاً هرگز برای چنین کاری طراحی نشدهاند؛ چنین رفتاری درست شبیه به رفتار انسانی که چیزی را میدانند اما نمیتواند توضیح دهد که چگونه آن را میدانند.
خودکامگی
از سوی دیگر، مدلهای پیشرفته هوش مصنوعی، معماری ساختار و پیکربندی درونی خود را عمدتاً نه بر پایه دستورهای برنامهنویسی صریح، بلکه بر اساس دادههای ورودی شکل و توسعه میدهند. این ویژگی، نوعی همارزی و تشابه میان شناخت انسان و هوش مصنوعی پیشرفته را نشان میدهد که هر دو میتوانند بدون آگاهی صریح از سازوکارهای بنیادی خود، عملکردی قابلقبول از خود نشان دهند. این پدیده نه یک کاستی، بلکه ویژگی ذاتی در فرایند پیچیده یادگیری است. از همین رو، دستیابی به شناخت دقیق و شفافیت کامل ممکن است ذاتاً با محدودیتهایی از سوی ماهیت خود هوش، چه بیولوژیکی و چه مصنوعی، مواجه باشد. بنابراین، رویکرد XAI شاید نیازمند آن باشد که بهجای تمرکز بر شناخت و شفافیت کامل (مانند مشاهده و ردگیری عملکرد همه لایههای پنهان و تکتک نورونها)، صرفاً بر ارائه قابلیت استنتاج متمرکز شود؛ یعنی تفسیری که بتواند دلایل تصمیمگیری مدل را در سطوحی انتزاعی و قابلفهم برای انسان توضیح دهد و همراستا با توانمندیهای شناختی انسان و الزامات اعتماد، مسئولیتپذیری و پاسخگویی باشد.

ازدحام
اندازه بزرگ و پیچیدگی محض LLMها، تعداد غیرقابلدرک متغیرها و این واقعیت که حتی ایجاد تغییرات جزئی در ساختار معماری آنها میتواند به پدیدههایی غیرقابلتوضیح مانند پاسخهای غلط و توهم (Hallucination) منجر شود، نشان میدهد که با رشد تصاعدی این مدلها، حجم پارامترهای در تعامل با مدل چنان عظیم میشود که روشهای سنتی خطایابی یا درک و تحلیل رفتار سیستم دیگر پاسخگو نیستند. مسئله صرفاً فقط مربوط به یک برنامه خیلی بزرگ نیست؛ بلکه با سیستمی مواجهیم که فضای حالت درونی آن بهقدری وسیع است که نهتنها برای درک شهود انسانی، بلکه حتی برای ابزارهای محاسباتی کنونی نیز غیرقابلپیمایش است. مشاهدات مربوط به تغییرات معماری داخلی مدلهایی که به رفتارهای غیرقابلپیشبینی منجر میشوند، حکایت از آن دارند که حتی توسعهدهندگان نیز در حال ازدستدادن کنترل دقیق و پیشبینیپذیری عملکرد این مدلها هستند. این پیچیدگی فزاینده به این معنی است که سیستمهای آینده هوش مصنوعی ممکن است در توسعه «دانش درونی» خود کاملاً مستقل عمل کنند. چنین روندی بدون پیشرفتهای بنیادین در قابلیت تفسیر یا معماریهای نوین، میتواند نظارت و کنترل مؤثر انسانی را به چالشی جدی و رو به وخامت تبدیل کند.
چرا باید نفهمیدی را بفهمیم؟
شاید در جایگاه کاربر، درک کامل نحوه عملکرد یک ابزار پیچیده چندان لازم نباشد؛ اما در جایگاه سازنده و طراح اهمیت بسیار زیادی دارد. دوباره به مثال فراری و خودرویی که ساخته برگردیم. اگر مهندسان فراری ندانند موتوری که طراحی کردهاند چگونه کار میکنند؛ آیا میتوانند در صورت خرابی آن را تعمیر کنند؟ آیا میتوانند پس از مدتی آن را بهخوبی ارتقا دهند؟ اصلاً آیا دیگر میتوان به فراری و خودروهایش بهعنوان یک برند تجاری و محصول اعتماد کرد؟ لذا شناخت مشکلاتی که ناشی از عدم درک و شناخت یا همان نفهمیدن هستند، اولین قدم برای فهمیدن راهحل است

نظارت
شناخت و درک عملکرد درونی مدلهای هوش مصنوعی ازاینجهت اهمیت دارد که میتواند امکان نظارت، کنترل و مداخلات هدفمند انسانی را فراهم کند. اما عدم توانایی در ردیابی فرایند فکری یک مدل، درک چرایی تصمیمات را غیرممکن کرده و مانع جلوگیری از تولید نتایج ناخواسته میشود. اگر سازندگان دقیقاً درک نکنند که چرا پیشرفتهترین ساختههایشان اینگونه رفتار میکنند، چنین چیزی به طور اساسی پارادایم سنتی مهندسی کنترل و پیشبینیپذیری را به چالش میکشد. این چالش صرفاً فقط در مورد یک دستگاه پیچیده نیست؛ بلکه در مورد سیستمی است که منطق اصلی آن برای انسان غیرقابلفهم شده است.
شفافیت
این عدم درک بیسابقه یا به زبان ساده نفهمیدن، چالشی فراتر از مشکلات معمول نرمافزاری است که در نهایت منجر به عدم اطمینان در مورد قصد یا استدلال ظاهراً منطقی مدلهای هوش مصنوعی خواهد شد. ایجاد اعتماد در چنین سیستمهایی نیازمند پارادایمهای کاملاً جدیدی از اعتبارسنجی و تضمین کیفیت است که بهجای روشهای سنتی، از شیوههای جدیدی مانند XAI استفاده میکند که هدفش ارائه برخی استدلالها و بینشها است، حتی اگر شفافیت کاملی نداشته نباشد.
اخلاق
مدلهای یادگیری عمیق، سوگیریهای پنهان در دادههای آموزشی، بهویژه زمانی که در جایگاه تصمیمگیرنده قرار دارد را تقویت میکنند. وقتی این سیستمها بدون توضیح منطقی دلایل خود تصمیماتی اتخاذ میکنند، چالشهای جدی در حوزه اخلاق هوش مصنوع ایجاد میشود. اگر یک سیستم یادگیری عمیق نتیجه نامطلوبی تولید کند؛ بهعنوانمثال، یک وسیله نقلیه خودران دیر ترمز کرده و با یک عابر پیاده تصادف میکند، ماهیت جعبه سیاه ردیابی فرایند فکری سیستم را برای درک چرایی این تصمیمگیری غیرممکن میکند. در وسایل نقلیه خودران، تصمیمات نادرست میتوانند کشنده باشند و درک اینکه چرا مدلهای پیچیده هوش مصنوعی تصمیمات بدی میگیرند و چگونه آنها را اصلاح کنیم، دشوار است.
انطباق
مشکل جعبه سیاه فقط درک آن نیست، بلکه قابلیت تعمیم و انطباق کامل آن در محیطهای پیچیده، باز و شرایط واقعی است. مدلها ممکن است در محیطهای آموزشی کنترلشده و غنی از داده، قدرتمند و بدون خطا باشند؛ اما در مواجهه با شرایط جدید یا کمی متفاوت در دنیای واقعی، به طور فاجعهباری شکست بخورند؛ زیرا استدلال داخلی مبهم آنها بهجای درک واقعی علتومعلولی صرفاً به همبستگیهای میان دادهها آموزشی تکیه میکند. لذا آزمایشهای دقیق و نظارت مستمر در محیط واقعی برای مدلهای هوش مصنوعی به جهت تقویت قابلیت تفسیرپذیری آنها نهتنها برای اشکالزدایی، بلکه برای تضمین اینکه مدل اصول اساسی و نه فقط الگوهای سطحی را بهدرستی یاد گرفته، ضروری است.

پیشبینی
اگر توسعهدهندگان درک نکنند که مدلهایشان چگونه کار میکنند، واقعاً نمیتوانند بفهمند که تا چقدر میتوانند باهوش یا مستقل شوند. خطاهای نرمافزاری سنتی اغلب قابلردیابی و با بازنویسی کدها قابلرفع هستند. اما مشکل جعبه سیاه یک مسئله سیستمی است که در آن، خود فرایند استدلال معیوب یا غیرقابلپیشبینی است. هوش مصنوعی مولد گاهی میتواند رفتارهای بسیار پیچیده، خطرناک و غیرقابلتوضیحی داشته باشد که صرفاً یک اشکال یا خطا نیستند، بلکه نشانههایی از وضعیت داخلی پیچیده آن هستند. این وضعیت نیازمند تغییر پارادایم در ایمنی هوش مصنوعی از خطایابی واکنشمحور به قابلیت تفسیر فعال و چارچوبهای حکمرانی قوی است که بتواند خطرات جدید و غیرقابلپیشبینی را پیشبینی و ریسک آن را کاهش دهد، حتی اگر منشأ دقیق آنها قابلشناسایی نباشد.
آسیبپذیری
عدم شفافیت مدلهای میتواند نقاط آسیبپذیری را پنهان کند. مدلهای هوش مصنوعی مولد مستعد حملات سایبری تزریق پرامپت و مسمومیت داده هستند که میتوانند به طور مخفیانه رفتار یک مدل را بدون اطلاع کاربر و توسعهدهنده تغییر دهند، زیرا این تغییرات در فرایندهای داخلی جعبه سیاه مدل قابلمشاهده نیست.
تنظیمگری
عدم درک هوش مصنوعی، تنظیم مقررات مؤثر را دشوار میکند و نگرانیهایی در مورد اینکه بازار داغ رقابت فناوری ممکن است به قیمت قربانی شدن امنیت و حریم خصوصی تمام شود را نیز به وجود میآورد. این خلأ اخلاقی، یک خلأ نظارتی نیز ایجاد میکند؛ زیرا قانونگذاران تلاش میکنند برای چیزی که درک نمیکنند قانونگذاری کنند و سازمانها هم نیز نمیتوانند خود را تطبیق دهند. فشار رقابت و جو الزام به نوآوری نیز این وضعیت را تشدید میکند و به طور بالقوه منجر به مسابقهای میشود که در آن ملاحظات امنیتی و اخلاقی ممکن است نادیده گرفته شوند. بنابراین، حکمرانی مؤثر هوش مصنوعی نیازمند یک رویکرد همگرایانه در سطح بینالمللی است که در آن راهحلهای فنی مثل XAI، یک قطبنمای اخلاقی است که به نوبه خود چارچوبهای نظارتی را شکل میدهند. بدون شفافیت، کل زنجیره پاسخگویی و مسئولیتپذیری، از توسعه مدل گرفته تا تأثیرات اجتماعی دچار هرجومرج میشود. لذا نهادهای نظارتی میبایست قابلیت تفسیرپذیری، بهویژه برای کاربردهای حساس، به جهت اطمینان از انطباق اخلاقی و قانونی، را به یک الزام قانونی تبدیل کنند.
چه کنیم تا بفهمیم؟
شفافیت مدلهای هوش مصنوعی، به یکی از چالشهای اصلی در مسیر توسعه ایمن و مسئولانه آنها تبدیل شده است. در این میان، هوش مصنوعی توضیحپذیر (XAI) بهعنوان راهکاری نوظهور مطرح میشود که هدف آن روشنکردن جعبه سیاه فرایندهای درونی مدلها و فراهمکردن امکان درک، کنترل و پاسخگویی است. رویکرد XAI به کاربران و توسعهدهندگان اجازه میدهد ببینند چگونه ورودیها به خروجیها منجر و تصمیمگیریها بر چه اساسی انجام میشوند.

یکی از پیشرفتهای مهم در این حوزه، فعالیت شرکت Anthropic بر روی مدل زبانی Claude است. Anthropic با تحلیل عمیق شبکه عصبی خود، موفق به شناسایی مجموعهای از نورونها شد که به مفاهیم خاصی واکنش نشان میدهند و با کنترل این ویژگیها توانست رفتار مدل را مستقیماً تغییر دهد. برای نمونه، با سرکوب نورونهایی که کدهایی بدون درنظرگرفتن مبانی امنیت سایبری مینوشتند، از تولید کدهایی ناایمن جلوگیری کرد. چنین اقدامی نشان میدهد که میتوان از مرحله مشاهده صرف فراتر رفت و با مداخله فعال، خطرات مدلها را شناسایی کرد و کاهش داد. اما بااینحال، این رویکرد بسیار هزینهبر و پیچیده است و برای شناسایی و تشخیص کامل ویژگیهای نورونهای بیشمار و لایههای پنهان، به توان محاسباتی بسیار زیادی نیاز است.
از دیگر ابزارهای XAI میتوان به LIME (توضیحات داخلی قابلتفسیر و مستقل از مدل – Local Interpretable Model-agnostic Explanations) اشاره کرد که از مدلهای سادهتر برای توضیح تصمیمگیریها و تحلیل داخلی یا محلی رفتار مدلهای پیچیده استفاده میکند. روش LIME با تمرکز بر یک پیشبینی خاص (Local)، یک مدل ساده مانند رگرسیون خطی را به طور محلی و موقت جایگزین مدل پیچیده در یک نقطه خاص میکند تا بتواند برای همان نمونه خاص و بدون نیاز به دانستن ساختار داخلی آن مدل پیچیده؛ توضیح دهد که کدام ویژگیها بیشترین تأثیر را بر نتیجه داشتهاند و چرا مدل اصلی چنین تصمیم خاصی گرفته است. همچنین برخی مدلها مانند o1 شرکت OpenAI اطلاعاتی درباره مسیر تولید پاسخها ارائه میدهند، گرچه همه مراحل تفکر مدل را نمایش نمیدهند؛ اما بهطورکلی، رویکردهای مختلفی برای تفسیرپذیر کردن مدلها درحالتوسعه است، اما هنوز هیچیک راهحلی جامع محسوب نمیشود.
در کنار رویکردهای فنی و حقوقی، حکمرانی مسئولانه هوش مصنوعی و تنظیمگری سیاستگذاران که در قسمت قبل به آن اشاره شد نیز از اهمیت بالایی برخوردار است. استفاده از ابزارهایی مانند پایش خودکار و امتیازدهی، هشدارهای عملکردی و قابلیتهای ممیزی برای اطمینان از ایمنی و انطباق با اصول اخلاقی از جمله این راهکارها هستند.
پر واضح است که هیچ راهکار واحدی برای حل مسئله شفافیت و امنیت در هوش مصنوعی کافی نیست. تنها با ترکیب تلاشهای فنی در حوزه XAI، مقررات دقیق و ابزارهای حکمرانی دادخ و هوش مصنوعی میتوان به توسعهای ایمن و مسئولانه امیدوار بود. آینده هوش مصنوعی قابلاعتماد به پیوند مستمر و بازخورد میان سه حوزه علم، سیاست و اخلاق بستگی دارد.
بفهمیم یا نفهمیم؟
نکته مهم این است که چالش «جعبه سیاه» در حال حاضر هنوز حل نشده است و تحقیقات بیشتری، بهویژه در زمینه مقیاسپذیری و رویکردهای XAI، برای تسهیل آن موردنیاز است. «نظریه فرود ایمن» (Safe Landing Theory) فرض میکند که اگر روزی هوش مصنوعی قدرتمندتر از توان درک و کنترل انسانی شود، تنها راه جلوگیری از فاجعه این است که جامعه انسانی مسیر توسعه این فناوریها را بهگونهای تنظیم کند که انتقال کنترل، تدریجی، شفاف، اخلاقمحور و ایمن باشد. به بیان سادهتر، اگر آینده به سمتی میرود که ماشینها تصمیمگیرنده اصلی میشوند، باید اطمینان حاصل کنیم که این «فرود» از کنترل انسانی به کنترل ماشینی، نرم، بدون برخورد و با کمترین آسیب اجتماعی، اقتصادی و سیاسی انجام شود.
استقرار سامانههای پیشرفته XAI اغلب به تلاش و توان محاسباتی بیشتری نسبت به ساخت خود مدل هوش مصنوعی نیاز دارند. این امر نشان میدهد که قدرت هوش مصنوعی از توانایی ما برای اطمینان از ایمنی و کنترل آن پیشی گرفته است؛ لذا اتخاذ یک رویکرد صرفاً واکنشی نسبت به ایمنی هوش مصنوعی و رفع مشکلات پس از وقوع آنها، اصلاً کافی نیست. سرمایهگذاری در تحقیقات نظری و آزمایشهای علمی قابلیت تفسیرپذیری، همکاری بینالمللی و احتمالاً کند کردن خودخواسته روند توسعه مدلهای هوش مصنوعی، ممکن است برای اطمینان از حفظ درک و کنترل کافی بشریت بر مدلهای هوش مصنوعی قدرتمندتر آینده ضروری باشد.

تصمیمگیری در مورد نقش هوش مصنوعی در جامعه نیازمند محاسبه دقیق خطرات و مزایای آن است؛ مشابه با گفتگوهایی که گذشته در مورد فناوریهای تحولآفرینی مانند اینترنت صورت گرفت. همانگونه که عرضه عمومی اینترنت، موجهایی از نوآوری را به همراه آورد، گسترش و تسهیل دسترسی به سامانههای هوش مصنوعی و زیرساختهای تحقیقاتی نیز میتواند مسیرهای نوینی را در این حوزه باز کند. اما در طی سالهای اخیر، تنشی اساسی میان تمایل به پیشرفت سریع هوش مصنوعی و ضرورت استقرار الزامات ایمنی و کنترلگری فناوری شکل گرفته است. با پیچیدهتر و اثرگذارتر شدن سامانههای هوش مصنوعی، این نابرابری نه فقط نوآوری، بلکه خود فرایند علمی را تهدید میکند.
چالش جعبه سیاه تنها توسط دانشمندان و متخصصان کامپیوتر قابلحل نیست. هرچند علل آن عمیقاً فنی هستند، اما پیامدهای آن اجتماعی، اخلاقی، قانونی و اقتصادی هستند. چالشهای پیشرو، هم شامل موانع فنی و هم تنظیمگرانه برای شفافیت هستند. ایجاد چارچوبهایی برای شفافیت که فراتر از افشای گزینشی باشد، برای تضمین توسعه مسئولانه و قابلفهم این فناوریها ضروری خواهد بود. بنابراین، راهحلهای مؤثر نیازمند همکاریهای میانرشتهای بین محققان هوش مصنوعی، وکلا، سیاستگذاران، رهبران صنعت و عموم مردم است. این امر نیازمند یک رویکرد جامع و بینرشتهای برای توسعه نهتنها الگوریتمها، بلکه چارچوبهای قوی برای استقرار، نظارت و پاسخگویی است. چنین امری هوش مصنوعی را بهعنوان یک سامانه اجتماعی-فنی مطرح میکند. در نهایت، پذیرش گسترده و مزایای اجتماعی هوش مصنوعی به ایجاد اعتمادی بستگی دارد که به طور جداییناپذیری با شفافیت و پاسخگویی مرتبط است.