
شبکه عصبی چیست؟
با پیشرفت دانش ما در زمینه کانکتوم یا همان شبکه اتصالات عصبی مغز انسان، توانایی ما در درک سرعت شگفتانگیز انتقال اطلاعات در مغز نیز گسترش یافته است. در حال حاضر تنها به یک نقشه شبکهای ناقص از مغز انسان دسترسی داریم. همین موضوع باعث شده است که ابزارهای محاسباتی با هدف شبیهسازی عملکرد مغز، محبوبیت چشمگیری پیدا کنند.
همانگونه که در سال ۲۰۱۶ پیشبینی شده بود، هوش مصنوعی (AI) به نیروی محرک انقلاب کنونی در حوزه سلامت انسان تبدیل شده است. اکنون به نظر میرسد که شبکههای عصبی مرحله بعدی در مسیر تحول فناوری محاسباتی بهطور کلی باشند.
اما شبکههای عصبی دقیقاً چه هستند و چگونه عمل میکنند؟ در این مقاله، با مهمترین انواع شبکههای عصبی، کاربردهای آنها و اتفاقاتی که در صورت بروز خطا یا شکست در عملکردشان رخ میدهد، آشنا خواهیم شد.
اگر پیشتر با شبکههای عصبی آشنایی دارید، این مطلب میتواند مروری ساده و خواندنی برای شما باشد. و اگر آشنایی ندارید، جای نگرانی نیست؛ زبان این مقاله بهگونهای انتخاب شده که برای خوانندگانی بدون پیشزمینه تخصصی نیز کاملاً قابل فهم باشد.
تعریف شبکه عصبی
شبکه عصبی (neural network) که با نام سامانههای نورومورفیک (neuromorphic systems) نیز شناخته میشود، سامانهای سختافزاری یا نرمافزاری است که هدف آن شبیهسازی برخی جنبههای مغز انسان در پردازش اطلاعات است.
شبکههای عصبی معمولاً بر سه جزء اصلی تمرکز دارند:
- سامانهای منشعب، بسیار موازی، و پیشرونده (feed-forward) از نورونها یا گرهها (nodes)
- اتصالات و وزنهای مربوط به هر گره که در ادامه توضیح داده میشود
- تابع انتشار (propagation function) برای انتقال اطلاعات در شبکه و تولید خروجی
شبکههای عصبی در قالب لایههایی سازماندهی میشوند که هر کدام ممکن است مرحلهای متفاوت از فرایند را پردازش کنند. همچنین بسیاری از شبکههای عصبی قابلیت یادگیری دارند، اما وقتی یک ماشین یاد میگیرد، صرفاً مانند ذخیرهسازی یک فایل نیست. این شبکهها میتوانند اطلاعات را از مراحل پایانی به مراحل ابتدایی بازگردانند (بازپراکنش) و در نتیجه، رویکرد خود به یک وظیفه را تغییر داده و از همان دادههای آموزشی، خروجی متفاوتی تولید کنند.
شبکههای عصبی از مغز تقلید میکنند
با نزدیک شدن به پایان قانون مور (Moore’s Law)، جهان فناوری در جستجوی رویکردهای متنوعتر و متفاوتتری برای پردازش است. دیگر نمیتوانیم به سادگی با افزایش سرعت کلاک یا کوچکسازی ترانزیستورها پیشرفت کنیم. اما وقتی صحبت از توان پردازشی خام نسبت به مصرف انرژی میشود، مغز انسان همچنان از کامپیوترها بهتر است. بنابراین پژوهشگران به طراحی سامانههایی روی آوردهاند که بیشتر شبیه مغز هستند.
دو دلیل اصلی برای استفاده از مغز بهعنوان الگو وجود دارد:
۱. مغزها واقعاً در کار خود عالی هستند، سریع، دقیق، سبک، و کممصرف. توان پردازشی در مقیاس پتافلاپ مغز انسان در حدود ۲۰ وات انرژی مصرف میکند.
۲. مغز و کامپیوتر از لحاظ ساختاری شباهتهای زیادی دارند هر دو شبکههایی مشبک و لایهمند برای پردازش حجم بالایی از اطلاعات هستند. هر دو از حافظه موقت (buffer) برخوردارند که ممکن است با خطا یا سرریز مواجه شود. هر دو شکلی از ذخیرهسازی بلندمدت دارند، در مغز، اطلاعات بهصورت معنایی در سراسر سطح قشر مغز توزیع میشود، مشابه نحوه ذخیرهسازی اطلاعات روی دیسک سخت.
نورونها نیز مانند ترانزیستورها رفتاری دودویی دارند یا شلیک میکنند یا نمیکنند. سیگنال آنها دنبالهای از «پالسهای» الکتریکی است که با فرکانس مشخص منتقل میشود (نه دامنه)، مشابه عملکرد رادیوی FM. نورونهای حرکتی در مغز، با تولید «قطارهای شلیک» (spike trains)، پیامهایی متوالی از داده تولید میکنند.
شاید شنیده باشید که میگویند: نورونهایی که با هم شلیک میکنند، به هم متصل میشوند. وقتی عملکرد دو نورون در زمان با یکدیگر مرتبط باشد، ارتباط فیزیکی میان آنها (به نام سیناپس) شکل میگیرد. مغز برای مدیریت این ارتباطها، وزن هر اتصال را متناسب با اهمیت آن ارزیابی میکند. شبکههای عصبی مصنوعی هم به جای ایجاد ارتباط فیزیکی، وزن عددی هر اتصال را تنظیم میکنند، اعداد بزرگتر برای اتصالات پرکاربرد. نورونهای قشری، همچنین ورودیهای متعدد و همپوشانی را مانند یک تبدیل فوریه زیستی جمعآوری و تفسیر میکنند.
انواع اصلی شبکههای عصبی
هرچند پروژههای بسیاری در حوزه شبکههای عصبی وجود دارد، اما اغلب آنها به چند دسته اصلی تقسیم میشوند که هر یک ساختار و کاربرد متفاوتی دارند. در ادامه، چهار زیرشاخه نرمافزاری مهم شبکههای عصبی را بررسی میکنیم:
شبکههای عصبی پیچشی (Convolutional Neural Nets – CNN)
شبکههای عصبی کلاسیک، از جمله شبکههای عصبی کانولوشنی (CNN)، ساختاری پیشرونده (feed-forward) دارند، به این معنا که جریان اطلاعات تنها در یک جهت حرکت میکند. در این مدلها، دادهها از لایه ورودی به لایه خروجی منتقل میشوند و بازگشتی به عقب صورت نمیگیرد. به همین دلیل، این نوع شبکهها قادر به توضیح روند تصمیمگیری خود نیستند، نه به دلیل لجبازی، بلکه به دلیل ساختار ذاتی که دارند.
ساختار CNN شامل یک لایه ورودی، چند لایه پنهان و یک لایه خروجی میشود که کاربرد اصلی این شبکهها در پردازش تصاویر است، چرا که از نظر ریاضی برای تحلیل آرایههای دو بعدی داده، مانند تصاویر، بسیار کارآمد هستند. شبکههای CNN عملیات ریاضی پیچیدهای را روی حجم بالایی از دادهها، از جمله بزرگنمایی تصاویر یا شناسایی ویژگیهای خاص انجام میدهند.
با این حال، پیشرونده بودن این شبکهها گاهی باعث تولید نتایج غیرمنتظره و عجیب میشود. برای نمونه، یک شبکه CNN میتواند تصویر مشخصی را شناسایی کرده و سپس تصاویری تحریفشده و عجیب از آن تولید کند. در سال ۲۰۱۶، موسسه MIT ابزاری را معرفی کرد که از همین رفتار برای ساخت تصاویری با حال و هوای «ترسناک» استفاده میکرد، ابزاری که درست به موقع برای جشن هالووین عرضه شد.
شبکههای عصبی بازگشتی (Recurrent Neural Nets – RNN)
در مقابل CNNها، RNNها میتوانند اطلاعات را به عقب نیز بازگردانند، فرایندی که به آن بازپراکنش (back-propagation) میگویند. این ویژگی باعث میشود که شبکه قابلیت بهبود عملکرد خود را داشته باشد.
در RNNها، نورونها میتوانند به سایر نورونها متصل باشند، حتی در مقیاس تمامبهتمام (fully connected). این افزونگی منجر به دقت بالا میشود، اما مانند نمونهبرداری فوقدقیق در گرافیک، بازدهی آن در نهایت کاهش مییابد. RNNها معمولاً با استفاده از روش گرادیان نزولی (gradient descent) آموزش میبینند. در این روش، فضای مسائل به شکل یک منظره سهبعدی از احتمالات ترسیم میشود. نتایج مطلوب یا نامطلوب، مانند دره یا قله در این منظره عمل میکنند. مزیت RNN در این است که میتواند اطلاعاتی درباره گذشته این منظره را نیز حفظ کند و از آن برای بهبود آموزش بهره بگیرد.
شبکههای عصبی انفجاری (Spiking Neural Nets – SNN)
برخلاف پردازش خطی در واحدهای پردازش مرکزی (CPU)، شبکههای عصبی انفجاری (Spiking Neural Networks) یا SNN میتوانند به صورت سختافزاری، نرمافزاری یا ترکیبی از هر دو پیادهسازی شوند. در این شبکهها، واحدهای پردازشی به صورت غیرمتمرکز عمل کرده و سیگنالها را در قالب قطارهای شلیک (spike trains) منتقل میکنند.
عملکرد این شبکهها مبتنی بر مدل نشت، تجمیع و شلیک (leaky integrate-and-fire) است. هر نورون در این مدل دارای وزنی است که میانگین فعالیت اخیر آن را نمایش میدهد و این وزن با گذشت زمان، مشابه فراموشی طبیعی در مغز، کاهش مییابد.
اگرچه شبکههای عصبی انفجاری در حل مسائل بهینهسازی یا استفاده از روش گرادیان نزولی توانایی بالایی ندارند، اما در مدلسازی عملکرد واقعی سیستم عصبی بسیار مفید هستند. تاکنون با کمک این شبکهها، سیستم عصبی کرم گرد C. elegans و مگس میوه Drosophila شبیهسازی شده است و پژوهشگران در تلاشاند تا ستون قشری مغز انسان را در زمان واقعی مدلسازی کنند.
یکی از مسیرهای آینده این شبکهها، حرکت به سمت سطوح بالاتر انتزاع است، یعنی ساخت شبکههایی که هر نورون آن خود یک شبکه عصبی کوچک مستقل باشد.
شبکههای عصبی مولدِ خصمانه (Generative Adversarial Neural Networks – GAN)
یکی از انواع شبکههای عصبی که اخیراً محبوبیت فراوانی یافته، شبکههای عصبی مولد خصمانه، معروف به GAN، هستند. این شبکهها گامی مهم در پیشرفت هوش مصنوعی به شمار میروند و معمولاً برای تولید یا دستکاری تصاویر به کار گرفته میشوند. دلیل نامگذاری «خصمانه» به این شبکهها، رقابت میان اجزای آنهاست که برای بهبود عملکردشان طراحی شدهاند.
همانطور که سِربروس (Cerberus) در اساطیر یونان سه سر داشت، در ساختار یک GAN معمولاً دو شبکه عصبی مستقل با اهداف متفاوت وجود دارد: یکی شبکه مولد (Generative) و دیگری شبکه تشخیصدهنده .(Discriminative)
شبکه مولد تلاش میکند خروجیای، اغلب یک تصویر، تولید کند که بتواند شبکه تشخیصدهنده را «فریب» دهد. اگر شبکه تشخیصدهنده قادر به تشخیص تصویر جعلی نباشد، خروجی موفق تلقی میشود، در غیر این صورت، نتیجه کنار گذاشته میشود. این فرایند، که ممکن است به صورت نظارتی یا غیرنظارتی انجام شود، پس از هر بار ارزیابی مجدداً تکرار میشود و شبکهها بهصورت مستمر پیشرفت میکنند. موفقیت در این فرایند به معنای توانایی فریب دادن یک ناظر خبره است.
قدرت این شبکهها باعث شده است GANها بتوانند دیپفیک (deepfake) تولید کنند، تصاویری فوتورئالیستی و منحصر به فرد از افرادی که ممکن است اصلاً وجود خارجی نداشته باشند. در دیپفیک، چهره یک شخص با دقت بسیار بالا روی بدن فرد دیگر جایگزین میشود. برای این کار، شبکه عصبی مجموعه بزرگی از تصاویر واقعی انسانها را تحلیل میکند تا دادههایی درباره تفاوتها و شباهتهای چهرهها کسب کند. پس از آموزش بخش تشخیصدهنده، بخش مولد آغاز به تولید تصاویر اصلی میکند. نمونهای برجسته از این فناوری، StyleGAN شرکت Nvidia است که تصاویر بسیار واقعگرایانهای تولید میکند. در یکی از پروژههای مرتبط، از بینندگان خواسته شد تا تشخیص دهند که آیا تصویر مشاهدهشده واقعی است یا ساختگی.
واقعگرایی خروجیهای GAN به حدی است که در سال ۲۰۱۹، ایالت کالیفرنیا قانونی تصویب کرد که استفاده از فناوریهای مشابه GAN برای تولید محتوای پورنوگرافی دیپفیک بدون رضایت افراد را ممنوع میکند. همچنین، انتشار ویدئوهای دستکاری شده از نامزدهای سیاسی در فاصله کوتاهی قبل از انتخابات در این ایالت غیرقانونی اعلام شد. سازمان DARPA نیز برای مقابله با تهدیدهای ناشی از GAN در حوزه تصویر و صدا، بخشی ویژه برای مطالعه و توسعه راهکارهای مقابله با این فناوری ایجاد کرده است.
با وجود این چالشها، کاربردهای مثبت و مهمی نیز برای GAN وجود دارد که فراتر از استفادههای منفی است. یکی از این کاربردها در فیزیک ذرات است، جایی که فیزیکدانان برای کشف ذرات جدید یا توضیح پدیدههای پیچیده به دقت بسیار بالا نیاز دارند. در نظریه بازیها، GANها میتوانند با تحلیل قوانین و اولویتها، رفتار احتمالی شرکتکنندگان را پیشبینی و نتیجه بازی را تخمین بزنند. همچنین، این شبکهها در بهبود کیفیت تصاویر نجومی و پیشبینی پدیدههایی مانند عدسی گرانشی نیز مورد مطالعه و استفاده قرار میگیرند.
شبکههای عصبی، قدرتدهنده هوش مصنوعی مولد
چتباتهای رایجی مانند ChatGPT، Copilot، Grok، Perplexity و دیگر نمونهها، یک وجه مشترک دارند: همه آنها بر پایه مدلهای زبانی بزرگ (LLM) ساخته شدهاند، که خود نوعی شبکهی عصبی مصنوعی هستند. این سامانههای نرمافزاری بسیار پیچیده، به کمک میلیاردها پارامتر، زبان گفتاری و نوشتاری را مدلسازی میکنند و روی ابررایانههایی در مقیاس دیتاسنتر نظیر زیرساخت (Microsoft Azure) اجرا میشوند.
در نام ChatGPT، واژه GPT مخفف “مولدِ از پیش آموزشدیدهی ترنسفورمر” (Generative Pre-Trained Transformer) است. مهارت اصلی شبکههای عصبی مولد در این است که میتوانند دادههای موجود در مجموعه آموزشی خود را گرفته و آنها را به شکلی جدید بازترکیب کنند. این توانایی دوسویه، زمانی که خروجی نامنسجم و نامرتبط تولید کند، به عنوان “توهم” (hallucination) شناخته میشود. LLMها ابزارهایی قدرتمند و چندمنظوره هستند که میتوانند در رسانههای صوتی/تصویری، زبان نوشتاری، متن به گفتار و مکالمهی طبیعی با کاربر بهکار روند. همزمان، ترنسفورمرها نیز از قدرت ریاضیاتی خاص خود برخوردارند: نوعی شبکهی عصبی پیچشی (convolutional) که برای پردازش دادههای جدولی و ساختارمند (ماتریسها و آرایههای چندبعدی) طراحی شدند.
سختافزارهای نورومورفیک (Neuromorphic Hardware)
تراشههای نورومورفیک عملکرد مغز را به عنوان یک ویژگی برآمده از ساختار فیزیکیاش در نظر میگیرند. در شبکه عصبی یک تراشه نورومورفیک، به هر گره «نورون» گفته میشود. اما نورون در سختافزار نورومورفیک معادل نورون زیستی یا یک ترانزیستور نیست، بلکه یک نورون سختافزاری از چندین ترانزیستور ساخته شده، همانطور که نورون زیستی هم دارای تعداد زیادی پایانه در غشای سلولی خود است.
نمونههای سختافزاری تجاریشده شبکههای عصبی معدودند، اما چند نمونه برجسته وجود داشتند. سیستم TrueNorth شرکت (IBM) که در سال ۲۰۱۴ عرضه شد (و اکنون متوقف شده)، یک تراشه نورومورفیک CMOS چندهستهای با یک شبکه عصبی پیچشی داخلی بود. این تراشه دارای اکوسیستم نرمافزاری اختصاصی، شامل زبان برنامهنویسی، کتابخانهها و محیط توسعه ویژه خود بود.
بهطور مشابه، اکوسیستم Loihi شرکت (Intel) نیز شامل یک شبکه عصبی سختافزاری و چارچوب نرمافزاری مربوط به آن است. در حال حاضر، نسل دوم تراشه نورومورفیک Loihi در حال توسعه است. Lava مسیر دسترسی نرمافزاری به قابلیتهای Loihi را فراهم میکند.
هرچند Loihi با مواد نیمهرسانای متداول ساخته و برای تولید در فناوری Intel 4 طراحی شده، اما ساختار فیزیکی آن تفاوتی چشمگیر با تراشههای معمول دارد. این پردازنده با الهام از سازماندهی مغز، در مقیاسی کوچکتر شکل گرفته و یک میلیون نورون مصنوعی را در خود جای داده؛ هر نورون واحدی مستقل با ۱۲۸ کیلوبایت حافظه اختصاصی که همانند سیناپسهای مغزی، وضعیت ارتباطات لحظهای را نگه میدارد. کنترل نورونها بر عهده هستههای مجاور x86 قرار گرفته که با یک ساعت خارجی ریتم فعالیت را تنظیم کرده و بهطور دورهای، مقایسه دادهها یا بازمحاسبه قدرت اتصالات را انجام میدهند.
جمع بندی
شبکههای عصبی، چه در قالب نرمافزاری و چه سختافزاری، با الهام از ساختار و عملکرد مغز انسان طراحی میشوند تا پردازش دادهها را سریعتر و کارآمدتر انجام دهند. این سامانهها شامل انواعی چون CNN برای پردازش تصویر، RNN برای تحلیل دنبالهها، SNN برای شبیهسازی دقیق نورونهای زیستی، و GAN برای تولید محتوای واقعینما هستند. کاربرد آنها از پزشکی و فیزیک تا تولید محتوای مولد گسترش یافته است. با نزدیک شدن به محدودیتهای قانون مور، تراشههای نورومورفیک مانند Loihi اینتل، با میلیونها نورون مصنوعی و ساختاری مشابه مغز، مسیر نوینی برای آینده محاسبات و هوش مصنوعی ترسیم میکنند.