Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
دیتاست
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
 یادگیری بازنمایی راهی برای گسترش ادراک هوشمند

یادگیری بازنمایی راهی برای گسترش ادراک هوشمند

زمان مطالعه: 4 دقیقه

شیوه ادراک در یادگیری ماشینی چگونه است؟ انسان‌ها دنیا را از طریق حواس بینایی و شنوایی و درک زبان مشاهده می‌کنند. از سوی دیگر، ماشین‌ها برای تفسیر جهان، داده‌های دریافتی را از طریق الگوریتم‌ها پردازش می‌کنند. بر این اساس، هنگامی که یک ماشین عکسی را «می‌بیند»، آن را در قالب داده‌هایی درمی‌آورد که بتواند در مسئله‌ای مانند طبقه‌بندی تصویر از آن استفاده کند. این فرآیند زمانی پیچیده‌تر می‌شود که ورودی‌ها در شکل‌های گوناگون مانند فیلم‌ها، کلیپ‌های صوتی و تصاویر ارائه شوند و شیوه ادراک در یادگیری ماشینی را به چالش می‌کشند. یادگیری بازنمایی راهی برای گسترش ادراک هوشمند است تا بتواند به رمزگذاری تصاویر دریافتی بپردازد و آن‌ها را به داده تبدیل کنند.

الکساندر لیو، دانشجوی کارشناسی ارشد رشتۀ آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) و نویسنده اولین مقاله‌ در این مورد می‌گوید: «چالش اصلی این است که ماشین‌ها چگونه می‌توانند آن حالات مختلف را هماهنگ کنند؟ چنین چیزی برای انسان‌ها آسان است. خودرویی را می‌بینیم و سپس صدای آن را می‌شنویم که از کنارمان می‌گذرد و متوجه می‌شویم که این‌ها یکسان هستند. اما چنین چیزی برای یادگیری ماشینی راحت نیست.» بنابراین نیاز به روشی هست که شیوه ادراک هوشمند را گسترش دهد؛ یادگیری بازنمایی راهی برای گسترش ادارک هوشمند و کمک به فهم چندجانبه از سوی آن است.

یادگیری بازنمایی

لیو و همکارانش تکنیکی در هوش مصنوعی طراحی کرده‌اند که داده‌ها را به گونه‌ای نمایش می‌دهد تا مفاهیم مشترک حالات صوتی و دیداری را دریافت کند. به عنوان مثال، با تکیه بر این تکنیک، سیستم می‌تواند بین گریه نوزاد در یک ویدیو با کلمه گفتاری «گریه» در یک کلیپ صوتی ارتباط برقرار کند. با استفاده از این اطلاعات، مدل یادگیری ماشینی می‌تواند وقوع رویدادی خاص در یک ویدیو را شناسایی و برچسب‌گذاری کند. بنابراین شیوه ادراک در یادگیری ماشینی وابسته به داده هایی‌ست که دریافت می‌کند.

مدل مذکور در ارتباط با مسائل بازیابی چند‌حالتی عملکرد بهتری نسبت به سایر روش‌های یادگیری ماشینی دارد؛ از جملۀ آن‌ها می‌توان به یافتن داده‌ها، مانند یک ویدیو، مطابق با درخواست کاربر به شکلی دیگر مانند زبان گفتاری اشاره کرد. این مدل همچنین به کاربران کمک می‌کند نحوۀ تطبیق ویدیو بازیابی‌شده توسط سیستم با درخواست کاربران را بهتر درک کند. انتظار می‌رود در آینده با استفاده از این تکنیک بتوان به ربات‌ها آموخت مفاهیم لازم برای درک دنیا، مانند انسان‌ها را به دست آورند و شیوه ادراک در یادگیری ماشینی را بهبود بخشید.

سو یونگ جین، دانشجوی پسادکترا رشتۀ آزمایشگاه علوم کامپیوتر و هوش مصنوعی، چِنگ‌آی جِف لای و اَندرو رودیتچِنکو، دانشجویان مقطع کارشناسی ارشد، اُودِ اُلیوا، پژوهشگر ارشد در رشتۀ آزمایشگاه علوم کامپیوتر و هوش مصنوعی و مدیر آزمایشگاه هوش مصنوعی واتسون وابسته به دانشگاه صنعتی ماساچوست و شرکت IBM و جِیمز گِلاس، نویسندۀ برجسته، پژوهشگر ارشد و مدیر گروه سیستم‌های زبان گفتاری در رشتۀ آزمایشگاه علوم کامپیوتر و هوش مصنوعی به لیو در نگارش این مقاله کمک کرده‌اند. نتایج این پژوهش در نشست سالانه انجمن زبانشناسی محاسباتی ارائه خواهد شد.

یادگیری بازنمایی‌ها

یادگیری بازنمایی، راهی برای گسترش ادراک هوشمند معرفی شده است؛ محققان بر یادگیری بازنمایی تمرکز دارند؛ در واقع یادگیری بازنمایی، نوعی یادگیری ماشینی است که به دنبال تغییر داده‌های ورودی برای انجام مسائلی مانند طبقه‌بندی یا پیش‌بینی می‌باشد. این راه نیز نوعی شیوه ادراک در یادگیری ماشینی است.

مدل یادگیری بازنمایی، داده‌های خام، مانند ویدیوها و زیرنویس‌هایشان را دریافت و با استخراج ویژگی‌ها یا مشاهدات خود از اشیاء و رفتار‌ها در ویدیو، آن‌ها را رمزگذاری می‌کند. سپس آن نقاط داده را در یک شبکه، با عنوان فضای تعبیه، ترسیم می‌کند. این مدل، داده‌های مشابه را در قالب خوشه که نقاط واحد در آن شبکه می‌باشند، کنار یکدیگر قرار می‌دهد.. هر یک از این نقاط داده یا بردارها، جداگانه نمایندۀ یک کلمه می‌باشند.

یادگیری بازنمایی‌ها

به عنوان مثال، یک کلیپ از شخصی که در حال شعبده‌بازی است را می‌توان بر برداری با برچسب «شعبده‌بازی» مطابقت داد. محققان مدل را برای برچسب‌گذاری بردارها محدود به استفاده از تنها 1000 کلمه کرده‌اند که می‌تواند فقط با استفاده از 1000 بردار در مورد رمزگذاری کنش‌ها یا مفاهیم در یک بردار تصمیم‌گیری کند. این مدل، بهترین کلمات، برای بازنمایی داده‌ها را انتخاب می‌کند. یادگیری بازنمایی راهی برای گسترش ادراک هوشمند محسوب می‌شود.

حالات آن‌ها به جای رمزگذاری داده‌های گوناگون در شبکه‌های جداگانه، از یک فضای تعبیه مشترک استفاده می‌کند که در آن دو حالت با هم رمزگذاری می‌شوند. در نتیجه، مدل می‌تواند به دو روش رابطۀ بین بازنمایی‌ها را بیاموزد؛ مانند ویدیویی از شخصی که شعبده‌بازی می‌کند و صدای ضبط شدۀ فردی که می‌گوید «شعبده‌بازی».

محققان برای کمک به پردازش داده‌ها به چندین حالت، الگوریتمی طراحی کرده‌اند که باعث می‌شود ماشین، مفاهیم مشابه را در یک بردار رمزگذاری کند.

لیو در ادامه توضیح می‌دهد: «اگر ویدیویی از خوک‌ها داشته باشیم، مدل ممکن است کلمه «خوک» را به یکی از 1000 بردار اختصاص دهد. سپس، اگر کلمه «خوک» را در یک کلیپ صوتی بشنود، همچنان باید از همان بردار برای رمزگذاری استفاده کند.»

بهبود بازیابی

یادگیری بازنمایی راهی برای گسترش ادراک هوشمند است اما چگونه این کار را انجام می‌دهد؟ این مدل با استفاده از سه دیتاست بر روی مسائل بازیابی چندحالتی آزمایش شده است: یک دیتاست متنی-ویدئویی با کلیپ‌های ویدئویی و زیرنویس‌های متنی، یک دیتاست ویدئویی-صوتی با کلیپ‌های ویدئویی و زیرنویس‌های صوتی، و یک دیتاست تصویری-صوتی با تصاویر و زیرنویس‌های گفتاری.

به‌عنوان مثال، مدل در دیتاست ویدئویی-صوتی، 1000 کلمه را برای نمایش حرکات موجود/مشاهده شده در ویدئوها انتخاب کرد. سپس، هنگامی که محققان به آن پرسش‌های صوتی دادند، مدل سعی کرد کلیپی را پیدا کند که تا حدّ امکان مطابق با آن کلمات گفتاری باشد.

لیو می‌گوید: «درست مانند جستجوی گوگل، شما متنی را تایپ می‌کنید، سپس سیستم سعی می‌کند مرتبط‌ترین نتایج را به شما معرفی کند. همین کار را این‌جا با فضای برداری انجام می‌دهیم.» تکنیک جدید علاوه بر این‌که در مقایسه با سایر مدل‌ها، شباهت بیشتری پیدا می‌کند، قابل‌درک‌تر هم هست.

بهبود بازیابی

از آن‌جا که مدل تنها مجاز است از 1000 کلمه برای برچسب‌گذاری بردارها استفاده کند، کاربر می‌تواند راحت‌تر ببیند که ماشین از کدام کلمات برای نتیجه‌گیری در مورد مشابهت ویدیو و کلمات گفتاری استفاده می‌کند. در نتیجه، بنا به گفتۀ لیو، کاربرد این مدل در موقعیت‌های واقعی آسان‌تر می‌شود، چون درک کاربران از نحوه تصمیم‌گیری آن بسیار مهم است و شیوه ادراک در یادگیری ماشینی برای انسان نیز قابل فهم می‌شود.

لیو می‌گوید: «این مدل هنوز محدودیت‌هایی دارد که محققان امیدوارند در کارهای آینده آن‌ها را رفع کنند. یکی از آن‌ها این است که تحقیقات پژوهشگران بر روی داده‌ها محدود به تنها دو حالت در آنِ واحد بود، اما در دنیای واقعی انسان‌ها به‌طور هم‌زمان با بسیاری از حالات داده مواجه می‌شوند.

وی در ادامه می‌گوید: «آزمایشات نشان داده‌اند که با این دیتاست روی 1000 کلمه به نتیجه خوبی می‌رسیم اما معلوم نیست بتوان نتیجه را به دنیای واقعی تعمیم داد یا خیر.»

به‌علاوه، تصاویر و ویدئوها در دیتاست مدل محققان حاوی اشیاء یا حرکات ساده بودند. داده‌ها در دنیای واقعی بسیار پیچیده‌تر هستند. محققان همچنین قصد مشخص کردن این موضوع را دارند که در صورت تنوع بیشتر داده‌های ورودی، این روش جدید تا چه حد می‌تواند عملکرد خوب خود را حفظ کند. یادگیری بازنمایی، راهی برای گسترش ادراک هوشمند به شمار می‌رود اما خود نیاز به پیشرفت دارد تا بتواند درکی مانند درک انسان به ماشینهای هوشمند ببخشد.

آزمایشگاه هوش مصنوعی واتسون داشنگاه صنعتی ماساچوست و شرکت IBM و شرکت‌های عضو آن، Nexplore و Woodside و آزمایشگاه لینکلن دانشگاه صنعتی ماساچوست از این تحقیق پشتیبانی کرده‌اند.

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
[wpforms id="48325"]