یادگیری بازنمایی راهی برای گسترش ادراک هوشمند
شیوه ادراک در یادگیری ماشینی چگونه است؟ انسانها دنیا را از طریق حواس بینایی و شنوایی و درک زبان مشاهده میکنند. از سوی دیگر، ماشینها برای تفسیر جهان، دادههای دریافتی را از طریق الگوریتمها پردازش میکنند. بر این اساس، هنگامی که یک ماشین عکسی را «میبیند»، آن را در قالب دادههایی درمیآورد که بتواند در مسئلهای مانند طبقهبندی تصویر از آن استفاده کند. این فرآیند زمانی پیچیدهتر میشود که ورودیها در شکلهای گوناگون مانند فیلمها، کلیپهای صوتی و تصاویر ارائه شوند و شیوه ادراک در یادگیری ماشینی را به چالش میکشند. یادگیری بازنمایی راهی برای گسترش ادراک هوشمند است تا بتواند به رمزگذاری تصاویر دریافتی بپردازد و آنها را به داده تبدیل کنند.
الکساندر لیو، دانشجوی کارشناسی ارشد رشتۀ آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) و نویسنده اولین مقاله در این مورد میگوید: «چالش اصلی این است که ماشینها چگونه میتوانند آن حالات مختلف را هماهنگ کنند؟ چنین چیزی برای انسانها آسان است. خودرویی را میبینیم و سپس صدای آن را میشنویم که از کنارمان میگذرد و متوجه میشویم که اینها یکسان هستند. اما چنین چیزی برای یادگیری ماشینی راحت نیست.» بنابراین نیاز به روشی هست که شیوه ادراک هوشمند را گسترش دهد؛ یادگیری بازنمایی راهی برای گسترش ادارک هوشمند و کمک به فهم چندجانبه از سوی آن است.
لیو و همکارانش تکنیکی در هوش مصنوعی طراحی کردهاند که دادهها را به گونهای نمایش میدهد تا مفاهیم مشترک حالات صوتی و دیداری را دریافت کند. به عنوان مثال، با تکیه بر این تکنیک، سیستم میتواند بین گریه نوزاد در یک ویدیو با کلمه گفتاری «گریه» در یک کلیپ صوتی ارتباط برقرار کند. با استفاده از این اطلاعات، مدل یادگیری ماشینی میتواند وقوع رویدادی خاص در یک ویدیو را شناسایی و برچسبگذاری کند. بنابراین شیوه ادراک در یادگیری ماشینی وابسته به داده هاییست که دریافت میکند.
مدل مذکور در ارتباط با مسائل بازیابی چندحالتی عملکرد بهتری نسبت به سایر روشهای یادگیری ماشینی دارد؛ از جملۀ آنها میتوان به یافتن دادهها، مانند یک ویدیو، مطابق با درخواست کاربر به شکلی دیگر مانند زبان گفتاری اشاره کرد. این مدل همچنین به کاربران کمک میکند نحوۀ تطبیق ویدیو بازیابیشده توسط سیستم با درخواست کاربران را بهتر درک کند. انتظار میرود در آینده با استفاده از این تکنیک بتوان به رباتها آموخت مفاهیم لازم برای درک دنیا، مانند انسانها را به دست آورند و شیوه ادراک در یادگیری ماشینی را بهبود بخشید.
سو یونگ جین، دانشجوی پسادکترا رشتۀ آزمایشگاه علوم کامپیوتر و هوش مصنوعی، چِنگآی جِف لای و اَندرو رودیتچِنکو، دانشجویان مقطع کارشناسی ارشد، اُودِ اُلیوا، پژوهشگر ارشد در رشتۀ آزمایشگاه علوم کامپیوتر و هوش مصنوعی و مدیر آزمایشگاه هوش مصنوعی واتسون وابسته به دانشگاه صنعتی ماساچوست و شرکت IBM و جِیمز گِلاس، نویسندۀ برجسته، پژوهشگر ارشد و مدیر گروه سیستمهای زبان گفتاری در رشتۀ آزمایشگاه علوم کامپیوتر و هوش مصنوعی به لیو در نگارش این مقاله کمک کردهاند. نتایج این پژوهش در نشست سالانه انجمن زبانشناسی محاسباتی ارائه خواهد شد.
یادگیری بازنماییها
یادگیری بازنمایی، راهی برای گسترش ادراک هوشمند معرفی شده است؛ محققان بر یادگیری بازنمایی تمرکز دارند؛ در واقع یادگیری بازنمایی، نوعی یادگیری ماشینی است که به دنبال تغییر دادههای ورودی برای انجام مسائلی مانند طبقهبندی یا پیشبینی میباشد. این راه نیز نوعی شیوه ادراک در یادگیری ماشینی است.
مدل یادگیری بازنمایی، دادههای خام، مانند ویدیوها و زیرنویسهایشان را دریافت و با استخراج ویژگیها یا مشاهدات خود از اشیاء و رفتارها در ویدیو، آنها را رمزگذاری میکند. سپس آن نقاط داده را در یک شبکه، با عنوان فضای تعبیه، ترسیم میکند. این مدل، دادههای مشابه را در قالب خوشه که نقاط واحد در آن شبکه میباشند، کنار یکدیگر قرار میدهد.. هر یک از این نقاط داده یا بردارها، جداگانه نمایندۀ یک کلمه میباشند.
به عنوان مثال، یک کلیپ از شخصی که در حال شعبدهبازی است را میتوان بر برداری با برچسب «شعبدهبازی» مطابقت داد. محققان مدل را برای برچسبگذاری بردارها محدود به استفاده از تنها 1000 کلمه کردهاند که میتواند فقط با استفاده از 1000 بردار در مورد رمزگذاری کنشها یا مفاهیم در یک بردار تصمیمگیری کند. این مدل، بهترین کلمات، برای بازنمایی دادهها را انتخاب میکند. یادگیری بازنمایی راهی برای گسترش ادراک هوشمند محسوب میشود.
حالات آنها به جای رمزگذاری دادههای گوناگون در شبکههای جداگانه، از یک فضای تعبیه مشترک استفاده میکند که در آن دو حالت با هم رمزگذاری میشوند. در نتیجه، مدل میتواند به دو روش رابطۀ بین بازنماییها را بیاموزد؛ مانند ویدیویی از شخصی که شعبدهبازی میکند و صدای ضبط شدۀ فردی که میگوید «شعبدهبازی».
محققان برای کمک به پردازش دادهها به چندین حالت، الگوریتمی طراحی کردهاند که باعث میشود ماشین، مفاهیم مشابه را در یک بردار رمزگذاری کند.
لیو در ادامه توضیح میدهد: «اگر ویدیویی از خوکها داشته باشیم، مدل ممکن است کلمه «خوک» را به یکی از 1000 بردار اختصاص دهد. سپس، اگر کلمه «خوک» را در یک کلیپ صوتی بشنود، همچنان باید از همان بردار برای رمزگذاری استفاده کند.»
بهبود بازیابی
یادگیری بازنمایی راهی برای گسترش ادراک هوشمند است اما چگونه این کار را انجام میدهد؟ این مدل با استفاده از سه دیتاست بر روی مسائل بازیابی چندحالتی آزمایش شده است: یک دیتاست متنی-ویدئویی با کلیپهای ویدئویی و زیرنویسهای متنی، یک دیتاست ویدئویی-صوتی با کلیپهای ویدئویی و زیرنویسهای صوتی، و یک دیتاست تصویری-صوتی با تصاویر و زیرنویسهای گفتاری.
بهعنوان مثال، مدل در دیتاست ویدئویی-صوتی، 1000 کلمه را برای نمایش حرکات موجود/مشاهده شده در ویدئوها انتخاب کرد. سپس، هنگامی که محققان به آن پرسشهای صوتی دادند، مدل سعی کرد کلیپی را پیدا کند که تا حدّ امکان مطابق با آن کلمات گفتاری باشد.
لیو میگوید: «درست مانند جستجوی گوگل، شما متنی را تایپ میکنید، سپس سیستم سعی میکند مرتبطترین نتایج را به شما معرفی کند. همین کار را اینجا با فضای برداری انجام میدهیم.» تکنیک جدید علاوه بر اینکه در مقایسه با سایر مدلها، شباهت بیشتری پیدا میکند، قابلدرکتر هم هست.
از آنجا که مدل تنها مجاز است از 1000 کلمه برای برچسبگذاری بردارها استفاده کند، کاربر میتواند راحتتر ببیند که ماشین از کدام کلمات برای نتیجهگیری در مورد مشابهت ویدیو و کلمات گفتاری استفاده میکند. در نتیجه، بنا به گفتۀ لیو، کاربرد این مدل در موقعیتهای واقعی آسانتر میشود، چون درک کاربران از نحوه تصمیمگیری آن بسیار مهم است و شیوه ادراک در یادگیری ماشینی برای انسان نیز قابل فهم میشود.
لیو میگوید: «این مدل هنوز محدودیتهایی دارد که محققان امیدوارند در کارهای آینده آنها را رفع کنند. یکی از آنها این است که تحقیقات پژوهشگران بر روی دادهها محدود به تنها دو حالت در آنِ واحد بود، اما در دنیای واقعی انسانها بهطور همزمان با بسیاری از حالات داده مواجه میشوند.
وی در ادامه میگوید: «آزمایشات نشان دادهاند که با این دیتاست روی 1000 کلمه به نتیجه خوبی میرسیم اما معلوم نیست بتوان نتیجه را به دنیای واقعی تعمیم داد یا خیر.»
بهعلاوه، تصاویر و ویدئوها در دیتاست مدل محققان حاوی اشیاء یا حرکات ساده بودند. دادهها در دنیای واقعی بسیار پیچیدهتر هستند. محققان همچنین قصد مشخص کردن این موضوع را دارند که در صورت تنوع بیشتر دادههای ورودی، این روش جدید تا چه حد میتواند عملکرد خوب خود را حفظ کند. یادگیری بازنمایی، راهی برای گسترش ادراک هوشمند به شمار میرود اما خود نیاز به پیشرفت دارد تا بتواند درکی مانند درک انسان به ماشینهای هوشمند ببخشد.
آزمایشگاه هوش مصنوعی واتسون داشنگاه صنعتی ماساچوست و شرکت IBM و شرکتهای عضو آن، Nexplore و Woodside و آزمایشگاه لینکلن دانشگاه صنعتی ماساچوست از این تحقیق پشتیبانی کردهاند.
جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید