گزارش «مدل چندوجهی: مرز جدید هوش مصنوعی» منتشرشده در MIT Technology Review، به بررسی یکی از پیشرفتهترین حوزههای هوش مصنوعی یعنی هوش مصنوعی چندوجهی میپردازد. این فناوری نوین با هدف تقلید از توانایی انسان در درک و ترکیب اطلاعات از منابع مختلف مانند متن، تصویر، صوت و ویدئو، در حال رشد و پیشرفت است.
هوش مصنوعی چندوجهی تلاش میکند تا مانند انسانها، اطلاعات را از منابع مختلف دریافت و تحلیل کند. در حال حاضر، مدلهای هوش مصنوعی چندوجهی معمولاً از ترکیب چند مدل تکوجهی تشکیل میشوند. در حالی که مدلهای زبانی بزرگ مانند GPT-4 از توکنهای متنی برای درک زبان استفاده میکنند، مدلهای تصویری از پیکسلها و مدلهای صوتی از فرکانسهای صوتی بهره میبرند. ترکیب این دادههای مختلف نیازمند فرآیندی به نام ادغام (fusion) است. به عنوان مثال، ترکیب کلمه «درخت»، تصویر یک درخت بلوط و صدای خشخش برگها میتواند به مدل کمک کند تا درک چندوجهی از مفهوم «درخت» داشته باشد. با وجود پیشرفتهای قابل توجه، چالشهایی همچنان باقی است. هماهنگسازی دادههای مختلف، مسائل مربوط به حریم خصوصی و افزایش پیچیدگی در آموزش مدلها از جمله موانعی هستند که پژوهشگران در تلاش برای غلبه بر آنها هستند. با وجود چالشهای فنی و اخلاقی، هوش مصنوعی چندوجهی نویدبخش آیندهای است که در آن تعامل انسان و ماشین به سطحی بیسابقه از درک و همکاری میرسد.