Filter by دسته‌ها
chatGTP
ابزارهای هوش مصنوعی
اخبار
گزارش خبری
پرامپت‌ نویسی
تیتر یک
چندرسانه ای
آموزش علوم داده
اینفوگرافیک
پادکست
ویدیو
دانش روز
آموزش‌های پایه‌ای هوش مصنوعی
اصول هوش مصنوعی
یادگیری بدون نظارت
یادگیری تقویتی
یادگیری عمیق
یادگیری نیمه نظارتی
آموزش‌های پیشرفته هوش مصنوعی
بینایی ماشین
پردازش زبان طبیعی
پردازش گفتار
چالش‌های عملیاتی
داده کاوی و بیگ دیتا
رایانش ابری و HPC
سیستم‌‌های امبدد
علوم شناختی
خطرات هوش مصنوعی
دیتاست
مدل‌های بنیادی
رویدادها
جیتکس
کاربردهای هوش مصنوعی
کتابخانه
اشخاص
شرکت‌های هوش مصنوعی
محصولات و مدل‌های هوش مصنوعی
مفاهیم
کسب‌و‌کار
تحلیل بازارهای هوش مصنوعی
کارآفرینی
هوش مصنوعی در ایران
هوش مصنوعی در جهان
مقاله
پیاده‌سازی هوش مصنوعی
گزارش
مصاحبه
هوش مصنوعی در عمل
 DeepSeek با رمزگذاری تصویری، مسیر تازه‌ای برای حافظه هوش مصنوعی می‌گشاید

این مدل نوآورانه به‌جای توکن‌های متنی، داده‌ها را به‌صورت تصویر بسته‌بندی می‌کند

DeepSeek با رمزگذاری تصویری، مسیر تازه‌ای برای حافظه هوش مصنوعی می‌گشاید

زمان مطالعه: 3 دقیقه

DeepSeek از تکنیک‌های جدید استفاده می‌کند که می‌توانند توانایی «به خاطر سپردن» در هوش مصنوعی را به‌طور چشمگیری بهبود دهند.

به نقل از MIT Technology Review این مدل OCR (تشخیص نوری کاراکتر) که چندی منتشر شد، با استخراج متن از یک تصویر و تبدیل آن به واژه‌های قابل خواندن برای ماشین کار می‌کند. این همان فناوری‌ای است که در اپلیکیشن‌های اسکنر، ترجمه متن روی تصاویر و بسیاری از ابزارهای دسترس‌پذیری به کار می‌رود.

OCR یک حوزه بالغ با سیستم‌های بسیار قدرتمند است و بر اساس مقاله و برخی ارزیابی‌های اولیه، مدل جدید DeepSeek در معیارهای کلیدی عملکردی هم‌تراز بهترین مدل‌های موجود عمل می‌کند. اما پژوهشگران می‌گویند نوآوری اصلی این مدل در روش پردازش اطلاعات آن و به طور مشخص، در نحوه ذخیره و بازیابی حافظه است. بهبود توانایی مدل‌های هوش مصنوعی در «به‌خاطرآوردن» اطلاعات می‌تواند توان پردازشی موردنیاز آن‌ها را کاهش دهد و در نتیجه، ردپای کربنی بزرگ (و روبه‌رشد) هوش مصنوعی را کاهش دهد.

در حال حاضر، اغلب LLMها متن را به هزاران واحد کوچک به نام توکن خرد می‌کنند. این کار متن را به نمایش‌هایی تبدیل می‌کند که مدل بتواند بفهمد. بااین‌حال، توکن‌ها با طولانی‌تر شدن مکالمه‌ها، هزینه ذخیره‌سازی و پردازش به‌سرعت سرسام‌آور می‌شود. وقتی یک کاربر مدت طولانی با یک هوش مصنوعی گفتگو می‌کند، این چالش باعث می‌شود مدل چیزهایی را که قبلاً گفته شده فراموش کند یا اطلاعات را قاطی کند؛ مشکلی که برخی آن را «پوسیدگی زمینه» (context rot) می‌نامند.

روش‌های جدیدی که DeepSeek توسعه داده (و در مقاله اخیرش منتشر کرده) می‌تواند به حل این مشکل کمک کند. به‌جای ذخیره‌سازی واژه‌ها به شکل توکن، این سیستم اطلاعات نوشتاری را در قالب تصویر بسته‌بندی می‌کند، تقریباً انگار دارد از صفحات یک کتاب عکس می‌گیرد. پژوهشگران یافته‌اند که این کار اجازه می‌دهد مدل تقریباً همان حجم اطلاعات را با تعداد بسیار کمتری توکن نگه دارد.

در اصل، مدل OCR یک بستر آزمایشی برای این روش‌های تازه است که اجازه می‌دهند اطلاعات بیشتری با کارایی بهتر در مدل‌ها جا بگیرند. علاوه بر استفاده از توکن‌های تصویری به‌جای توکن‌های صرفاً متنی، مدل بر پایه نوعی فشرده‌سازی چندلایه ساخته شده که مشابه محوشدن تدریجی خاطرات در انسان عمل می‌کند؛ یعنی محتوای قدیمی‌تر یا کم‌اهمیت‌تر در نسخه کمی تارتر ذخیره می‌شود تا در فضای ذخیره‌سازی صرفه‌جویی شود. بااین‌وجود، نویسندگان مقاله استدلال می‌کنند که این محتوای فشرده‌شده همچنان در پس‌زمینه قابل‌دسترسی است و هم‌زمان کارایی سیستم را هم بالا نگه می‌دارد.

توکن‌های متنی مدت‌هاست که واحد پیش‌فرض در سیستم‌های هوش مصنوعی هستند. استفاده از توکن‌های تصویری به‌جای آن‌ها غیرمعمول است و همین باعث شده مدل DeepSeek سریعاً توجه پژوهشگران را جلب کند. «آندره کارپاتی» (Andrej Karpathy)، مدیر پیشین بخش هوش مصنوعی تسلا و از بنیان‌گذاران OpenAI، در X از این مقاله تمجید کرد و گفت تصاویر ممکن است در نهایت ورودی‌های بهتری نسبت به متن برای مدل‌های زبانی بزرگ باشند و نوشت که توکن‌های متنی ممکن است «هدررفت» داشته باشند و «به طرز وحشتناکی برای ورودی نامناسب» باشند.

«منلینگ لی» (Manling Li) استادیار علوم کامپیوتر دانشگاه Northwestern، می‌گوید این مقاله چارچوب تازه‌ای برای حل چالش‌های موجود در حافظه هوش مصنوعی ارائه می‌دهد و «درحالی‌که ایده استفاده از توکن‌های مبتنی بر تصویر برای ذخیره زمینه کاملاً جدید نیست، این اولین مطالعه‌ای است که می‌بینم آن را تا این حد پیش برده و نشان داده که واقعاً ممکن است کار کند.»

«ژیهان وانگ» (Zihan Wang) دانشجوی دکتری در Northwestern نیز می‌گوید این روش می‌تواند امکانات جدیدی در پژوهش و کاربردهای هوش مصنوعی به‌ویژه در ساخت عامل‌های هوشمند مفیدتر ایجاد کند. او معتقد است که چون مکالمات با هوش مصنوعی پیوسته‌اند، این رویکرد می‌تواند به مدل‌ها کمک کند چیزهای بیشتری را به‌خاطر بسپارند و به شیوه مؤثرتری به کاربران کمک کنند.

این تکنیک همچنین می‌تواند برای تولید داده آموزشی بیشتر برای مدل‌های هوش مصنوعی به کار رود. توسعه‌دهندگان مدل‌ها اکنون با کمبود شدید متن باکیفیت برای آموزش روبه‌رو هستند. اما مقاله DeepSeek می‌گوید سیستم OCR این شرکت می‌تواند روی یک GPU بیش از ۲۰۰ هزار صفحه داده آموزشی در روز تولید کند.

بااین‌حال، این مدل و مقاله تنها یک بررسی اولیه از استفاده از توکن‌های تصویری به‌جای توکن‌های متنی برای حافظه‌سازی در مدل‌های هوش مصنوعی است. لی می‌گوید امیدوار است استفاده از توکن‌های تصویری نه فقط برای ذخیره حافظه، بلکه برای استدلال نیز گسترش یابد. او می‌گوید تحقیقات آینده باید بررسی کنند که چگونه می‌توان کاری کرد حافظه هوش مصنوعی به شکلی پویا‌تر محو شود؛ مشابه اینکه ما می‌توانیم یک لحظه تأثیرگذار سال‌ها پیش را به یاد بیاوریم اما یادمان نمی‌آید هفته گذشته چه ناهاری خورده‌ایم. در حال حاضر، حتی با روش‌های DeepSeek، هوش مصنوعی معمولاً به شکل خطی فراموش می‌کند و به یاد می‌آورد؛ هرچه را جدید بوده و نه لزوماً مهم‌تر بود را به یاد می‌آورد.

DeepSeek که در هانگژو چین مستقر است، شهرتی برای پیشروی در مرزهای پژوهش هوش مصنوعی پیدا کرده است. این شرکت در ابتدای سال جاری با انتشار DeepSeek-R1، یک مدل متن‌باز استدلالی که با وجود استفاده از منابع محاسباتی به‌مراتب کمتر، از نظر عملکرد با مدل‌های پیشرو غربی رقابت می‌کرد، صنعت هوش مصنوعی را شوکه کرد.

میانگین امتیاز / 5. تعداد ارا :

مطالب پیشنهادی مرتبط

اشتراک در
اطلاع از
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها

در جریان مهم‌ترین اتفاقات AI بمانید

هر هفته، خلاصه‌ای از اخبار، تحلیل‌ها و رویدادهای هوش مصنوعی را در ایمیل‌تان دریافت کنید.

[wpforms id="48325"]