این مدل نوآورانه بهجای توکنهای متنی، دادهها را بهصورت تصویر بستهبندی میکند
DeepSeek با رمزگذاری تصویری، مسیر تازهای برای حافظه هوش مصنوعی میگشاید
DeepSeek از تکنیکهای جدید استفاده میکند که میتوانند توانایی «به خاطر سپردن» در هوش مصنوعی را بهطور چشمگیری بهبود دهند.
به نقل از MIT Technology Review این مدل OCR (تشخیص نوری کاراکتر) که چندی منتشر شد، با استخراج متن از یک تصویر و تبدیل آن به واژههای قابل خواندن برای ماشین کار میکند. این همان فناوریای است که در اپلیکیشنهای اسکنر، ترجمه متن روی تصاویر و بسیاری از ابزارهای دسترسپذیری به کار میرود.
OCR یک حوزه بالغ با سیستمهای بسیار قدرتمند است و بر اساس مقاله و برخی ارزیابیهای اولیه، مدل جدید DeepSeek در معیارهای کلیدی عملکردی همتراز بهترین مدلهای موجود عمل میکند. اما پژوهشگران میگویند نوآوری اصلی این مدل در روش پردازش اطلاعات آن و به طور مشخص، در نحوه ذخیره و بازیابی حافظه است. بهبود توانایی مدلهای هوش مصنوعی در «بهخاطرآوردن» اطلاعات میتواند توان پردازشی موردنیاز آنها را کاهش دهد و در نتیجه، ردپای کربنی بزرگ (و روبهرشد) هوش مصنوعی را کاهش دهد.
در حال حاضر، اغلب LLMها متن را به هزاران واحد کوچک به نام توکن خرد میکنند. این کار متن را به نمایشهایی تبدیل میکند که مدل بتواند بفهمد. بااینحال، توکنها با طولانیتر شدن مکالمهها، هزینه ذخیرهسازی و پردازش بهسرعت سرسامآور میشود. وقتی یک کاربر مدت طولانی با یک هوش مصنوعی گفتگو میکند، این چالش باعث میشود مدل چیزهایی را که قبلاً گفته شده فراموش کند یا اطلاعات را قاطی کند؛ مشکلی که برخی آن را «پوسیدگی زمینه» (context rot) مینامند.
روشهای جدیدی که DeepSeek توسعه داده (و در مقاله اخیرش منتشر کرده) میتواند به حل این مشکل کمک کند. بهجای ذخیرهسازی واژهها به شکل توکن، این سیستم اطلاعات نوشتاری را در قالب تصویر بستهبندی میکند، تقریباً انگار دارد از صفحات یک کتاب عکس میگیرد. پژوهشگران یافتهاند که این کار اجازه میدهد مدل تقریباً همان حجم اطلاعات را با تعداد بسیار کمتری توکن نگه دارد.
در اصل، مدل OCR یک بستر آزمایشی برای این روشهای تازه است که اجازه میدهند اطلاعات بیشتری با کارایی بهتر در مدلها جا بگیرند. علاوه بر استفاده از توکنهای تصویری بهجای توکنهای صرفاً متنی، مدل بر پایه نوعی فشردهسازی چندلایه ساخته شده که مشابه محوشدن تدریجی خاطرات در انسان عمل میکند؛ یعنی محتوای قدیمیتر یا کماهمیتتر در نسخه کمی تارتر ذخیره میشود تا در فضای ذخیرهسازی صرفهجویی شود. بااینوجود، نویسندگان مقاله استدلال میکنند که این محتوای فشردهشده همچنان در پسزمینه قابلدسترسی است و همزمان کارایی سیستم را هم بالا نگه میدارد.
توکنهای متنی مدتهاست که واحد پیشفرض در سیستمهای هوش مصنوعی هستند. استفاده از توکنهای تصویری بهجای آنها غیرمعمول است و همین باعث شده مدل DeepSeek سریعاً توجه پژوهشگران را جلب کند. «آندره کارپاتی» (Andrej Karpathy)، مدیر پیشین بخش هوش مصنوعی تسلا و از بنیانگذاران OpenAI، در X از این مقاله تمجید کرد و گفت تصاویر ممکن است در نهایت ورودیهای بهتری نسبت به متن برای مدلهای زبانی بزرگ باشند و نوشت که توکنهای متنی ممکن است «هدررفت» داشته باشند و «به طرز وحشتناکی برای ورودی نامناسب» باشند.
«منلینگ لی» (Manling Li) استادیار علوم کامپیوتر دانشگاه Northwestern، میگوید این مقاله چارچوب تازهای برای حل چالشهای موجود در حافظه هوش مصنوعی ارائه میدهد و «درحالیکه ایده استفاده از توکنهای مبتنی بر تصویر برای ذخیره زمینه کاملاً جدید نیست، این اولین مطالعهای است که میبینم آن را تا این حد پیش برده و نشان داده که واقعاً ممکن است کار کند.»
«ژیهان وانگ» (Zihan Wang) دانشجوی دکتری در Northwestern نیز میگوید این روش میتواند امکانات جدیدی در پژوهش و کاربردهای هوش مصنوعی بهویژه در ساخت عاملهای هوشمند مفیدتر ایجاد کند. او معتقد است که چون مکالمات با هوش مصنوعی پیوستهاند، این رویکرد میتواند به مدلها کمک کند چیزهای بیشتری را بهخاطر بسپارند و به شیوه مؤثرتری به کاربران کمک کنند.
این تکنیک همچنین میتواند برای تولید داده آموزشی بیشتر برای مدلهای هوش مصنوعی به کار رود. توسعهدهندگان مدلها اکنون با کمبود شدید متن باکیفیت برای آموزش روبهرو هستند. اما مقاله DeepSeek میگوید سیستم OCR این شرکت میتواند روی یک GPU بیش از ۲۰۰ هزار صفحه داده آموزشی در روز تولید کند.
بااینحال، این مدل و مقاله تنها یک بررسی اولیه از استفاده از توکنهای تصویری بهجای توکنهای متنی برای حافظهسازی در مدلهای هوش مصنوعی است. لی میگوید امیدوار است استفاده از توکنهای تصویری نه فقط برای ذخیره حافظه، بلکه برای استدلال نیز گسترش یابد. او میگوید تحقیقات آینده باید بررسی کنند که چگونه میتوان کاری کرد حافظه هوش مصنوعی به شکلی پویاتر محو شود؛ مشابه اینکه ما میتوانیم یک لحظه تأثیرگذار سالها پیش را به یاد بیاوریم اما یادمان نمیآید هفته گذشته چه ناهاری خوردهایم. در حال حاضر، حتی با روشهای DeepSeek، هوش مصنوعی معمولاً به شکل خطی فراموش میکند و به یاد میآورد؛ هرچه را جدید بوده و نه لزوماً مهمتر بود را به یاد میآورد.
DeepSeek که در هانگژو چین مستقر است، شهرتی برای پیشروی در مرزهای پژوهش هوش مصنوعی پیدا کرده است. این شرکت در ابتدای سال جاری با انتشار DeepSeek-R1، یک مدل متنباز استدلالی که با وجود استفاده از منابع محاسباتی بهمراتب کمتر، از نظر عملکرد با مدلهای پیشرو غربی رقابت میکرد، صنعت هوش مصنوعی را شوکه کرد.