HTML برای جلوگیری از بروز هالوسینیشنها در مدلهای زبان بزرگ
اخیراً و با راهاندازی SearchGPT، کاربران گزارشهایی از مشکل توهم (هالوسینیشن) در این سرویس را دادهاند، چالشی که چندان جدید نیست. در واقع موتور جستجوی محبوب Perplexity نیز با این مشکل دست و پنجه نرم میکند، اما خبر خوب این است که اخیراً یک تیم تحقیقاتی از چین مقالهای با عنوان «Html بهتر از متن ساده برای مدلسازی دانش بازیابیشده در سیستمهای RAG» منتشر کرده است. این مقاله ممکن است به عنوان یک راهحل برای مقابله با مشکل هالوسینیشن در موتورهای جستجو مبتنی بر هوش مصنوعی عمل کند.
همچنین این مقاله استفاده از فرمت HTML را برای سیستمهای RAG بررسی میکند. این سیستمها به طور خاص برای بهبود عملکرد مدلهای زبان بزرگ (LLMs) با ارائه دانش خارجی طراحی شدهاند. نویسندگان مقاله استدلال میکنند که استفاده از HTML به جای متن ساده میتواند اطلاعات ساختاری و معنایی نهفته در صفحات وب را بهتر حفظ کند.
برای حفظ ساختار HTML به طور مؤثر، نویسندگان روشهایی مانند الگوریتم هرس دو مرحلهای را پیشنهاد کردهاند که به مدلهای زبان کمک میکند تا متن ورودی را به طور مؤثری کوتاه کنند بدون اینکه اطلاعات کلیدی از دست برود.
مشکلی که این تحقیق به دنبال حل کردن آن است
روش RAG به رویکردی محبوب برای تقویت قابلیتهای دانشی مدلهای زبان بزرگ (LLMs) و کاهش تمایل آنها به هالوسینیشن (توهم دانش) تبدیل شده است. سیستمهای تجاری مانند ChatGPT و Perplexity به طور فزایندهای از موتورهای جستجوی وب به عنوان سیستمهای بازیابی اصلی استفاده میکنند که معمولاً شامل بازیابی نتایج جستجو، دانلود منابع HTML و استخراج متن ساده است.
با این حال، فرآیند سنتی RAG اغلب منجر به از دست رفتن اطلاعات ساختاری و معنایی ارزشمند موجود در HTML میشود. عناصر حیاتی مانند عناوین و ساختار جداول در طول استخراج متن از بین میروند که این امر عمق و غنای اطلاعات بازیابی شده را تضعیف میکند.
«الویس ساراویا»، یکی از بنیانگذاران DAIR.AI، در پست لینکدین خود توضیح داد که برای حل مشکل طولانی بودن اسناد HTML در پنجرههای متنی مدلهای زبان بزرگ (LLM)، نویسندگان یک روش هرس (کاهش حجم) دو مرحلهای را معرفی کردهاند. در مرحله اول، عناصر غیرضروری HTML پاکسازی میشوند که این کار باعث کاهش 94 درصدی طول متن میشود.
سپس در مرحله دوم، رویکرد هرس مبتنی بر ساختار بلوک درختی به کار میرود که ترکیبی از هرس مبتنی بر جاسازی و هرس مولد است و به کاهش بیشتر محتوا کمک میکند، در حالی که اطلاعات مهم حفظ میشود.
با این حال، استفاده از HTML چالشهای خاص خود را دارد، از جمله اضافه شدن عناصری مانند تگها، جاوا اسکریپت و مشخصات CSS که ممکن است موجب افزایش نویز و افزایش تعداد توکنهای ورودی شوند. روش پیشنهادی بر اساس یک تکنیک هرس مبتنی بر ساختار بلوک درختی با دو مرحله است که به طور استراتژیک بلوکهای HTML غیرضروری را حذف کرده و تنها اجزای مرتبط و ضروری سند را حفظ میکند. این تکنیک باعث میشود که ادغام دانش به طور مؤثرتر و دقیقتری انجام شود، بدون اینکه عمق معنایی یا غنای زمینهای اطلاعات از دست برود.
علاوه بر HTML، بحثی نیز درباره استفاده از Markdown وجود دارد، یک زبان نشانهگذاری سبک که به کاربران امکان میدهد متن ساده را با استفاده از نمادهای خاص قالببندی کنند. جذابیت اصلی Markdown برای توسعهدهندگان در سادگی و سهولت آن است، به همین دلیل بسیاری از اپلیکیشنهای مدرن یادداشتبرداری، به طور معمول بر اساس این زبان طراحی میشوند.
«کریستینا بلدراین»، مشاور و مدرس نرمافزار، پیشنهاد کرد که Markdown گزینه بهتری برای این کار باشد. او گفت: «Markdown اطلاعات معنایی و ساختاری را ارائه میدهد، بدون اینکه نیاز به پاکسازی و یا هرس داشته باشد.» همچنین کریستینا بلدراین افزود که استفاده از Markdown میتواند کارهای هرس را کاهش دهد و روند استفاده از HTML را سادهتر کند.
مشکل اینجاست که با وجود محبوبیت Markdown، نمیتوان آن را با HTML مقایسه کرد، بهویژه از نظر میزان اهمیتی که هنوز HTML در دنیای وب دارد. قبل از پرداختن به پیشرفتهایی مثل RAG، منطقیتر است که ابتدا به HTML توجه کنیم، چون این تکنولوژی امکانات بیشتری ارائه میدهد.
چی چیزی HtmlRAG را خاص میکند؟
اگر بیشتر بررسی کنید، متوجه خواهید شد که روشهای مشابهی قبلاً پیادهسازی شدهاند. برای مثال، جستجوی Vertex AI گوگل قابلیتهای پیشرفته پردازش HTML را به کار گرفته و جستجوی Azure AI مایکروسافت قابلیت جستجوی برداری را برای اسناد HTML ارائه میدهد.
با وجود ارائه این روشها، HtmlRAG یک رویکرد کاملاً متفاوت دارد. این تکنیک به جای تبدیل HTML به متن ساده، مستقیماً ساختار HTML را وارد فرایند RAG میکند. این کار باعث میشود اطلاعات معنایی و ساختاری مهمی مانند عناوین، جداول و روابط سلسلهمراتبی حفظ شوند، در حالی که در روشهای معمول ممکن است این اطلاعات از دست بروند.
ویژگیهایی مانند هرس مبتنی بر درخت بلوک و ساختار قابل تنظیم آن، به HtmlRAG این امکان را میدهند که محتوای وب را با کارایی بیشتری نسبت به سیستمهای سنتی RAG پردازش کند، در حالی که همچنان اطلاعات زمینهای و غنی موجود در اسناد HTML حفظ میشوند.