بررسی آماری تأثیرات مدلهای زبانی بزرگ بر روند انتشار مقالات آکادمیک
سایه سنگین ChatGPT بر سر مقالات آکادمیک
از زمان انتشار ChatGPT در نوامبر ۲۰۲۲، استفاده از مدلهای زبانی بزرگ در زمینههای مختلف و متفاوتی از نوشتن متن سخنرانی گرفته تا تنظیم قرارداد، همهگیر شده است؛ بنابراین عجیب نیست که برخی پژوهشگران نیز از ChatGPT برای تسریع روند انتشار نتایج تحقیقات خود بهره ببرند.
اما بااینحال، به گزارش Phys.org هنوز اطلاعات کمی درباره اینکه استفاده از محتوای تولیدشده توسط هوش مصنوعی چگونه میتواند بر تنوع، کیفیت و اعتبار مقالات علمی اثر بگذارد، وجود دارد. همچنین، ازآنجاکه این فناوریها نوظهور و در حال تکامل مداوم هستند، هنوز روشی قطعی برای شناسایی و اثبات استفاده از LLMها وجود ندارد و بسیاری از مؤسسات نیز همچنان در حال تدوین سیاستهایی برای محدود کردن کاربرد آنها هستند.
نمایش قدرت LLMها
برای درک بهتر میزان استفاده از ChatGPT در نگارش مقالات علمی در سالهای اخیر، گروهی از پژوهشگران مطالعهای انجام دادند که در آن ۱,۱۲۱,۹۱۲ مقاله علمی چاپشده و مقالات در مرحله نسخه پیش از انتشار (Preprint) از پایگاههای arXiv ،bioRxiv و مجلات مجموعه Nature را تحلیل کردند. این پژوهش که در مجله Nature Human Behaviour منتشر شده؛ از یک چارچوب جمعیتمحور (Population-level Framework) جدید و مبتنی بر تغییرات فراوانی واژگان، برای برآورد میزان افزایش محتوای ویرایششده با LLMها بین ژانویه ۲۰۲۰ تا سپتامبر ۲۰۲۴ استفاده کرده است.
نتایج این مطالعه نشان داد که بخش چکیده و مقدمه مقالات بیشترین تأثیرپذیری از LLMها را داشتهاند، درحالیکه بخشهای روششناسی و آزمایشها کمتر تحتتأثیر بودهاند. علت این امر نیز احتمالاً به دلیل توانایی این مدلها در خلاصهسازی مطالب است. نرخ افزایش پیوسته استفاده از ChatGPT و سایر LLMها در رشتهها و حوزههای مختلفی مشاهده شده اما بیشترین رشد مربوط به علوم رایانه است؛ رشتهای که به طور طبیعی ارتباط نزدیکی با هوش مصنوعی دارد.
بازی با آمار
بر اساس این تحلیل، تا سپتامبر ۲۰۲۴، نشانههایی از استفاده احتمالی از LLMها در ۲۲.۵درصد چکیدهها و ۱۹.۵درصد مقدمههای مقالات علوم رایانه دیده شده است. درحالیکه در نوامبر ۲۰۲۲ این رقم در حدود ۲.۴درصد و تقریباً در همه حوزهها و انواع مقالات مشابه بوده است. همچنین در رشته مهندسی برق نیز تا سال ۲۰۲۴ میزان استفاده احتمالی از LLMها بالا بوده است بهطوریکه گمان میشود ۱۸درصد در چکیدهها و ۱۸.۴درصد در مقدمهها در مدلهای زبانی بزرگ استفاده شده باشد در مقابل، استفاده از LLMها در حوزههایی مانند ریاضیات بسیار کمتر بوده است؛ ۷.۷درصد در چکیدهها و ۴.۱درصد در مقدمهها. مجلات منتشرشده در مجموعه Nature نیز رشد کمتری را نشان دادهاند؛ تنها ۸.۹درصد در چکیدهها و ۹.۴درصد در مقدمهها.
علاوه بر رشتههای علمی، این تحلیل بر اساس تعداد مقالات در مرحله نسخه پیش از انتشار توسط نویسندگان، طول مقاله و منطقه جغرافیایی نیز تفکیک شده که در برخی موارد، پژوهشگران میزان استفاده بالاتری از LLMها را یافتند. نویسندگان با تعداد مقالات Preprint بیشتر، نسبت به سایر نویسندگان به میزان بیشتری از LLM در مقالات خود استفاده کرده بودند که علت آن را احتمالاً به دلیل فشار بیشتر برای انتشار سریعتر مقالات میتوان دانست. همچنین، مقالات کوتاه (کمتر از ۵۰۰۰ کلمه) بهویژه در حوزههای پژوهشی رقابتیتر مانند علوم رایانه به میزان بیشتری از کمک LLMها بهره برده بودند.
شناسایی متن تولیدشده توسط هوش مصنوعی در مناطق غیرانگلیسیزبان دشوارتر است. پیشتر نیز به وجود نوعی سوگیری در روشهای شناسایی AI علیه نویسندگان غیرانگلیسیزبان در مقالات علمی اشاره شده بود. اما این مطالعه نشان داد که میزان استفاده از LLMها در مقالات چینی و اروپای مرکزی بیشتر از آمریکای شمالی و بریتانیا بوده؛ هرچند بخش قابلتوجهی از این استفاده احتمالاً برای کمک به نگارش به زبان انگلیسی بوده است.
آینده نگارش آکادمیک
با سرعت بالای تحول حوزه هوش مصنوعی در سالهای آینده، این فناوری پتانسیل تغییر شیوه نگارش و ارتباطات علمی را دارد؛ تغییری که پرسشهایی جدی در مورد شفافیت، اصالت و آینده انتشار علمی ایجاد میکند. نویسندگان این مطالعه به پرسشهای متعددی اشاره میکنند که باید با گسترش استفاده از این فناوریها در علم پاسخ داده شوند. مشاهدات از افزایش مقالات تولید یا ویرایششده با LLM پرسشهای زیادی را برای تحقیقات آینده ایجاد میکند.
دقت، خلاقیت یا تنوع این مقالات چگونه با دیگر مقالات مقایسه میشود؟
خوانندگان چگونه به چکیدهها و مقدمههای تولیدشده با LLM واکنش نشان میدهند؟
الگوهای استناد به مقالات LLMمحور در مقایسه با مقالات مشابه در همان حوزهها چه تفاوتی دارد؟
سلطه تعداد محدودی از شرکتهای خصوصی بر صنعت LLM چه تأثیری بر استقلال خروجیهای علمی خواهد گذاشت؟
این تیم تحقیقاتی عنوان میکند: «امیدواریم یافتهها و روششناسی ما الهامبخش مطالعات بیشتری درباره گسترش مقالات آکادمیک ویرایششده با LLM و آغازگر مباحثههایی درباره راهکارهای ارتقا شفافیت، تنوع و کیفیت بالای نشر علمی باشد.»