تنظیم الگوریتمها برای کاهش بار داوری مقالات علمی
در طی یک جلسه، هوش مصنوعی هم مقالهها را نوشت و هم داوری کرد
نشریات و کنفرانسهای بزرگ علمی، اعتبار دادن به یک برنامه هوش مصنوعی مانند ChatGPT را بهعنوان نویسنده یا داور یک پژوهش ممنوع میکنند. استدلال این است که کامپیوترها قابل بازخواست نیستند.
چندی، یک نشست غیرمتعارف این تابو را زیر پا گذاشت و تمام ۴۸ مقاله ارائهشده از پروتئینهای طراحیشده تا سلامت روان ملزم بودند یک هوش مصنوعی را بهعنوان نویسنده اصلی ذکر کنند و توسط مدلهای هوش مصنوعی که نقش داور را داشتند بررسی شوند.
این نشست مجازی با عنوان Agents4-Science اولین رویدادی بود که موضوعی را بررسی کرد که تا یک سال پیش شبیه تخیل علمی به نظر میرسید.
- آیا هوشهای مصنوعی میتوانند در توسعه فرضیههای کاربردی، طراحی و اجرای محاسبات برای آزمودن آنها و نوشتن مقالهای که نتایج را خلاصه میکند، نقش اصلی را برعهده بگیرند؟
- آیا مدلهای زبانی بزرگ همان نوع هوش مصنوعی که ChatGPT را پشتیبانی میکند میتوانند سپس کار را به طور مؤثر ارزیابی کنند؟
«جیمز ژو» (James Zou)، پژوهشگر هوش مصنوعی از دانشگاه استنفورد و یکی از برگزارکنندگان اصلی کنفرانس میگوید: «هنوز مقداری انگزدن درباره استفاده از هوش مصنوعی وجود دارد و مردم تشویق میشوند که آن را پنهان یا کماهمیت کنند». به گفته ژو هدف کنفرانس این بود که: «این نوع پژوهش را آشکارا انجام دهیم تا بتوانیم دادههای واقعی را جمعآوری کنیم و بتوانیم به این سؤالات مهم پاسخ دهیم.» در نهایت، برگزارکنندگان امیدوارند پذیرش گستردهتر هوش مصنوعی بتواند روند گسترش و ترویج علم را شتاب دهد و بار سنگین کار داوران علمی که با حجم فزاینده ارسال مقالهها روبهرو هستند را کاهش دهد.
اما برخی پژوهشگران اساس این کنفرانس را رد میکنند. «رافائل سیریلو» (Raffaele Ciriello) از دانشگاه سیدنی که در حوزه نوآوری دیجیتال تحقیق میکند، در بیانیهای که «مرکز رسانه علم» (Science Media Centre) پیشازاین نشست منتشر کرد گفت: «هیچ انسانی نباید این عمل را با پژوهش علمی اشتباه بگیرد. علم یک کارخانه نیست که دادهها را به نتیجه تبدیل کند. علم یک فعالیت جمعی انسانی است که بر تفسیر، قضاوت و نقد استوار است. برخورد مکانیکی با روند پژوهش، مادامی که خروجیها از نظر آماری معتبر به نظر برسند؛ فرض میکند که فرایند پرسشگری بیاهمیت است.»
بیشتر ۳۱۵ مقاله ارسالشده به کنفرانس از ۱۸۰۰ شرکتکننده؛ توسط سه مدل زبانی بزرگ محبوب GPT-5، Gemini 2.5 Pro و Claude Sonnet 4 بررسی و با مقیاس ۶ امتیازی نمرهدهی شدند. نتایج برای هر مقاله میانگینگیری شد و سپس از داوران انسانی خواسته شد ۸۰ مقالهای را بررسی کنند که از یک حد آستانه نمره عبور کرده بودند. برگزارکنندگان در نهایت ۴۸ مقاله را باتوجهبه هر دو نوع داوری انسانی و هوش مصنوعی پذیرفتند.
یکی از مقالههای پذیرفتهشده که موردتوجه برگزارکنندگان قرار گرفت توسط «سرگئی اووچینیکوف» (Sergey Ovchinnikov)، زیستشناس MITارسال شده بود. تیم او از نسخههای پیشرفته ChatGPT خواست توالیهای اسیدآمینهای تولید کند که پروتئینهای فعال زیستی با ساختار «four-helix bundle» را کدنویسی کنند. دانشمندان معمولاً برای طراحی پروتئینها از نرمافزارهای تخصصی استفاده میکنند، اما برخلاف انتظار اووچینیکوف، ChatGPT بدون نیاز به اصلاح پرسش تیم، توالیهایی را تولید کرد. او و همکاران انسانیاش دو مورد از این توالیها را در آزمایشگاه آزمودند و تأیید کردند که پروتئینی مشتق از یکی از آنها، ساختار مارپیچی موردنظر را دارد. بااینحال، اووچینیکوف دریافت عملکرد ChatGPT بینقص نیست. بیشتر توالیها در آزمونی که احتمال تشکیل ساختار پروتئینی مطلوب را پیشبینی میکرد، امتیاز «اعتماد بالا» کسب نکردند.
دادههای ارائهشده در کنفرانس همچنین به بررسی نحوه همکاری پژوهشگران با هوش مصنوعی پرداخت. برگزارکنندگان از نویسندگان انسانی خواستند گزارش دهند که هوش مصنوعی در حوزههای کلیدی مانند تولید فرضیه، تحلیل داده و نگارش مقاله چه میزان مشارکت داشته است. هوش مصنوعی بیش از نیمی از کار تولید فرضیه را تنها در ۵۷ درصد از کل مقالات ارسالشده و ۵۲ درصد از مقالات پذیرفتهشده انجام داده بود؛ اما در حدود ۹۰ درصد از مقالات، هوش مصنوعی نقش بزرگی در نگارش داشت؛ شاید چون این وظیفه از نظر محاسباتی کمتر چالشبرانگیز است.
برخی نویسندگان انسانیِ ارائهدهنده در نشست عنوان کردند همکاری با هوش مصنوعی به آنها امکان داد کارهایی را که معمولاً روزها یا هفتهها طول میکشید، ظرف چند روز به پایان برسانند و همچنین همکاری میانرشتهای با پژوهشگران خارج از حوزه تخصصیشان را آسانتر کرد. اما آنها به معایب هوش مصنوعی هم اشاره کردند، از جمله تمایل به تفسیر اشتباه روشهای پیچیده، نوشتن کدی که انسانها مجبور به رفع خطاهای آن بودند و ساخت منابع بیربط یا غیرواقعی.
«ریسا وکسلر» (Risa Wechsler)، اخترفیزیکدان محاسباتی استنفورد که چند مقاله را داوری کرده بود، میگوید: «دانشمندان باید نسبت به استفاده از هوش مصنوعی در وظایفی که نیازمند استدلال عمیق مفهومی و قضاوت علمی هستند محتاط بمانند.» وکسلر در نشست پنل عنوان کرد: «من واقعاً درباره استفاده از هوش مصنوعی برای پژوهش هیجانزدهام، اما فکر میکنم این کنفرانس بهخوبی بسیاری از محدودیتها را هم نشان داد. من اصلاً قانع نیستم که عاملهای هوش مصنوعی در حال حاضر توانایی طراحی پرسشهای علمی محکم و پیشبرنده مرزهای علم را داشته باشند.» وکسلر میگوید یکی از مقالاتی که داوری کرده بود «شاید از لحاظ فنی درست بود، اما نه جالب بود و نه مهم. یکی از مهمترین چیزهایی که به دانشمندان انسانی آموزش میدهیم این است که سلیقه علمی خوب داشته باشند و نمیدانم چطور میتوانیم چنین چیزی را به هوش مصنوعی یاد بدهیم.»
برگزارکنندگان قصد دارند داوریهای انسانی و هوش مصنوعی را تحلیل و مقایسه کنند. اما نظراتی که درباره مقاله طراحی پروتئین اووچینیکوف ثبت شد نشان میدهد انسان و ماشین ممکن است اغلب با هم اختلافنظر داشته باشند. یک داور هوش مصنوعی آن را «عمیق» توصیف کرده بود. اما یک داور انسانی آن را «یک مطالعه جالبِ اثبات مفهومی با چند پرسش باقیمانده» عنوان کرد.
گزارش حاصر در نسخه 30October 2025 نشریه Science منتشر شده است.