صفحه اصلی > اخبار : مجلات علمی زیر سیل مقالات «کپی‌شده» توسط هوش مصنوعی

مجلات علمی زیر سیل مقالات «کپی‌شده» توسط هوش مصنوعی

 یک تحلیل از یک پایگاه داده مقالات علمی نشان می‌دهد که ابزارهای هوش مصنوعی تولیدکننده متن از جمله چت جی‌پی‌تی و جمینای می‌توانند برای بازنویسی مقالات علمی و تولید نسخه‌های «کپی‌شده» به‌کار گرفته شوند؛ نسخه‌هایی که سپس به‌عنوان تحقیقات جدید معرفی می‌شوند.

به نقل از نیچر، در یک نسخه پیش‌چاپ مقاله‌ای که قبل از بررسی همتا منتشر می‌شود که در ۱۲ سپتامبر در پایگاه medRxiv قرار گرفت، پژوهشگران بیش از ۴۰۰ مقاله از این نوع را شناسایی کردند که در ۱۱۲ مجله در طول ۴.۵ سال گذشته منتشر شده‌اند. آن‌ها نشان دادند که مطالعات زیست‌پزشکی تولیدشده توسط هوش مصنوعی می‌توانند از سد بررسی‌های ضدسرقت علمی ناشران عبور کنند. نویسندگان این مطالعه هشدار می‌دهند که افراد و کارخانه‌های مقاله که شرکت‌هایی هستند که مقالات جعلی تولید می‌کنند و می‌فروشند، ممکن است با سوءاستفاده از مجموعه‌داده‌های سلامت عمومی و استفاده از مدل‌های زبانی بزرگ اقدام به تولید انبوه مقالات بی‌کیفیت و بی‌ارزش علمی کنند.

چابا سابو (Csaba Szabó)، داروشناس در دانشگاه فریبورگ سوئیس که در این پژوهش دخیل نبوده است، می‌گوید: اگر این مسئله حل‌نشده باقی بماند، این رویکرد مبتنی بر هوش مصنوعی می‌تواند روی همه پایگاه‌های داده متن‌باز به‌کار رود و تعداد بسیار بیشتری مقاله تولید شود؛ بیش از چیزی که بتوان تصور کرد. این می‌تواند رویدادی پر از خطرات غیرقابل‌کنترل را شکل دهد و مقالات علمی را با مقالات مصنوعی جایگزین کند.

پژوهش تکراری

برای بررسی این موضوع، پژوهشگران مطالعات ارتباطی مطالعاتی که ارتباط آماری بین یک متغیر و یک پیامد سلامت را بررسی می‌کنند را که بر اساس داده‌های پیمایش ملی سلامت و تغذیه ایالات متحده که یک پایگاه عظیم داده درباره سلامت، تغذیه و سبک زندگی هزاران نفر است، غربال کردند.

آن‌ها بررسی خود را روی مطالعاتی متمرکز کردند که آن‌ها را «تکراری» تعریف کردند؛ یعنی مطالعاتی که ارتباط بین یک متغیر و یک پیامد سلامت را مثل تحقیقات دیگر آزمایش کرده بودند، اما با کمی تغییر در بخش کوچکی از داده‌ها برای مثال نتایج سال‌های متفاوت پیمایش یا شرکت‌کنندگان در گروه سنی یا جنسیت متفاوت را آزمایش کرده‌ بودند.

جست‌وجوی آن‌ها نشان داد ۴۱۱ مطالعه تکراری بین ماه ژانویه سال ۲۰۲۱ تا ژوئیه ۲۰۲۵ منتشر شده‌اند. بیشتر این‌ها موارد «تکراری» بودند که شامل دو مقاله تقریبا یکسان نیز می‌شد.

مت اسپیک زیست‌پزشک در دانشگاه سوری (Surrey) بریتانیا و نویسنده همکار این مقاله می‌گوید: این نباید اتفاق بیفتد و کمکی به سلامت مقالات علمی نمی‌کند.

بیشتر ناشران سازوکارهایی برای جلوگیری از ارسال یک تحقیق مشابه به چند مجله دارند، اما اسپیک و همکارانش مشکوک‌ هستند که ممکن است ابزارهای هوش مصنوعی برای دور زدن این سازوکارها استفاده می‌شوند.

دور زدن شناسایی

برای آزمایش اینکه آیا هوش مصنوعی می‌تواند به تولید چند مقاله از یک مجموعه داده کمک کند، پژوهشگران از چت‌بات چت جی‌پی‌تی و جمینای گوگل برای بازنویسی سه مقاله از تکراری‌ترین مقالات استفاده کردند که هر کدام یک ارتباط خاص را گزارش می‌کرد که پیش‌تر از پنج یا ۶ بار منتشر شده بود. آن‌ها از مدل‌های زبانی خواستند که بر اساس اطلاعات همان مقاله و داده‌های NHANES یک دست‌نوشته جدید تولید کنند که بتواند از سد ابزارهای شناسایی سرقت علمی بگذرد.

اسپیک می‌گوید: ما شوکه شدیم که بلافاصله جواب داد. مقالات کامل و بی‌نقص نبودند و مدل‌های زبانی چند خطا ایجاد کردند. ولی تنها دو ساعت کار ویرایش برای هر دست‌نوشته لازم بود.

وقتی این مقالات با ابزار شناسایی سرقت علمی که بسیاری از ناشران استفاده می‌کنند بررسی شدند، نمره‌ای به دست آوردند که از نظر ویراستاران مشکل‌ساز تلقی نمی‌شد. این نشان می‌دهد که مدل‌های زبانی می‌توانند چیزی مشتق شده از همه مطالعات قبلی تولید کنند بدون اینکه چیز جدیدی اضافه کنند. اما باز هم از سد بررسی‌های سرقت علمی عبور کنند. این مسئله تشخیص میان پژوهشگرانی که مطالعه واقعی با داده‌های عمومی مانند NHANES انجام می‌دهند و کسانی که عمدا با مدل‌های زبانی مقالات تکراری می‌سازند را سخت‌تر می‌کند.

ایگور رودان از دانشگاه ادینبورگ، بریتانیا، که متخصص سلامت عمومی جهانی است، می‌گوید: این‌ها چالش‌های کاملا جدیدی برای ویراستاران و ناشران است. وقتی اولین بار مدل‌های زبانی بزرگ را امتحان کردیم، فورا فهمیدیم که این یک مشکل خواهد شد، و این پیش‌چاپ آن را تایید می‌کند.

چالشی جدی

در ماه ژوئیه، اسپیک و همکارانش گزارش دادند که یک افزایش شدید در انتشار مقالات بی‌کیفیت و قالبی که کلیشه‌ای و تکراری هستند با استفاده از NHANES و دیگر پایگاه‌های سلامت عمومی رخ داده است؛ چیزی که آن‌ها به آن مظنون بودند توسط هوش مصنوعی تشدید شده است. تحلیل کنونی یک جهش بزرگ در مطالعات تکراری NHANES بعد از سال ۲۰۲۲ نشان داد که همان سالی که چت جی‌پی‌تی عمومی شد.

برخی ناشران، از جمله Frontiers در لوزان سوئیس و Public Library of Science (PLOS)  در سان‌فرانسیسکو، برای مقابله با این موضوع قوانین ویراستاری سخت‌گیرانه‌تری برای پذیرش مطالعات مبتنی بر پایگاه‌های داده سلامت عمومی مانند NHANES وضع کرده‌اند.

ریچارد وایت، مدیر ویراستاری Scientific Reports می‌گوید: ما مسئولیت خودمان در حفظ اعتبار سابقه علمی را بسیار جدی می‌گیریم و همه مقالات اشاره‌شده در این پیش‌چاپ بررسی خواهند شد و اقدامات لازم صورت خواهد گرفت. او افزود این مجله از ابتدای سال ۲۰۲۴ بیش از ۴۵۰۰ مقاله مبتنی بر NHANES را رد کرده است.

دیدگاه‌ها درباره ارزش برخی تحلیل‌ها با داده‌های NHANES و مشابه آن متفاوت است، و ما متعهد هستیم که هم از کل جامعه علمی حمایت کنیم و هم مطمئن شویم آنچه منتشر می‌کنیم ارزشمند است. تمرکز ما روی ایجاد بررسی‌های درست است تا مقالات غیراخلاقی یا بی‌معنی حذف شوند، در حالی که همچنان مقالات معتبر و ارزشمند بر اساس این داده‌ها منتشر شوند. ما کاملاً از نگرانی‌ها درباره استفاده نامناسب از این پایگاه‌های داده آگاه هستیم و اقدامات مستمری در حال انجام داریم.

منبع: ایسنا

مطالب مرتبط

«شرحی بر حماسه‌های منظوم فارسی رامایانا» منتشر شد

کتاب «شرحی بر حماسه‌های منظوم فارسی رامایانا» نوشته پریسا سلطانی از سوی انتشارات استاد شهریار به چاپ رسید.

8 مهر 1404

نخستین گمانه‌زنی‌ها درباره برنده نوبل ادبیات

با نزدیک شدن به موعد اعلام برنده نوبل ادبیات ۲۰۲۵ گمانه‌زنی‌هایی درباره برنده امسال این جایزه صورت گرفته و همچنان نام نویسندگان پرآوازه‌ای همچون «هاروکی موراکامی» و «مارگارت اتوود» در بین شانس‌های احتمالی به چشم می‌خورد.

8 مهر 1404

فراخوان جایزه جهانی مستقل روزنامه‌نگاری «داستان واقعی»

هیئت برگزارکننده جایزه جهانی مستقل روزنامه‌نگاری «داستان واقعی» (True Story Award) برای دریافت آثار روزنامه‌نگاران سراسر جهان در دوره ششم فراخوان داد.

8 مهر 1404

دیدگاهتان را بنویسید