تشخیص خودکار متون تولید شده توسط ماشین مبتنی بر مدل‌های زبانی و یادگیری عمیق

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشجوی کارشناسی ارشد دانشگاه جامع امام حسین(ع)

2 استادیار دانشگاه جامع امام حسین(ع)

3 پژوهشگر دانشگاه جامع امام حسین(ع)

چکیده

امروزه با رشد چشمگیر هوش مصنوعی و تولیدات آن، فرصت‌ها و تهدیدات زیادی به وجود آمده است. یکی از معروف‌ترین و محبوب‌ترین تولیدات هوش ‌مصنوعی تولید متن است که به آن متن ماشینی نیز گفته می‌شود. در این پژوهش روش جدیدی معرفی می‌شود که ویژگی‌های استخراج شده از متن را با ویژگی‌های ساختاری آن ترکیب کرده و به این ترتیب برای تشخیص متن نوشته شده توسط انسان و متن تولیدی هوش‌مصنوعی، یک متمایزگر خودکار ایجاد می‌کند. روش معرفی شده متشکل از دو بخش می‌باشد، بخش اول: مدل توسعه یافته‌ی (RoBERTa) BERT و مدل حافظه‌‌ای کوتاه مدت بلند مدت دو سویه (BiLSTM) است که با لایه‌ی ادغام بهبود یافته‌اند. بخش دوم: ویژگی‌های ساختاری متن با روشی مبتنی بر سبک نوشتار استخراج می‌شود. در نهایت خروجی بخش‌های مدل باهم ترکیب شده و به این ترتیب مدل متن نوشته شده توسط انسان را از متن تولید شده توسط ماشین تشخیص می‌دهد. نتایج حاصل از این پژوهش نشان می‌دهد که روش پیشنهادی با دقت 90 درصدی قابلیت تشخیص متون ماشینی را داشته و عملکرد مطلوبی را از خود به نمایش می‌گذارد.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Automatic detection of machine-generated texts based on linguistic models and deep learning

نویسندگان [English]

  • Abolfazl Shirafkan 1
  • mahdi naghavi 2
  • Meysam Mirzaee 3
1 Master's student at Imam Hussein (AS) Comprehensive University
2 Assistant Professor, Imam Hussein University
3 Researcher at Imam Hussein (AS) Comprehensive University
چکیده [English]

Today, with the significant growth of artificial intelligence and its products, many opportunities and threats have emerged. One of the most famous and popular products of artificial intelligence is text generation, also called machine text. In this research, a new method is introduced that combines features extracted from the text with its structural features, thus creating an automatic discriminator to distinguish between human-written text and artificial intelligence-generated text. The introduced method consists of two parts, the first part: the extended BERT (RoBERTa) model and the bidirectional long-term short-term memory (BiLSTM) model, which are improved with the fusion layer. The second part: the structural features of the text are extracted using a writing style-based method. Finally, the output of the model parts is combined together, and in this way, the model distinguishes human-written text from machine-generated text. The results of this research show that the proposed method is capable of recognizing machine texts with 90% accuracy and exhibits good performance.

کلیدواژه‌ها [English]

  • Deep learning
  • writing style based model
  • RoBERTa
  • BiLSTM