خلاصه سازی استخراجی متن با استقاده از مجموعه الگوریتم‌های خلاصه‌سازی و روش Sa-TRB

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دپارتمان فنی مهندسی دانشگاه تبریز - تبریز - ایران

2 استاد گروه مهندسی کامپیوتر - دانشکده مهندسی برق و کامپیوتر دانشگاه تبریز- تبریز- ایران

چکیده

خلاصه‌سازی استخراجی متن یک تکنیک ضروری در پردازش زبان طبیعی است که با استخراج مهمترین جملات به تولید نسخه‌های فشرده از متن کمک می‌کند. در خلاصه‌سازی استخراجی جملاتی که حاوی اطلاعات مفید و مرتبط هستند برای خلاصه نهایی انتخاب می‌شوند. به منظور شناسایی این جملات الگوریتم‌های متفاوتی وجود دارند که عملکرد و خلاصه ایجاد شده از هرکدام بر اساس نوع متن و اندازه خلاصه مورد نیاز متفاوت است. در این مقاله روشی با نام Sa-TRB ارائه شده‌است، که برگرفته از دو الگوریتم TextRank و BERT بوده و علاوه بر استفاده از این دو روش از اشتراک جملات ایجاد شده سایر الگوریتم‌ها نیز بهره می‌برد تا دقت بالایی در انتخاب جملات خلاصه نهایی داشته باشد. مهمترین معیار برای ارزیابی عملکرد الگوریتم‌ها کیفیت خلاصه نهایی آنهاست، چنانکه هر چقدر خلاصه نهایی ایجاد شده توسط این الگوریتم‌ها به خلاصه ایجاد شده توسط انسان مشابه باشد، کیفیت خلاصه ایجاد شده بهتر است. برای به دست آوردن اندازه این تشابه از معیارهای روش ROUGE استفاده می‌شود. در نهایت با انجام آزمایش‌هایی روی دیتاست cnn-dailymail با اندازه خلاصه‌های مختلف نشان داده می‌شود که روش پیشنهادی با افزایش اندازه خلاصه مورد نیاز با وجود کاهش در معیار فراخوانی دارای دقت، امتیاز و در نتیجه کیفیت بالاتر خلاصه نهایی است، به طوری که در دو آزمایش آخر که نرخ فشردگی 20 و 25 درصد است، امتیاز روش پیشنهادی به 24.68 و 23.34 درصد رسیده است که تقریبا یک درصد از بهترین روش‌های آزمایش شده دیگر بهتر است.

کلیدواژه‌ها


عنوان مقاله [English]

Extractive Automatic Text Summarization using integrated set of algorithms and Sa-TRB method

نویسندگان [English]

  • Abolfazl Sadrolsadati 1
  • Mohammad-Reza Feizi-Derakhshi 2
1 Department of Computer Engineering, Faculty of Electrical & Computer Engineering, University of Tabriz, Tabriz, Iran
2 Department of Computer Engineering, Faculty of Electrical & Computer Engineering, University of Tabriz, Tabriz, Iran
چکیده [English]

Extractive summarization of text is an essential technique in natural language processing, which helps to produce compact versions of text by extracting the most important sentences. Since the task of shortening and summarizing a text document is time-consuming and exhausting, an automatic system for creating these short versions of the text seems necessary. In extractive summarization, sentences that contain useful and relevant information are usually selected for the final summary. In order to identify these sentences, there are different algorithms, the performance and summary created by each one is different based on the type and scope of the text and the size of the required summary. In this article, a method called Sa-TRB is presented, which is derived from two algorithms, TextRank and BERT, and in addition to using these two methods, it also uses the common sentences created by other algorithms to achieve high accuracy in selection. Have final summary sentences. The most important criterion for evaluating the performance of algorithms is the quality of their final summary, so the more the final summary created by these algorithms is similar to the summary created by humans, the better the quality of the created summary is. ROUGE criteria have been used to obtain the size of this similarity. Finally, by conducting experiments on the cnn-dailymail dataset with different sizes of summaries, it is shown that the proposed method, by increasing the size of the required summaries, despite the decrease in the recall criterion, has accuracy, score and, as a result, higher quality of the final summaries. So, in the last two tests, the score of the proposed method has reached 24.68 and 23.34%, which is almost one percent better than the best tested methods.

کلیدواژه‌ها [English]

  • TextRank
  • BERT
  • LSA
  • Sa-TRB
  • ROUGE