یک مدل نوین مبتنی بر شبکه‌های عصبی عمیق برای برچسب‌گذاری اجزای واژگانی کلام

نوع مقاله : مقاله پژوهشی

نویسندگان

1 گروه کامپیوتر، دانشکده مهندسی کامپیوتر، دانشگاه یزد، یزد، ایران

2 دانشیار، دانشکده مهندسی کامپیوتر دانشگاه یزد - بخش هوش مصنوعی

چکیده

برچسب‌گذاری اجزای واژگانی کلام موضوع تحقیقاتی مهمی در حوزه‌ی پردازش زبان طبیعی است و پایه‌ی بسیاری از دیگر مباحث مطرح در این حوزه است. در این مقاله یک روش نوین برچسب‌گذاری اجزای واژگانی کلام به کمک شبکه‌های عصبی عمیق معرفی می‌گردد. هدف اصلی مدل پیشنهادی، استخراج چسب‌های عمیق و سطح بالا از متون و سپس طبقه‌بندی این ویژگی‌های سطح بالا می‌باشد. روش پیشنهادی متکی بر این ایده است که از شبکه‌ای عصبی عمیق کوچک می‌توان برای یافتن ویژگی‌های عمیق و تولید خروجی مطلوب بهره برد. روش موردنظر با استفاده از کتابخانه‌های تخصصی Tensorflow و Keras API در پایتون پیاده‌سازی و عملکرد آن بر روی مجموعه‌های داده استاندارد coNLL2000 ارزیابی گردید. نتایج آزمایش حاکی از آن است که روش پیشنهادی قابلیت استخراج ویژگی‌های سطح بالای واژگان زبان طبیعی را داشته و قادر است به ازای برچسب‌های پرتکرار و پرکاربرد به دقت قابل توجهی برسد. میانگین دقت مدل پیشنهادی به ازای برچسب‌های مختلف برابر 80.26% بوده است. بعلاوه، این روش قابلیت استفاده در محیط‌های متنوع و بر روی دستگاه‌های مختلف را نیز دارد.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

A New Deep Neural Networks Based Model for Part of Speech Tagging

چکیده [English]

Part of speech tagging is an important issue in natural language processing and is the base of many other major subjects in this field. In this article, a new method have been introduced for part of speech tagging using deep neural networks. The purpose of this method is solving problems that common other methods are facing with which are extract deep features from texts and classifying these features. The proposed method is based on that we can find deep features and product optimal output by using small deep neural networks. This method was implemented using Tensorflow's specialized libraries and Keras API in python and was evaluated on coNLL2000 standard dataset. The experimental results show that the proposed method is capable to extract high level features from natural language's words and is able to achieve considerable accuracy for repetitive tags. In addition, this method is able to be used in variant environments and on different devices.

کلیدواژه‌ها [English]

  • part of speech tagging
  • natural language processing
  • deep neural networks
  • convolution neural networks
  • ن. روح الامینی, م. شجاعی­مهر, ط. فتحی, م. مکی آبادی, " مروری بر روش های برچسب گذاری اجزای واژگانی کلام برای متن فارسی،" سومین همایش ملی دانش و فناوری مهندسی برق، کامپیوتر و مکانیک ایران، 1398.
  • Jurafsky and J. H. Martin, Speech and language processing: An introduction to natural language processing, computational linguistics and speech recognition: United state. Upper Saddle River, NJ: Pearson, 2000.
  • M. Nerabie, M. AlKhatib, S. S. Mathew, M. E. Barachi, and F. Oroumchian, “The impact of Arabic part of speech tagging on sentiment analysis: A new corpus and deep learning approach,” Procedia Comput. Sci., vol. 184, pp. 148–155, 2021.
  • Das and R. Chandra Balabantaray, “Sentiment Analysis of Movie Reviews using POS tags and Term Frequencies,” Int. J. Comput. Appl., vol. 96, no. 25, pp. 36–41, 2014.
  • Wang, K. Kim, B. Lee, and H. Y. Youn, “Word clustering based on POS feature for efficient twitter sentiment analysis,” Hum.-centric comput. inf. sci., vol. 8, no. 1, 2018.
  • K. Singh, M. Mukherjee, and G. K. Mehta, “Sentiment and mood analysis of weblogs using POS tagging based approach,” in Communications in Computer and Information Science, Berlin, Heidelberg: Springer Berlin Heidelberg, 2011, pp. 313–324.
  • Awwalu, S. E.-Y. Abdullahi, and A. E. Evwiekpaefe, “Parts of speech tagging: A review of techniques,” FUDMA JOURNAL OF SCIENCES, vol. 4, no. 2, pp. 712–721, 2020.
  • Pham, “Parts of speech tagging: Rule-based,” p. 1, 2020.
  • Dalal, N. Kumar,S. Uma,S. Sandeep,B. Pushpak, “Building Feature Rich POS Tagger for Morphologically Rich Languages: Experiences in Hindi,” 5th International Conference on Natural Language Processing, p.9, 2007.
  • AlKhwiter and N. Al-Twairesh, “Part-of-speech tagging for Arabic tweets using CRF and Bi-LSTM,” Comput. Speech Lang., vol. 65, no. 101138, p. 101138, 2021.
  • Delic, M. Secujski, A. Kupusinac, “Transformation-based part-of-speech tagging for Serbian language, ” Recent Advances Computing Intelligent Systems, 2011.
  • Forsati and M. Shamsfard, “Hybrid PoS-tagging: A cooperation of evolutionary and statistical approaches,” Appl. Math. Model., vol. 38, no. 13, pp. 3193–3211, 2014.
  • Alhasan and A. T. Al-Taani, “POS tagging for Arabic text using bee colony algorithm,” Procedia Comput. Sci., vol. 142, pp. 158–165, 2018.
  • Dhumal Deshmukh and A. Kiwelekar, “Deep learning techniques for part of speech tagging by natural language processing,” in 2020 2nd International Conference on Innovative Mechanisms for Industry Applications (ICIMIA), 2020.
  • Wagner, “Steven bird, Ewan Klein and Edward Loper: Natural language processing with python, analyzing text with the natural language toolkit: O’Reilly media, Beijing, 2009, ISBN 978-0-596-51649-9,” Lang. Resour. Eval., vol. 44, no. 4, pp. 421–424, 2010.