خبر

پایان طرح پژوهشی «طراحی سامانه برچسب‌دهی به اجزاء کلام برای متون فارسی»

پایان طرح پژوهشی «طراحی سامانه برچسب‌دهی به اجزای کلام برای متون فارسی»

طرح پژوهشی دکتر الهام علایی ابوذر با عنوان «طراحی سامانه برچسب‌دهی به اجزای کلام برای متون فارسی» به پایان رسید.

به گزارش«روابط‌ عمومی پژوهشگاه علوم و فناوری اطلاعات ایران» در نشست ۲۸۵ شورای پژوهش که در یازدهم اردیبهشت ۱۳۹۷ برگزار شد، طرح پژوهشی «طراحی سامانه برچسب‌دهی به اجزای کلام برای متون فارسی» توسط دکتر الهام علایی ابوذر، عضو هیئت‌علمی پژوهشکده علوم اطلاعات به پایان رسید.

در این پژوهش به این مسئله پرداخته شده است که آیا با رفع ابهام از برچسب نحوی هم‌نگاره‌های اسمی و صفتی مختوم به «-ی»، که فراوانی بالایی در پیکره‌های متنی فارسی دارند، کارایی یک سیستم برچسب‌زنی خودکار، افزایش می‌یابد و در نهایت می‌توان سامانه‌ای طراحی کرد که عمل برچسب‌دهی خودکار را با در نظر گرفتن رفع ابهام از برچسب هم‌نگاره‌های اسمی و صفتی مختوم به «-ی» در فارسی، با کارایی بهتری انجام دهد؟ سیستم مورد مطالعه در پژوهش فوق، سیستم «هضم» بوده است. در این پژوهش، نرم‌افزاری جهت رفع ابهام از برچسب نحوی هم‌نگاره‌های اسمی و صفتی مختوم به «-ی» در فارسی، تهیه شده که خود مبتنی بر الگوهای حساس به بافت نحوی است که بر اساس این الگوها می‌توان برچسب درست را به هم‌نگاره‌های مذکور اختصاص داد. ارزیابی کلی نرم‌افزار تهیه شده جهت رفع ابهام از برچسب نحوی هم‌نگاره‌های اسمی و صفتی مختوم به «-ی» در فارسی، نشان داده اگر تنها الگوهای حساس به بافت نحوی که تاثیر مثبت در برچسب‌زنی داشته‌اند را به برچسب‌زن «هضم» اضافه کرد، صحت (Accuracy) کلی برچسب‌زن ۹۵.۶۹۱ درصد می‌شود که ۱.۳۴ درصد نسبت به حالتی که از تمام الگوهای حساس به بافت نحوی استفاده ‌شود، بالاتر است. این مسئله در تهیه سامانه برچسب‌گذاری اجزای کلام لحاظ شده و گزینه‌ای تحت عنوان «رفع ابهام» در سامانه در نظر گرفته شده است. سامانه برچسب‌گذاری اجزای کلام، امکان وارد کردن متون گوناگون فارسی، برچسب‌گذاری مقوله‌ای کلمات تشکیل‌دهنده متون، مشاهده فهرست کلمات برچسب‌خورده همراه با فراوانی آن کلمات در متن، مشاهده فراوانی برچسب‌ها در متن، مشاهده فهرست اسم‌ها به ترتیب فراوانی آن‌ها در متن، رفع ابهام از برچسب برخی از هم‌نگاره‌های اسمی و صفتی فارسی و دریافت خروجی هر کدام از فهرست‌ها را فراهم می‌آورد.

افزودن دیدگاه