طراحی سامانه برچسب‌دهی به اجزا کلام برای متون فارسی

طراحی سامانه برچسب‌دهی به اجزا کلام برای متون فارسی
ارديبهشت ۱۳۹۷
نوع طرح پژوهشی: 
چکیده

 

در پژوهش حاضر به این مسئله پرداخته شد که آیا با رفع ابهام از برچسب نحوی هم‌نگاره‌های اسمی و صفتی مختوم به «-ی»، که فراوانی بالایی در پیکره‌های متنی فارسی دارند، کارایی یک سیستم برچسب‌زنی خودکار، افزایش می‌یابد و در نهایت می‌توان سامانه‌ای طراحی کرد که عمل برچسب‌دهی خودکار را با در نظر گرفتن رفع ابهام از برچسب هم‌نگاره‌های اسمی و صفتی مختوم به «-ی» در فارسی، با کارایی بهتری انجام دهد؟ سیستم مورد مطالعه در پژوهش حاضر، سیستم «هضم» بود. در پژوهش حاضر، نرم‌افزاری جهت رفع ابهام از برچسب نحوی هم‌نگاره‌های اسمی و صفتی مختوم به «-ی» در فارسی، تهیه شد که خود مبتنی بر الگوهای حساس به بافت نحوی است که بر اساس این الگوها می‌توان برچسب درست را به هم‌نگار‌های مذکور اختصاص داد. ارزیابی کلی نرم‌افزار تهیه شده جهت رفع ابهام از برچسب نحوی هم‌نگاره‌های اسمی و صفتی مختوم به «-ی» در فارسی، نشان می‌دهد اگر تنها الگوهای حساس به بافت نحوی که تاثیر مثبت در برچسب‌زنی داشته‌اند را به برچسب‌زن «هضم» اضافه کنیم، صحت (Accuracy) کلی برچسب‌زن ۹۵.۶۹۱ درصد می‌شود که ۱.۳۴ درصد نسبت به حالتی که از تمام الگوهای حساس به بافت نحوی استفاده ‌شود، بالاتر است. این مسئله در تهیه سامانه برچسب‌گذاری اجزای کلام لحاظ شد و گزینه‌ای تحت عنوان «رفع ابهام» در سامانه در نظر گرفته شد. سامانه برچسب‌گذاری اجزای کلام، امکان وارد کردن متون گوناگون فارسی، برچسب‌گذاری مقوله‌ای کلمات تشکیل‌دهنده متون، مشاهده فهرست کلمات برچسب‌خورده همراه با فراوانی آن کلمات در متن، مشاهده فراوانی برچسب‌ها در متن، مشاهده فهرست اسم‌ها به ترتیب فراوانی آن‌ها در متن، رفع ابهام از برچسب برخی از هم‌نگاره‌های اسمی و صفتی فارسی و دریافت خروجی هر کدام از فهرست‌ها را فراهم می‌آورد.

 

دسته‌بندی موضوعی: 
استناد: 

علایی‌ابوذر، الهام. ۱۳۹۷. طراحی سامانه برچسب‌دهی به اجزا کلام برای متون فارسی. تهران: پژوهشگاه علوم و فناوری اطلاعات ایران.

افزودن دیدگاه