در پژوهش حاضر به این مسئله پرداخته شد که آیا با رفع ابهام از برچسب نحوی همنگارههای اسمی و صفتی مختوم به «-ی»، که فراوانی بالایی در پیکرههای متنی فارسی دارند، کارایی یک سیستم برچسبزنی خودکار، افزایش مییابد و در نهایت میتوان سامانهای طراحی کرد که عمل برچسبدهی خودکار را با در نظر گرفتن رفع ابهام از برچسب همنگارههای اسمی و صفتی مختوم به «-ی» در فارسی، با کارایی بهتری انجام دهد؟ سیستم مورد مطالعه در پژوهش حاضر، سیستم «هضم» بود. در پژوهش حاضر، نرمافزاری جهت رفع ابهام از برچسب نحوی همنگارههای اسمی و صفتی مختوم به «-ی» در فارسی، تهیه شد که خود مبتنی بر الگوهای حساس به بافت نحوی است که بر اساس این الگوها میتوان برچسب درست را به همنگارهای مذکور اختصاص داد. ارزیابی کلی نرمافزار تهیه شده جهت رفع ابهام از برچسب نحوی همنگارههای اسمی و صفتی مختوم به «-ی» در فارسی، نشان میدهد اگر تنها الگوهای حساس به بافت نحوی که تاثیر مثبت در برچسبزنی داشتهاند را به برچسبزن «هضم» اضافه کنیم، صحت (Accuracy) کلی برچسبزن ۹۵.۶۹۱ درصد میشود که ۱.۳۴ درصد نسبت به حالتی که از تمام الگوهای حساس به بافت نحوی استفاده شود، بالاتر است. این مسئله در تهیه سامانه برچسبگذاری اجزای کلام لحاظ شد و گزینهای تحت عنوان «رفع ابهام» در سامانه در نظر گرفته شد. سامانه برچسبگذاری اجزای کلام، امکان وارد کردن متون گوناگون فارسی، برچسبگذاری مقولهای کلمات تشکیلدهنده متون، مشاهده فهرست کلمات برچسبخورده همراه با فراوانی آن کلمات در متن، مشاهده فراوانی برچسبها در متن، مشاهده فهرست اسمها به ترتیب فراوانی آنها در متن، رفع ابهام از برچسب برخی از همنگارههای اسمی و صفتی فارسی و دریافت خروجی هر کدام از فهرستها را فراهم میآورد.
علاییابوذر، الهام. ۱۳۹۷. طراحی سامانه برچسبدهی به اجزا کلام برای متون فارسی. تهران: پژوهشگاه علوم و فناوری اطلاعات ایران.
افزودن دیدگاه