رفع ابهام از برچسب نحوی هم‌نگاره‌های اسمی و صفتی فارسی

 رفع ابهام از برچسب نحوی هم‌نگاره‌های اسمی و صفتی فارسی
دى ۱۳۹۵
نوع طرح پژوهشی: 
چکیده

هم‌­نگاره­‌های بسیاری در فارسی به دلیل پیچیدگی­‌های موجود در ساخت­‌واژه فارسی، به وجود می­‌آیند. بررسی هم­‌نگاره‌­ها در پیکره­‌های متنی فارسی نشان می­‌دهد اکثر این هم­‌نگاره‌ها، در اثر یکسان‌بودن نمود نوشتاری تکواژ یای نکره، یای اسم­‌ساز، شناسه دوم شخص مفرد، یای صفت‌­ساز و یای متصل به گروه اسمی ایجاد شده­‌اند. در صورت رفع ابهام از برچسب نحوی این هم­‌نگاره­‌ها (هم‌­نگاره­‌های اسمی و صفتی مختوم به «ی»)، رفع ابهام معنایی از کلمات که گامی مهم در پردازش متن است و کاربردهای بسیاری، از جمله یادگیری ماشینی، بازیابی اطلاعات، ترجمه ماشینی، تبدیل متن به گفتار، تجزیه معنایی، تشخیص و سنتز گفتار و واژه‌­نگاری در حوزه زبان­‌شناسی رایانشی دارد، نیز با سهولت بیشتری انجام خواهد شد. در پژوهش حاضر ابتدا فهرست مبسوطی از هم‌نگاره‌­های اسمی و صفتی مختوم به «ی» با تعریف تعداد  ۱۰ پنجره، به عبارتی دیگر، ۱۰ کلمه قبل و بعد از هر هم­‌نگاره مختوم به «ی»، در پیکره بی­جن­‌خان (که پیکره­ای است برچسب‌­خورده) تهیه شد؛ از آنجایی­‌که همه کلمات موجود در چنین پیکره­­ای دارای برچسب نحوی می‌­باشند، قواعد حساس به بافت نحوی جهت رفع ابهام از برچسب نحوی هم‌­نگاره­‌های مختوم به «ی» استخراج شد. سپس جهت بررسی صحت قواعد مذکور، برنامه ماشینی تهیه شد که صحت قواعد مستخرج از بررسی هم­‌نگاره­‌های مختوم به «ی» را با در نظر گرفتن تعداد هم­‌نگاره‌­های بررسی شده در پیکره که می‌­توان قاعده را در مورد آن­ها بررسی کرد، تعداد موارد منطبق با هر قاعده، درصد موارد منطبق با هر قاعده، تعداد موارد مغایر با هر قاعده (تعداد موارد نقض) و درصد موارد مغایر با هر قاعده می­‌سنجید. در نهایت بررسی ماشینی صحت قواعد نشان می­‌دهد، صحت بیش از نیمی از قواعد بالای ۷۰% است.

دسته‌بندی موضوعی: 
استناد: 

علایی ابوذر، الهام. ۱۳۹۵. رفع ابهام از برچسب نحوی هم‌نگاره‌های اسمی و صفتی فارسی. تهران: پژوهشگاه علوم و فناوری اطلاعات ایران.

افزودن دیدگاه