طراحی سامانه برچسب‌دهی به اجزا کلام برای متون فارسی

طراحی سامانه برچسب‌دهی به اجزا کلام برای متون فارسی
تاریخ: 
اسفند ۱۳۹۵
نوع طرح پژوهشی: 
وضعیت طرح: 
دسته‌بندی موضوعی: 
چکیده: 

برچسب­‌گذاری اجزا واژگانی کلام، عمل انتساب برچسب­‌های واژگانی به کلمات و نشانه­‌های تشکیل‌دهنده یک متن است؛ به این صورت که برچسب­‌ها نشان­‌دهنده مقوله نحوی کلمات و نشانه­‌ها (مانند: اسم، فعل، صفت، قید و...) در جمله باشند. نمونه­‌ای از متن کوتاه برچسب‌خورده به صورت زیر آورده شده است:

 

.پژوهشگراندانشگاهاوهایوطیتحقیقاتیدریافتند
DELMN_PL_COM_GENN_SING_LOC_GENN_SING_LOC_PRN_SING_COM_GENN_PL_COM_INYAV_PA_SIM_POS_3

 

.گروهتحقیقاتیدکتربرامبا
DELMN_SING_GR_GENADJ_SIM_GENN_SING_SURNN_SING_PRP_GENR

 

برچسب‌­گذاری اجزا واژگانی کلام، عملی کاربردی در بسیاری از حوزه‌­های پیشرفته‌­تر پردازش زبان طبیعی از جمله ترجمه ماشینی، خطایاب، تبدیل متن به گفتار، بازیابی اطلاعات، موتورهای جستجو و کمک به مدل‌های آماری است. همچنین در طراحی سیستم نمایه‌­ساز ماشینی، یکی از بخش­‌ها، طراحی زیرسیستم­‌ها است که خود بخش­‌های گوناگونی دارد، یکی از این بخش‌­ها، زیرسیستم تحلیل واژگانی است. این زیرسیستم، متن را به واژه­‌ها تفکیک می­‌کند و ماهیت هر کلمه را تشخیص می­‌دهد و تشخیص نوع واژه و شناسایی فعل­‌ها، الفاظ و اصطلاح­‌ها را در بر دارد. بنابراین سیستم برچسب‌­دهی خودکار، ماهیت مقوله کلمات را مشخص می­‌کند تا بتوان در مراحل بعدی از این اطلاعات در جهت استخراج کلیدواژه­‌ها یا هر نوع بازیابی اطلاعات از متن، استفاده کرد.

    تاکنون نرم‌افزارهایی جهت برچسب‌دهی خودکار اجزا کلام در متن برای فارسی تهیه شده است، اما مسئله هم‌­نگاره­‌ها مسئله‌ای مهم است که باید در این سیستم‌ها در نظر گرفته شود. زبان فارسی ظرفیت بالایی برای ساخت هم‌­نگاره‌­های جدید که از ساخت­‌واژه فارسی نشات می­گیرند را دارد. بسیاری از وندها، اشتقاقی و تصریفی، نمود نوشتاری مشابه دارند و در اتصال به ستاک، هم­‌نگاره­‌های گوناگون می­سازند. به عنوان مثال، نمود نوشتاری وند تصریفی نکره­‌ساز  ‎/ i /  و وند اشتقاقی صفت­‌ساز ‎/ i /  یکسان است («-ی») و کلماتی مانند: «آسمانی» و «اسلامی»، فارغ از بافت، می­‌توانند هم برچسب «اسم» داشته باشند و هم «صفت». بنابراین، در صورت رفع ابهام از برچسب نحوی این هم‌­نگاره­‌ها (هم‌­نگاره­‌های اسمی و صفتی مختوم به «-ی» که فراوانی بالایی در پیکره‌­های متنی فارسی دارند)، رفع ابهام معنایی از کلمات که گامی مهم در پردازش متن است نیز با سهولت بیشتری انجام خواهد شد. بنابراین، به کاربردن نرم‌­افزاری که بتواند برچسب نحوی چنین هم­‌نگاره­‌هایی را، پس از مرحله برچسب­‌دهی خودکار، چک کند، بسیار مفید است و صحت برچسب­‌دهی را بالاتر خواهد برد. هدف طرح پژوهشی حاضر طراحی سامانه برچسب‌دهی به اجزا کلام است که در واقع بر اساس سیستمی بهبودیافته طراحی می شود. از نتیجه پژوهش در جهت برچسب‌دهی به اجزا کلام در متون ایرانداک استفاده خواهد شد.

طبقه بندی موضوعی: 
فایل پیوست: 
استناد: 
علایی‌ابوذر، الهام. ۱۳۹۵. طراحی سامانه برچسب‌دهی به اجزا کلام برای متون فارسی. تهران: پژوهشگاه علوم و فناوری اطلاعات ایران.

افزودن دیدگاه

پشتیبانی فنی