ارائه سیستم خلاصه‌ساز متون فارسی بر مبنای ویژگی‌های زبان‌شناختی و رگرسیون

ارائه سیستم خلاصه‌ساز متون فارسی بر مبنای ویژگی‌های زبان‌شناختی و رگرسیون
درجه علمی نشریه: 
دوره: 
۳۳
شماره: 
۴
شماره صفحه (از - تا): 
۱۸۴۵-۱۸۶۴
چکیده

گسترش روزافزون داده‌های متنی فارسی در فضای اینترنت و پیچیدگی جست‌و‌جو در میان انبوه این اسناد، خلاصه‌سازی خودکار متون فارسی را به یکی از زمینه‌های تحقیقاتی مورد توجه تبدیل کرده است. در این مقاله روشی کارا برای خلاصه‌سازی خودکار متون فارسی ارائه شده است. روش پیشنهادی که به‌ صورت انتخابی و تک سندی است، خلاصه‌سازی را بر اساس رتبه‌بندی جملات و انتخاب مهم‌ترین آنها انجام می‌دهد. اهمیت هر جمله متن با ترکیب خطی مقادیر هفت ویژگی زبان شناختی مستخرج از سند برای هر جمله بدست می‌آید. وزن بهینه هر ویژگی در این ترکیب از روش رگرسیون خطی و با استفاده از پیکره آموزشی پاسخ محاسبه ‌شده است. پس از محاسبه اهمیت جملات متن، الگوریتم چرخشی جملات پراهمیت را تا رسیدن به نرخ فشرده‌سازی یک جمله انتخاب می‌کند. این جمله علاوه بر دارا بودن بیشترین اهمیت، دارای کمترین میزان شباهت با جملات انتخاب‌شده در مراحل قبلی نیز است. نتایج بدست آمده از مقایسه الگوریتم پیشنهادی با دو سیستم خلاصه‌ساز ایجاز و فارسی‌سام با استفاده از پیکره پاسخ، نشان می‌دهد در بیشتر معیارهای ارزیابی پیشرفت قابل توجهی حاصل‌ شده است.

استناد: 

سلطانی، محمود، جلال‌الدین نصیری، و احسان عسکریان. ۱۳۹۷. ارائه سیستم خلاصه‌ساز متون فارسی بر مبنای ویژگی‌های زبان‌شناختی و رگرسیون. پژوهش‌نامه پردازش و مدیریت اطلاعات ۳۳ (۴): ۱۸۴۵-۱۸۶۴.

مقاله ادواری علمی
دوره انتشار: 
وضعیت انتشار: 
نمایه‌شده در: 

افزودن دیدگاه