همانندجویی در متون فارسی بازنویسی شده با استفاده از روش‌های معنایی و احتمالاتی

همانندجویی در متون فارسی بازنویسی شده با استفاده از روش‌های معنایی و احتمالاتی
درجه علمی نشریه: 
دوره: 
۳۴
شماره: 
۴
شماره صفحه (از - تا): 
۱۸۱۱-۱۸۳۶
چکیده

در یک روش همانندجویی هدف تشخیص تمام قسمت‌های همانند موجود در یک متن مشکوک با توجه به یک یا چند متن منبع احتمالی است. روش‌ها و نرم‌افزارهای زیادی برای همانندجویی ارائه شده اما از یک طرف، با توجه به قواعد و ویژگی‌های خاص هر زبان، استفاده از روش‌ها و نرم‌افزارهای همانندجوی موجود برای سایر زبان‌ها به منظور همانندجویی در زبان فارسی ناممکن بوده و یا منجر به ارائه نتایجی نادقیق خواهد شد. از طرف دیگر، اغلب روش‌های ارائه شده برای همانندجویی در زبان فارسی، تنها قادر به تشخیص قسمت‌های دقیقا یکسان بوده و نمی‌توانند متون بازنویسی شده را تشخیص دهند. با توجه به این مهم، در این مقاله دو روش همانندجوی جدید با هدف تشخیص متون بازنویسی شده در زبان فارسی ارائه خواهد شد. روش اول پیشنهادی در دسته روش‌های همانندجویی معنایی قرار گرفته و از لغت‌نامه جهت بررسی همانندی جملات متون استفاده می‌کند. روش دوم پیشنهادی در دسته روش‌های همانندجویی احتمالاتی قرار گرفته و از اطلاعات آماری به دست آمده از پیکره‌ای عظیم از متون فارسی برای همانندجویی استفاده می‌کند. روش معنایی پیشنهادی در مقایسه با روش‌های معنایی موجود از معیارهای جدیدتری برای بررسی همانندی متون استفاده کرده و روش احتمالاتی پیشنهادی اولین روش همانندجویی احتمالاتی ارائه شده برای زبان فارسی است. علاوه بر این، در حالیکه در سایر روش‌های موجود، همانندی هر دو جمله از متون موردنظر به صورت مستقل بررسی می‌شود، در روش‌های پیشنهادی همانندی جملات همسایه نیز در بررسی همانندی دو جمله در نظر گرفته شده است. نتایج پیاده‌سازی و آزمایشات صورت گرفته بر روی روش‌های پیشنهادی نشان می‌دهد که در حالیکه هر دو روش از کیفیت مناسب و تقریبا یکسانی برخوردار هستند، روش همانندجوی احتمالاتی پیشنهادی بسیار کاراتر بوده و زمان همانندجویی با استفاده از آن در حدود ۳.۸% زمان موردنیاز برای همانندجویی با استفاده از الگوریتم همانندجوی معنایی پیشنهادی است.

استناد: 

پاک‌نیت، نصراله، و آزاده محبی. ۱۳۹۸. همانندجویی در متون فارسی بازنویسی شده با استفاده از روش‌های معنایی و احتمالاتی. پژوهش‌نامه پردازش و مدیریت اطلاعات ۳۴ (۴): ۱۸۱۱-۱۸۳۶.

مقاله ادواری علمی
وضعیت انتشار: 

افزودن دیدگاه