طراحی یک الگوریتم همانندجو برای تشخیص متون بازنویسی شده در زبان فارسی

طراحی یک الگوریتم همانندجو برای تشخیص متون بازنویسی شده در زبان فارسی
مهر ۱۳۹۶
نوع طرح پژوهشی: 
چکیده

پیشرفت تکنولوژی موجب آسان شدن انتشار و دسترسی به مدارک علمی و در نتیجه سهولت انجام سرقت علمی شده است. با توجه به این موضوع، مراکز علمی متمایل به آگاهی از میزان همانندی مدارک علمی جدید اعضا خود به مدارک علمی موجود می‌باشند. همانندی می‌تواند به شکل‌های همانندی آشکار (به صورت رونوشت تحت‌اللفظی از یک منبع بدون تغییر) و همانندی مستتر (به شکل‌های بازنویسی متن موجود در یک منبع، ترجمه متن موجود در یک منبع از یک زبان دیگر و سرقت ایده از منبعی دیگر) باشد. روش‌ها و نرم‌افزارهای زیادی برای همانندجویی ارائه شده اما از یک طرف، با توجه به قواعد و ویژگی‌های  خاص هر زبان، استفاده از روش‌ها و نرم‌افزارهای همانندجوی موجود برای سایر زبان‌ها به منظور همانندجویی در زبان فارسی ناممکن بوده و یا منجر به ارائه نتایجی نادقیق خواهد شد. از طرف دیگر، تحقیقات قابل دسترس انجام شده در زمینه همانندجویی در متون فارسی، تنها همانندی آشکار را در نظر گرفته‌اند. با توجه به اهمیت موضوع، در این طرح پژوهشی، به بررسی متداول‌ترین همانندی مستتر یعنی بازنویسی متن موجود در یک منبع دیگر در متون فارسی پرداخته خواهد شد. در این راستا، در ابتدا روش‌های همانندجوی موجود برای سایر زبان‌ها و ابزارهای موجود برای پردازش زبان فارسی مورد بررسی واقع می‌شوند. در ادامه، با توجه به ابزارهای موجود، دو الگوریتم‌ برای همانندجویی در متون فارسی بازنویسی شده طراحی خواهد شد. الگوریتم اول طراحی شده در دسته روش‌های همانندجویی معنایی و الگوریتم دوم در دسته روش‌های همانندجویی  فازی قرار می‌گیرند. در الگوریتم همانندجوی معنایی پیشنهادی برای بررسی همانندی دو واژه از لغت‌نامه و در الگوریتم فازی پیشنهادی از ماتریس هم‌رخدادی لغات استفاده شده است. در خاتمه، روش‌های پیشنهادی پیاده‌سازی گشته و با انجام آزمایشاتی کیفیت الگوریتم‌های ارائه شده بررسی شده است.

دسته‌بندی موضوعی: 
گروه پژوهشی: 
استناد: 

پاک‌نیت، نصراله. ۱۳۹۶. طراحی یک الگوریتم همانندجو برای تشخیص متون بازنویسی شده در زبان فارسی. تهران: پژوهشگاه علوم و فناوری اطلاعات ایران.

افزودن دیدگاه