طراحی یک روش هوشمند تجزیه رشته‌های مرجع در زبان فارسی

چکیده: 
یک رشته مرجع عبارت است از یک مورد ارجاع در انتهای یک مدرک علمی و در بخش مراجع آن. یک رشته مرجع را می‌توان به عنوان مجموعه‌ای از مولفه‌ها مانند نام نویسندگان، عنوان، محل نشر، سال نشر، شماره صفحات و ... در نظر گرفت. بسته به ترتیب قرارگیری مولفه‌های ذکر شده، یک رشته مرجع ممکن است به اشکال و فرمت‌های گوناگون نوشته شود. در حالی‌ که تجزیه رشته‌های مرجع موجود در انتهای یک مدرک علمی توسط کاربر انسانی به راحتی انجام‌پذیر است، تنوع موجود در فرمت‌های نگارش رشته‌های مرجع در کنار اشتباهات رخ داده توسط نویسندگان در نگارش این رشته‌ها، خودکارسازی انجام این عملیات را سخت کرده است. تجزیه خودکار رشته‌های مرجع، گام ابتدایی و ضروری برای کارهای پیشرفته‌تری مانند تطبیق رشته‌های مرجع و تحلیل مراجع و ماخذ می‌باشد. روش‌های زیادی برای خودکارسازی تجزیه رشته‌های مرجع ارائه شده است؛ اما متاسفانه این روش‌ها شدیدا وابسته به زبان بوده و استفاده از یک روش ارائه شده برای یک زبان در زبانی دیگر منجر به نتایجی اشتباه می‌شود. تحقیقات صورت گرفته بیان‌گر این است که تاکنون هیچ روشی برای خودکارسازی تجزیه رشته‌های مرجع در زبان فارسی ارائه نشده است. با توجه به این مهم و نقش گسترده این مساله در ساخت خودکار شبکه‌های استنادی مدارک علمی و فرایندهای بازیابی اطلاعات، در این طرح پژوهشی به این مساله پرداخته و با استفاده از قواعد موجود در زمینه استناددهی و تکنیک‌های یادگیری ماشین، روشی جهت تجزیه خودکار رشته‌های مرجع  نوشته شده به زبان فارسی و استخراج مولفه‌های آن ارائه خواهد شد. در ادامه، روش ارائه شده را پیاده‌سازی نموده و کیفیت آن را بررسی می‌کنیم.
دسته‌بندی موضوعی: 
استناد: 

پاک‌نیت، نصراله، جلال‌الدین نصیری، و عمار جلالی‌منش. زودآیند. طراحی یک روش هوشمند تجزیه رشته‌های مرجع در زبان فارسی. تهران: پژوهشگاه علوم و فناوری اطلاعات ایران.

افزودن دیدگاه