خبر

پایان طرح پژوهشی «طراحی یک روش هوشمند تجزیه رشته‌های مرجع در زبان فارسی»

پایان طرح پژوهشی «طراحی یک روش هوشمند تجزیه رشته‌های مرجع در زبان فارسی»

طرح پژوهشی دکتر نصراله پاک‌نیت با نام «طراحی یک روش هوشمند تجزیه رشته‌های مرجع در زبان فارسی» با همکاری دکتر جلال‌الدین نصیری و دکتر عمار جلالی‌منش و با نظارت دکتر آزاده محبی به پایان رسید.

 به گزارش «روابط‌ عمومی پژوهشگاه علوم و فناوری اطلاعات ایران» در نشست ۳۲۱ شورای پژوهش که در ۳۰ بهمن ۱۳۹۷ برگزار شد، طرح پژوهشی «طراحی یک روش هوشمند تجزیه رشته‌های مرجع در زبان فارسی» توسط دکتر نصراله پاک‌نیت، استادیار پژوهشکده علوم اطلاعات به پایان رسید.

یک رشته مرجع را می‌توان به عنوان مجموعه‌ای از مولفه‌ها مانند نام نویسندگان، عنوان، محل نشر، سال نشر، شماره صفحات و ... در نظر گرفت. در حالی‌که تجزیه رشته‌های مرجع موجود در انتهای یک مدرک علمی توسط کاربر انسانی به راحتی انجام‌پذیر است، تنوع موجود در فرمت‌های نگارش رشته‌های مرجع در کنار اشتباهات رخ داده توسط نویسندگان در نگارش این رشته‌ها، خودکارسازی انجام این عملیات را سخت کرده است. روش‌های زیادی برای خودکارسازی تجزیه رشته‌های مرجع ارائه شده است اما این روش‌ها وابسته به زبان بوده و امکان استفاده از یک روش ارائه شده برای یک زبان در زبانی دیگر منجر به نتایجی اشتباه می‌شود. تحقیقات صورت‌گرفته بیان‌گر این است که تاکنون هیچ روشی برای خودکارسازی تجزیه رشته‌های مرجع در زبان فارسی ارائه نشده است. با توجه به این مهم و نقش گسترده این مساله در ساخت خودکار شبکه‌های استنادی مدارک علمی و فرایندهای بازیابی اطلاعات، در این طرح پژوهشی به این مساله پرداخته شده است. در این راستا، پس از بررسی پیشینه مسئله، از روش یادگیری ماشین بردار پشتیبان به عنوان یک دسته‌بند چند دسته‌ای استفاده شده و یک روش هوشمند برای مسئله تجزیه رشته‌های مرجع در زبان فارسی ارائه شده است. با توجه به اهمیت انتخاب ویژگی‌های مناسب برای استفاده در دسته‌بند ماشین بردار پشتیبان، در این پژوهش این مهم با توجه به ویژگی‌های استفاده شده در زبان انگلیسی و ویژگی‌های زبان فارسی و ارجاع‌دهی در این زبان انجام شده است. روش ارائه شده پیاده‌سازی شده و با استفاده از مجموعه داده‌ای شامل ۹۲۲ رشته مرجع فارسی ایجاد شده در این پژوهش آموزش داده شده و مورد آزمایش قرار گرفته است. نتایج به دست آمده نشانگر مقدار ۹۲% برای پارامترهای دقت، فراخوانی و  F1 می‌باشد.

افزودن دیدگاه