ارائه روشی هوشمند برای استخراج کلیدواژه از مستندات علمی زبان فارسی بر اساس سیستم‌های پیشنهاددهنده

ارائه روشی هوشمند برای استخراج کلیدواژه از مستندات علمی زبان فارسی بر اساس سیستم‌های پیشنهاددهنده
همکار(ان): 
اسفند ۱۳۹۷
نوع طرح پژوهشی: 
چکیده

استخراج کلیدواژه یکی از مهمترین قدم‌های نمایه‌سازی مستندات محسوب می‌شود. کلیدواژه‌های یک سند، توصیفگرهای مفهومی هستند که می‌توانند در جست‌و‌جو و بازیابی اطلاعات و نیز اشاعه آنها بکارگرفته شوند. در پایگاه‌های دربردارنده اسناد علمی مانند پایگاه علمی گنج پژوهشگاه علوم و فناوری اطلاعات ایران، کلیدواژه‌ها نقش مهمتری دارند، و تخصیص کلیدواژه‌های تخصصی نیز چالش‌برانگیزتر خواهد بود، زیرا در این پایگاه‌ها اسناد تخصصی با حوزه‌های علمی مختلفی وجود دارند. با توجه به افزایش حجم تولید و ثبت مستندات علمی، نیاز است که فرایند نمایه‌ساز و تخصیص کلیدواژه با سرعت بیشتری صورت گیرد و از روش‌های ماشینی هوشمند برای پیشنهاد و تخصیص کلیدواژه استفاده گردد. در بسیاری از پایگاه‌های اطلاعات علمی دنیا از روش‌های ماشینی و خودکار در کلیه فعالیت‌های فرایند نمایه‌سازی یا بخشی از آنها استفاده می‌شود. تعدادی از این روش‌ها بر مبنای تحلیل آماری متون و استفاده از روش‌های یادگیری ماشین هستند، تعدادی بر مبنای تحلیل معنایی متون به واسطه اصطلاح‌نامه‌های تخصصی و هستان‌شناسی، و در تعدادی دیگر از این روش‌ها از تلفیق هر دو استفاده می‌شود. بر همین اساس، در این طرح پژوهشی روشی برای پیشنهاد کلیدواژه به مستندات علمی فارسی ارائه شده که بر مبنای روش‌های هوشمند پردازش متن و یادگیری ماشین عمل می‌کند. روش پیشنهادی بر مبنای سیستم‌های پیشنهاددهنده و استدلال نمونه‌محور طراحی شده که براساس آن، مجموعه‌ای از کلیدواژه‌های مرتبط با یک سند به نمایه‌ساز پیشنهاد شود تا نمایه‌ساز سریعتر بتواند از بین آنها، کلیدواژه‌های مناسب را انتخاب کند. روش پیشنهادی براساس استدلال نمونه محور عمل می‌کند که در آن فرض بر این است که اسناد مشابه می‌توانند کلیدواژه‌های مشابه داشته باشند. بر همین اساس، ابتدا اسناد مشابه با یک سند جدید براساس روش‌های TFIDFو روش‌های بازنمایی کلمه-به-بردار،  بازیابی می‌شوند. سپس کلیدواژه‌های کاندید از بین اسناد مشابه درنظر گرفته می‌شوند و در نهایت بر اساس یک تابع رتبه‌بندی، کلیدواژه‌های مناسب از بین آنها انتخاب می‌شوند. روش پیشنهادی بر روی مجموعه‌ای از اسناد پایگاه گنج در سه حوزه فنی و مهندسی، هنر و ادبیات، و علوم انسانی، پیاده‌سازی شده و نتایج آن با معیارهایی نظیر دقت، فراخوانی و نظرات متخصصین ارزیابی شده است.

دسته‌بندی موضوعی: 
استناد: 

محبی، آزاده، و عمار جلالی‌منش. ۱۳۹۸. ارائه روشی هوشمند برای استخراج کلیدواژه از مستندات علمی زبان فارسی بر اساس سیستم‌های پیشنهاددهنده. تهران: پژوهشگاه علوم و فناوری اطلاعات ایران.

افزودن دیدگاه