تهیه مجموعه داده استاندارد فارسی برای مساله استخراج خودکار کلیدواژه از اسناد علمی

چکیده

با توجه به حجم داده‌ها و مستندات ایجاد شده در پایگاه‌های تخصصی علمی مانند گنج، نیاز است که روش‌های هوشمند و خودکار برای افزایش دقت و سرعت تخصیص کلیدواژه به این مستندات به کار گرفته شود. توسعه و بکارگیری این روش‌ها نیازمند وجود معیارهای استاندارد برای ارزیابی و بهبود آنهاست. یکی از این معیارها، وجود یک مجموعه داده استاندارد است که حاوی مجموعه‌ای از اسناد و کلیدواژه‌های تخصیص داده شده درست و کامل به آنها است. اگر چنین مجموعه داده‌ای موجود نباشد، نمی‌توان به راحتی الگوریتم‌ها و روش‌های استخراج خودکار کلیدواژه از مستندات علمی را با یک معیار مشخص با هم مقایسه کرد و بکار گرفت.

در برخی از پژوهش‌های انجام شده در حوزه استخراج خودکار کلیدواژه از مستندات فارسی، از مجموعه داده‌هایی استفاده شده لیکن این مجموعه داده‌ها یا داده‌های علمی نیستند و یا در صورت استفاده از داده‌ها علمی، تنها کلیدواژه‌های نویسنده به عنوان کلیدواژه‌های تخصیص داده شده به یک سند علمی در آنها در نظر گرفته شده است. این در حالی است که در بسیاری از پژوهش‌های انجام شده در زبان انگلیسی، مجموعه داده‌های استاندارد و متعددی برای این منظور وجود دارد که در اغلب پژوهش‌ها از آنها استفاده می‌شود.

بخش اعظمی از پایگاه گنج ایرانداک را پایان‌نامه‌ها و رساله‌های فارسی کشور تشکیل می‌دهد که تا به امروز فرایند نمایه‌سازی و تخصیص کلیدواژه توسط اداره سازماندهی و تحلیل اطلاعات ایرانداک بر روی حدود ۱۹۰ هزار مدرک از این پایگاه انجام شده است. بنابراین مدارک نمایه‌ شده می‌تواند منبع غنی برای ساخت مجموعه داده برای مساله استخراج کلیدواژه از مستندات علمی فارسی باشد. لیکن کلیدواژه‌های تخصیص داده شده به هر مدرک در فرایند نمایه‌سازی اغلب محدود هستند و حتی در برخی از موارد به دلیل محدودیت‌های موجود در فرایند نمایه‌سازی، کامل نیستند. علاوه بر آن، مشخص نیست که هر کلیدواژه تخصیص داده شده به هر مدرک تا چه میزان به آن مدرک مرتبط است.

بنابراین در این طرح پژوهشی، مجموعه داده‌ای از اسناد علمی (پایان‌نامه‌ها و رساله‌ها) گنج به همراه کلیدواژه‌های مرتبط با آنها ایجاد می‌شود که می‌تواند به عنوان معیار استانداردی برای ارزیابی روش‌های هوشمند استخراج کلیدواژه بکار گرفته شود. در این مجموعه داده برای هر سند، فرا داده‌های آن (عنوان، چکیده و کلیدواژه‌ها) به همراه بخش نتیجه‌گیری در هر سند، به عنوان اطلاعات سند در مجموعه داده در نظر گرفته می‌شود. برای ایجاد چنین مجموعه داده‌ای، متدولوژی پیشنهاد می‌شود که بر اساس آن متخصصین نمایه‌سازی با ارزیابی اسناد نمایه‌ شده در گنج، کلیدواژه‌های تخصیص داده شده را اصلاح یا تکمیل می‌نمایند. در این مجموعه داده، اسنادی در نظر گرفته می‌شوند که اطلاعات فراداده‌ای غنی داشته باشند و متن چکیده و نتیجه‌گیری در اسناد به گونه‌ای کامل باشد که امکان استخراج کلیدواژه از آنها وجود داشته باشد.

پس از ایجاد مجموعه داده استاندارد بر اساس متدولوژی پیشنهادی، عملکرد برخی از مهمترین روش‌های موجود استخراج خودکار کلیدواژه بر روی آن مجموعه داده، ارزیابی می‌شود. با توجه به تنوع حوزه موضوعی داده‌ها در گنج، برای ایجاد مجموعه داده استاندارد از بخشی از مدارک نمایه‌ شده حوزه فنی-مهندسی و حوزه علوم انسانی استفاده خواهد شد و پیش‌بینی می‌شود که مجموعه داده نهایی مجموعا حدود ۴۰۰۰ رکورد را دربرداشته باشد. از آنجایی‌که چکیده متون حوزه علوم اجتماعی عمدتا غنی‌تر هستند و واژگان بیشتری را دارند، اسناد انتخابی در حوزه علوم انسانی، از بین اسناد حوزه علوم اجتماعی انتخاب می‌شوند.

در انتها نیز پیشنهادهایی برای چگونگی بهره‌برداری از مجموعه داده استاندارد توسط جامعه علمی و انتشار آن ارائه خواهد شد.

دسته‌بندی موضوعی: 
استناد: 

محبی، آزاده، مرضیه زرین‌بال ماسوله، و عمار جلالی‌منش. زودآیند. تهیه مجموعه داده استاندارد فارسی برای مساله استخراج خودکار کلیدواژه از اسناد علمی. تهران: پژوهشگاه علوم و فناوری اطلاعات ایران.

افزودن دیدگاه