طراحی روشی هوشمند برای دسته‌بندی نوشتارهای علمی فارسی

طراحی روشی هوشمند برای دسته‌بندی نوشتارهای علمی فارسی
خرداد ۱۳۹۹
نوع طرح پژوهشی: 
چکیده

با توجه به حجم بالای متون علمی و سرعت پایین کنترل اقلام اطلاعاتی‏ در سامانه ثبت و در نتیجه عدم نمایش به روز درگنج، افزایش سرعت کنترل اقلام اطلاعاتی از موارد اولویت‌دار سامانه ثبت است. به عنوان مثال حدود ۱۴۰ هزار متون علمی همچنان نمایه نشده و با توجه به سیل پایان‌نامه‌های جدید، استفاده از روش‌هایی که می‌تواند کمکی به افزایش سرعت نمایه‌سازی کنند از اولویت های سامانه ثبت می‌باشد.

پایان‌نامه و رساله‌هایی که در پایگاه داده ثبت پژوهشگاه علوم و فناوری اطلاعات ایران(ایرانداک) ثبت می‌گردد دارای فراداده موضوع اصلی مانند علوم انسانی، فنی و مهندسی، علوم پایه، هنر ومعماری، علوم پزشکی و غیره می‌باشند. استخراج هوشمند حوزه پارساها بوسیله الگوریتم‌های یادگیری ماشین باعث افزایش سرعت فرایند نمایه‌سازی و افزایش کیفیت داده‌های پایگاده داده گنج شود.

در این طرح پژوهشی هدف دسته‌بندی هوشمند محتوایی متون به یکی از ۵ دسته موضوع اصلی علوم انسانی، فنی و مهندسی، علوم پایه، هنر ومعماری، علوم پزشکی می‌باشد. به عبارت دیگر افزایش سرعت نمایه‌سازی بوسیله خودکارسازی تایید یا عدم تایید موضوع اصلی ثبت شده از طرف پژوهشگر می‌باشد. در این پژوهش ابتدا پیش‌پردازش معمول در پردازش زبان طبیعی انجام شده و ویژگی‌ها متمایز کننده استخراج می‌گردد. در ادامه با استفاده از دسته‌بندهای متنوع محتوای پایان‌نامه‌ها به پنج دسته آموزش داده می‌شود. نتایج ارزیابی‌ها بر روی متون پایان‌نامه و رساله‌های فارسی نشان می‌دهد این روش با ارزیابی با متون بیشتر می‌تواند با دقت و سرعت خیلی خوبی موضوع اصلی پارساها را مشخص کند.

دسته‌بندی موضوعی: 
استناد: 

نصیری، جلال‌الدین، و نصراله پاک‌نیت. ۱۳۹۹. طراحی روشی هوشمند برای دسته‌بندی نوشتارهای علمی فارسی. تهران: پژوهشگاه علوم و فناوری اطلاعات ایران.

افزودن دیدگاه