تحلیل روند علمی کشور و پیش‌بینی فناوری با استفاده از روش‌های یادگیری ماشین، مورد مطالعه: سامانه گنج

رساله
استاد راهنما: 
استاد مشاور: 
تاریخ تصویب: 
دى ۱۳۹۳
تاریخ دفاع: 
اسفند ۱۳۹۷
چکیده

هدف: بررسی ‌روند علم و فناوری درک بهتری را برای محققین و سیاست‌گذاران ایجاد می‌نماید تا بتوانند برنامه‌ریزی مناسبی را جهت انجام تحقیقات آتی و تخصیص منابع پژوهشی داشته باشند. یکی از مهمترین رویکردها در تحلیل روند، بررسی اسناد علمی منتشر شده با استفاده از روش‌های علم‌سنجی و پیمایش اطلاعات و متون اسناد است. با توجه به این نکته که دقت و جامعیت تحلیل‌ روند از اهمیت ویژه‌ای برخوردار است و فقدان چنین روشی در زبان فارسی کاملا حس می‌شود در این پژوهش رویکردی ارائه‌ شده که با استفاده از روش‌های متن‌کاوی و اطلاعات کتابشناختی پایان‌نامه‌ها و رساله‌های فارسی، روند پژوهش در یک حوزه علمی را مورد مطالعه قرار می‌گیرد. 
روش‌پژوهش: بعد از بررسی خصوصیت اسناد در دسترس به‌ منظور شناخت خصوصیات داده‌ها به‌ منظور انتخاب روش مناسبی برای استخراج کلیدواژه‌، روشی برای انتخاب کلیدواژه‌های با اهمیت‌تر ارائه‌ شده است. برای پردازش کلیدواژه‌های انتخاب شده از گام قبل از یک روش جدید برای محاسبه هم‌رخدادی و بازنمایی کلمات به منظور استخراج موضوع‌های پنهان موجود در متن ارائه شده است. همچنین از ویژگی‌های روش پیشنهادی، ارائه روشی برای استخراج روابط و وابستگی‌های پنهان بین موضوع‌های علمی توسط قوانین انجمنی و ماتریس‌ هم‌موضوعی است. همچنین از ویژگی‌های دیگر روش پیشنهادی ارائه روشی جدید برای محاسبه بلوغ و مرکزیت یک حوزه علمی در تحلیل‌روند و استفاده از میزان تاثیر و اهمیت کلیدواژه‌های استفاده شده در تشخیص حوزه‌های علمی است.
یافته‌ها و نتایج: بررسی اولیه نشان داد که  بیش از ۵۰ درصد نویسنده‌ها نمایه‌های خود را از عنوان پارسا استخراج نکرده‌اند و از طرفی تنها ۱۰ درصد کلیدواژه‌ها توسط چکیده و عنوان پوشش داده نشده است. لذا از آنجا که عنوان بار مهمی از متن یک سند را نشان می‌دهد در این رساله پیشنهاد شده که برای تحلیل‌ روند از ترکیب عنوان پارسا و نمایه‌های تخصیص داده‌ شده برای انتخاب کلیدواژه‌های مهم‌تر استفاده گردد.با استفاده از روش ارائه‌ شده برای انتخاب کلیدواژه‌های با اهمیت‌تر با کاهش ۷۸ درصدی تعداد کلیدواژه‌ها تنها حدود ۳ درصد افت در صحت دسته‌بندی بوجود آمده‌است. از طرفی با استفاده از روش‌ ارائه شده در بازنمایی کلمات میزان خلوص در تفکیک حوزه‌های علمی نسبت به روش‌های پیشین بهتر عمل کرده است. در مقایسه خوشه‌بندهای مختلف، استفاده از روش کا-میانه و دسته‌بند چنگل تصادفی بیشترین میزان خلوص در صحت را ارائه داده‌اند. افزایش نتایج خوشه‌بندی نشان دادند که استفاده از موضوع‌ها بجای کلمات می‌توانند باعث حذف کلمات نویز در پارسا شوند و تحلیل‌های دقیق‌تری‌ را نشان دهند. با استفاده از این نتیجه در این رساله طرحی برای تحلیل‌ روند به منظور حذف کلمات نویز با استفاده از ماتریس هم‌رخدادی موضوع‌ها بجای ماتریس هم‌رخدادی کلمات ارائه گردید.
جمع‌بندی: در این رساله برای اولین بار روشی خودکار برای تحلیل‌ روند و استخراج موضوع‌های علمی فارسی ارائه‌ شده است. در ساختار آن نیز روش‌هایی برای بازنمایی کلمات، انتخاب کلیدواژه و تحلیل‌ روند با استفاده از نمودار راهبردی موضوعی ارائه گردید. مقایسه‌ها نشان‌دهنده بهبود در هر یک از روش‌های پیشنهادی است.

افزودن دیدگاه