ایجاد پایگاه داده از تصاویر موجود در پایگاه اطلاعات علمی ایران (گنج) بر اساس یک روش هوشمند

ایجاد پایگاه داده از تصاویر موجود در پایگاه اطلاعات علمی ایران (گنج) بر اساس یک روش هوشمند
همکار(ان): 
دى ۱۳۹۸
نوع طرح پژوهشی: 
چکیده

در اسناد و مقالات علمی، تصاویر، حاوی اطلاعات مهمی هستند و در بسیاری از موارد با بررسی آنها به تنهایی می‌توان به ایده اصلی و یا نتایج مهم مقاله علمی پی‌برد، بدون اینکه لازم باشد کل سند را مطالعه کرد. به همین دلیل بسیاری از موتورهای جستجوگر مستندات علمی به دنبال فراهم کردن امکان بازیابی اطلاعات از تصاویر در پایگاه اطلاعاتی خود هستند، به طوری که کاربر با وارد کردن یک جستجو، علاوه بر متن مقالات بتواند به تصاویری هم که به آن جستجو مربوط می‌شود، دسترسی پیدا کند. هم اکنون در پایگاه اطلاعاتی گنج، که حاوی حجم زیادی از مستندات علمی و پایان‌نامه‌ها و رساله‌های فارسی کشور است، امکان جستجو بر اساس یک عبارت متنی پرس‌وجو و بازیابی و نمایش نتایج جستجو در قالب فراداده‌های متنی (عنوان، چکیده، پدیدآور، سال انتشار،) وجود دارد. لیکن در حال حاضر اطلاعات از تصاویر موجود در اسناد گنج بازیابی نمی‌شود. قدم اول برای بازیابی اطلاعات از تصاویر ایجاد پایگاه داده تصاویر از اسناد است. در این طرح سیستمی خودکار برای ایجاد پایگاه داده از تصاویر موجود در مدارک علمی فارسی در مقیاس بزرگ ارائه می‌شود. سیستم پیشنهادی بخش‌های مختلفی دارد. در مرحله اول باید تصاویر و توضیح متنی آن‌ها استخراج گردد. به طور کلی دو رویکرد برای استخراج تصاویر و توضیح متنی آن‌ها از فایل وجود دارد. در رویکرد اول فایل به تصویر تبدیل می‌شود و از تکنیک‌های پردازش تصویر برای استخراج اطلاعات گرافیکی استفاده می‌شود. رویکرد دوم بر اساس پردازش ساختار و آرایش خود فایل است. از آنجایی که روش دوم از لحاظ سرعت و قابلیت مقیاس‌پذیری برای استفاده در موتورهای جستجو مناسب‌تر است، تمرکز این طرح بر روی روش دوم است. بر این اساس برای استخراج تصاویر و توضیح متنی آن‌ها یک روش ساختار محور معرفی می‌شود که مبتنی بر چیدمان و آرایش فایل ورد سند است.بدین ترتیب مجموعه‌ای از تصاویر به همراه توضیحات و اطلاعات مربوط به آن‌ها به دست می‌آید که باید در یک پایگاه داده تصاویر با ساختاری مشخص ذخیره گردند. سپس این اطلاعات برای بازیابی و استفاده‌های آتی در یک موتور جستجو نمایه خواهند شد. در ادامه، روش پیشنهادی در یک مطالعه موردی در پایگاه اطلاعات علمی ایران (گنج) به کار گرفته شد. روش پیشنهادی که با پردازش ساختار و آرایش فایل ورد تصاویر و زیرنویس آن‌ها را استخراج می‌کند در زبان برنامه‌نویسی پایتون پیاده‌سازی شد. استخراج تصاویر از فایل پی.دی.اف هم پیاده‌سازی و بررسی شد. تعداد ۱۵۰ سند علمی به تصادف از پایگاه گنج انتخاب شده و هر دو فایل پی دی اف و ورد آن‌ها مورد تجزیه و تحلیل قرار گرفت. استخراج اطلاعات متنی از فایل پی.دی.اف در زبان فارسی با چالش‌های زیادی روبه‌رو است و نمی‌تواند خروجی مناسبی در این زمینه حاصل کند. از طرف دیگر میزان تصاویر نویز تولید شده از فایل پی.دی.اف بسیار زیاد است که از کاربست‌پذیری آن در شرایط واقعی می‌کاهد. از این رو روش پیشنهادی به عنوان گزینه‌ای مناسب برای استخراج تصاویر و توضیحات آن‌ها از اسناد علمی فارسی موجود در گنج و ایجاد پایگاه داده از آن‌ها پیشنهاد می‌شود.

دسته‌بندی موضوعی: 
استناد: 

فخرزاده، آزاده، و مجتبی زالی. ۱۳۹۸. ایجاد پایگاه داده از تصاویر موجود در پایگاه اطلاعات علمی ایران (گنج) بر اساس یک روش هوشمند. تهران: پژوهشگاه علوم و فناوری اطلاعات ایران.

افزودن دیدگاه