‌نمایه‌سازی خودکار داده‌های چندرسانه‌ای علمی فارسی با رویکرد تضمین کیفیت بازیابی اطلاعات

پیشنهاده
استاد راهنما: 
تاریخ تصویب: 
دى ۱۳۹۷
چکیده

امروزه حجم عظیمی از داده‌های چندرسانه‌ای را ویدئوهای آموزشی و سخنرانی‌های علمی تشکیل می‌دهند که در حوز‌ه‌های مختلف تولید و در پایگاه داده‌ها ذخیره می‌شوند. از آن‌جایی که محققین فعال در حوزه‌های مختلف در تحقیقات خود به این‌گونه از داده‌ها نیاز دارند، بنابراین ایجاد یک سیستم بازیابی این‌گونه از داده‌های چندرسانه‌ای مورد نیاز است.

هدف از این پژوهش توسعه رویکرد تضمین کیفیت بازیابی اطلاعات برای نمایه‌سازی داده‌های چندرسانه‌ای علمی فارسی است. به‌ عبارتی در پژوهش حاضر سیستم بازیابی اطلاعات چندرسانه‌ای به‌ گونه‌ای مورد بررسی قرار می‌گیرد که کیفیت اطلاعات بازیابی شده در چارچوب مباحث کیفیت داده از کیفیت مطلوبی برخوردار باشد. شاخص‌های کیفیت داده در این راستا تعیین و مطلوب بودن آنها مورد ارزیابی قرار خواهد گرفت؛ کاربست این پژوهش سامانه بازیابی اطلاعات چندرسانه‌ای علمی فارسی باتوجه به‌ موارد تضمین کیفیت داده می‌باشد که در پژوهشگاه علوم و فناوری اطلاعات ایران پیاده‌سازی می‌شود. در برخی از پژوهش‌های انجام شده در حوزه نمایه‌سازی داده‌های چندرسانه‌ای علمی از دو روش OCR و ASR به‌ صورت ترکیبی استفاده شده و نتایج مطلوبی را به همراه داشته است. در این پژوهش برای اولین بار از این تکنیک‌ها به‌ منظور طراحی سیستم نمایه‌سازی داده‌های چندرسانه‌ای علمی برای زبان فارسی استفاده خواهد شد. از سوی دیگر در کاربرد مشابه این تکنیک‌ها در سایر زبان‌ها مباحث کیفیت داده مطرح نشده است. در این پژوهش شاخص‌های کیفیت داده از مراحل آغازین تعیین و تعریف خواهد شد و ارزیابی روش‌های مختلف بر پایه شاخص‌های کیفیت داده صورت خواهد پذیرفت.

افزودن دیدگاه