بررسی موتور جست‌و‌جوی گنج به منظور بهبود بازیابی اطلاعات در زبان فارسی

چکیده

بازیابی اطلاعات به معنای یافتن محتوایی با طبیعت غیرساخت‌یافته (معمولا متن) از مجموعه‌هایی به‌ منظور برآورده ساختن نیاز(های) اطلاعاتی کاربران است. با بهره‌گیری از روش‌های بازیابی اطلاعات موجود در ادبیات پلتفرم‌های متن‌باز متعددی طراحی شده‌اند. کتابخانه Apache Lucene و موتور جست‌و‌جوی Apache Solr از این نوع پلتفرم‌ها هستند. سامانه گنج نیز به منظور جست‌و‌جو در اسناد و مدارک ذخیره شده در پایگاه داده خود، از این کتابخانه و موتور جست‌و‌جو به عنوان هسته اصلی فرآیند بازیابی اطلاعات استفاده می‌کند. علی‌رغم کاربردهای گسترده، Solr دارای کاستی‌هایی بوده، تاکنون نیز هیچ‌گونه پژوهشی در زمینه شناسایی و واکاوی این کتابخانه و موتور جست‌و‌جو در پژوهشگاه انجام نشده و تنها عملکرد رابط کاربری آن و مشکلات موجود بررسی شده است. لذا علی‌رغم ضرورت بررسی کارایی رابط کاربری گنج، تازمانی که هسته اصلی آن (خصوصا با تمرکز بر زبان فارسی) بررسی و اصلاح نشود نمی‌توان انتظار داشت عملکرد سامانه مطلوب باشد. لذا ضروری است تا با بررسی محدودیت‌ها و مشکلات موجود در روش‌های مورد استفاده در موتور جست‌و‌جوی Apache Solr (از منظر بازیابی اطلاعات) دیدگاهی کلان نسبت به آن در پژوهشگاه ایجاد شده تا از این طریق بتوان پیشنهادهایی به منظور ارتقای عملکرد هسته اصلی فرآیند بازیابی اطلاعات سامانه گنج ارائه داد. بر این اساس، طرح پژوهشی با عنوان «بررسی موتور جست‌و‌جوی گنج به منظور بهبود بازیابی اطلاعات در زبان فارسی» پیشنهاد می‌شود. در نتیجه این طرح انتظار می‌رود دانش فنی درمورد این موتور جست‌و‌جو و روش‌های مورد استفاده آن کسب شده و پیشنهادهایی به منظور ارتقای نتایج بازیابی شده فارسی از طریق بهبود هسته اصلی سامانه (به‌کارگیری روش‌های جایگزین موجود در ادبیات) در برخی از ماژول‌ها تعریف شود.

دسته‌بندی موضوعی: 
استناد: 

زرین‌بال ماسوله، مرضیه. زودآیند. بررسی موتور جست‌و‌جوی گنج به منظور بهبود بازیابی اطلاعات در زبان فارسی. تهران: پژوهشگاه علوم و فناوری اطلاعات ایران.

افزودن دیدگاه