امکان‌سنجی ساخت پیکره زبانی از داده‌های علمی پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)

چکیده

بسیاری از پژوهش‌های زبان‌شناختی و تصمیم‌گیری‌ها در برنامه‌ریزی زبانی، تنها با استفاده از یک پیکره زبانی امکان‌پذیر است. پیکره متنی یکی از مهم‌ترین دادگان ورودی در کاربردهای مربوط به پردازش زبان طبیعی به شمار می‌رود. در واقع، پیکره‌های متنی، مهم‌ترین پایگاه دانش در زبان‌شناسی پیکره‌ای است. انجام اکثر پژوهش‌ها در حوزه زبان‌شناسی رایانشی مستلزم بهره گرفتن از پیکره‌های زبانی است که در این میان تهیه پیکره‌های متنی که حاوی نمونه‌های خوب و مناسب باشد از جایگاه خاص برخوردار است. برخی از پژوهشگران معتقدند پیکره هر چه گسترده‌تر و متنوع‌تر باشد، از کارایی بالاتری برخوردار است. تهیه یک پیکره زبانی مبتنی بر داده‌های علمی ایرانداک از دو نظر حائز اهمیت است: ۱- ایرانداک را در شمار پژوهشگاه‌ها و دانشگاه‌هایی قرار می‌دهد که پیکره زبانی مفید تهیه کرده‌اند و پژوهشگران می‌توانند از این پیکره خاص، که پیکره‌ای مبتنی بر داده‌های علمی ایرانداک است، استفاده کنند و ۲- می‌توان بسیاری از پژوهش‌های حوزه پردازش متن را با استفاده از این پیکره انجام داد. برای تهیه چنین پیکره‌ای ابتدا لازم است از تجربیات محققین دیگر که به ساختن پیکره پرداخته‌اند، استفاده کرد و به بررسی مراحل، ابزارها، نیروهای متخصصی لازم، هزینه و....که برای تهیه چنین پیکره‌ای لازم است، پرداخت. بنابراین در این پژوهش به امکان‌سنجی تهیه پیکره زبانی مبتنی بر داده‌های علمی پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)، پرداخته می‌شود. یکی از مسائلی که طی انجام این پژوهش به آن پرداخته می‌شود این است که کدام بخش از داده‌های علمی را می‌توان در تهیه پیکره مورد استفاده قرار داد. داده‌های ایرانداک شامل چکیده‌ها، پایان‌نامه‌ها و مقالات است، طی این پژوهش به این مسئله پرداخته می‌شود که از کدامیک از این داده‌های علمی می‌توان در تهیه پیکره استفاده کرد.

ضرورت انجام امکان‌سنجی تهیه پیکره زبانی از داده‌های علمی پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)، جمع‌آوری اطلاعات در زمینه مراحل، ابزارهای مورد نیاز، تیم‌های تخصصی لازم، برآورد هزینه و..... جهت ساخت پیکره‌ای مطلوب و بسامان مبتنی بر داده‌های ایرانداک است تا بتوان درباره ساخت چنین پیکره‌ای در ایرانداک بهتر تصمیم‌گیری کرد و در صورت داشتن امکانات مالی و نیروی متخصص و ابزارهای لازم، در طرح /طرح‌های پژوهشی دیگر، اقدام به ساخت چنین پیکره‌ای کرد. بنابراین، در این طرح پژوهشی، پیکره‌ای تهیه نخواهد شد، بلکه امکان‌سنجی تهیه پیکره انجام می‌شود، و در طرح‌های پژوهشی آینده، در صورت داشتن امکانات کافی، پیکره تهیه خواهد شد تا بتوان پژوهش‌های مربوط به پردازش متن را در آینده به کمک پیکره‌ای که تهیه خواهد شد، انجام داد.

در این پژوهش ابتدا به بررسی چگونگی ساخت پیکره زبانی و بررسی مدل‌های امکان‌سنجی پرداخته می‌شود، سپس، طراحی مدل امکان‌سنجی ساخت پیکره زبانی و طراحی مدل امکان‌سنجی ساخت پیکره زبانی از داده‌های علمی ایرانداک انجام می‌شود، پس از طراحی مدل، به اعتباریابی مدل امکان‌سنجی ساخت پیکره زبانی از داده‌های علمی ایرانداک از طریق گرفتن نظر متخصصین این حوزه، پرداخته می‌شود و سپس، امکان‌سنجی ساخت پیکره زبانی از داده‌های علمی ایرانداک انجام می‌شود و در نهایت پیشنهاد/ پیشنهاداتی جهت برنامه ساخت پیکره زبانی از داده‌های علمی ایرانداک ارائه می‌گردد. پیش‌بینی زمانی این پژوهش به این صورت است: در دو گام، هر کدام به مدت شش ماه.

دسته‌بندی موضوعی: 
استناد: 

علایی ابوذر، الهام. زودآیند. امکان‌سنجی ساخت پیکره زبانی از داده‌های علمی پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک). تهران: پژوهشگاه علوم و فناوری اطلاعات ایران.

افزودن دیدگاه