طبقه‌بندی انواع دادگان مورد نیاز و روش‌های خطایابی و استانداردسازی متنی

طبقه‌بندی انواع دادگان مورد نیاز و روش‌های خطایابی و استانداردسازی متنی
درجه علمی نشریه: 
دوره: 
۳۲
شماره: 
۴
شماره صفحه (از - تا): 
۱۱۴۳-۱۱۷۰
چکیده

یکی از پایه‌ای‌ترین مراحل پردازش خودکار متن، تشخیص خطاهای املایی و استانداردسازی نویسه‌هاست. بدون گذر از این مرحله، ذخیره‌سازی مستندات متنی با مشکلات متعددی مواجه شده و موجب اختلال در بازیابی ماشینی آن‌ها می‌گردد. بدین‌ترتیب، متخصصان حوزه‌های پردازش زبان طبیعی و زبان‌شناسی رایانشی همواره در تلاش هستند تا با ارائه روش‌ها و الگوریتم‌های مطلوب انواع داده‌ها را در بوته پردازش قرار داده و به داده‌ای استاندارد دست یابند. در زبان انگلیسی و برخی زبان‌های دیگر، تحقیقات متعددی در این زمینه انجام شده و به دنبال آن زبان فارسی نیز در این زمینه مورد تحقیق قرار گرفته است. این تحقیقات متعدد گاهی در حد پژوهش به قوت خود باقی مانده و گاهی نیز در قالب محصول عرضه شده است. مقاله حاضر به طبقه‌بندی انواع روش‌ها و دادگان مورد نیاز در این تحقیقات پرداخته و فرایند هر کدام از آن‌ها را به‌طور خاص و نحوه سنجش میزان دقت پردازش آن‌ها را به‌ طور عام شرح می‌دهد. در این مقاله همچنین، نحوه عملکرد سامانه‌های تک‌زبانه فارسی توصیف شده و به نحوه برخورد آن‌ها با چالش‌های زبان فارسی اشاره می‌گردد.

استناد: 

حسینی‌بهشتی، ملوک‌السادات، و هادی عبدی قویدل. ۱۳۹۶. طبقه‌بندی انواع دادگان مورد نیاز و روش‌های خطایابی و استانداردسازی متنی. پژوهشنامه پردازش و مدیریت اطلاعات ۳۲ (۴): ۱۱۴۳-۱۱۷۰.

مقاله ادواری علمی
دوره انتشار: 
وضعیت انتشار: 

افزودن دیدگاه