واژه‌شکن فارسی

واژه‌شکن فارسی
درجه علمی نشریه: 
فصل: 
دوره: 
۹
شماره: 
۱
شماره صفحه (از - تا): 
۱۸۶-۲۰۵
چکیده

مهم‌ترین بخش پردازش زبان شامل درک متن و تشخیص گفتار است. درک متن گاهی در سطح نحو است. رایانه، در این حالت، متن را در سطح جمله و بند و کل متن تحلیل می‌کند. از درک مفهوم متن در ترجمه ماشینی نیز استفاده می‌شود. تحقیق در این بخش از پردازش زبان از اواخر دهه هشتاد میلادی آغاز شد.
متن معنی گسترده‌ای دارد. در مقیاسی عام، حتی علایم راهنمایی و رانندگی را می‌توان متن خواند (CRYSTAL 1992, p.387). به این اعتبار هر لفظ را می توان متن شمرد و درک مفهوم متن را به حوزه کلمه نیز تعمیم دارد. واژه‌ها یا بسیط‌اند یا ترکیبی یعنی یا ساده‌اند و از چند جز معنی‌دار (تکواژ) ساخته نشده‌اند یا پیچیده‌اند و از چند تکواژ ساخته شده‌اند. تحلیل متن در سطح واژه مربوط به حوزه صرف است. واژه‌های ترکیبی را بر حسب آنکه با اشتقاق یا با ترکیب ساخته شده باشند می‌توان به دو دسته اصلی تقسیم کرد: مشتق و مرکب. واژه‌های مشتق از یک پایه به اضافه وند ساخته می شوند؛ مانند دانشمند، بی‌باک. واژه‌های مرکب از اجتماع چند تکواژ مستقل از مقوله‌های اسم و صفت و قید و بن فعل ساخته می‌شوند؛ مانند کتابخانه،‌ عقب‌گرد، خانه‌نشین.
واژه‌شکن فارسی برای تحلیل واژه‌های ترکیبی این زبان ساخته شده است. این نرم‌افزار واژه‌های مشتق و مرکب را تجزیه و مقوله آنها را مشخص می‌سازد و آن نخستین برنامه رایانه‌ای است که با این درجه از هوشمندی در حوزه صرف زبان فارسی عمل می‌کند.
بخش‌های سه‌گانه این مقاله به ترتیب درباره «ساختمان واژه‌شکن»، «شیوه استخراج قواعد»، «ویژگی‌های واژه‌شکن» است.

استناد: 

سمائی، سید مهدی. ۱۳۸۶. واژه‌شکن فارسی. نامه فرهنگستان ۹ (۱): ۱۸۶-۲۰۵.

مقاله ادواری علمی
وضعیت انتشار: 

افزودن دیدگاه