شناسایی هویت نویسنده بر اساس زبان فردی: پژوهشی پیکره‎‌ای در زبان فارسی

شناسایی هویت نویسنده بر اساس زبان فردی: پژوهشی پیکره‎‌ای در زبان فارسی
فروردين ۱۳۹۵
نوع طرح پژوهشی: 
چکیده

زبان فردی به شیوه منحصر به‌ فرد هر گویشور در به‌کارگیری عناصر زبانی از جمله واژه‌ها، ساختار دستوری و آواها گفته می‌شود که اخیرا موضوع پژوهش‌های رایانشی و زبان‌شناختی در شناسایی نویسنده‌ متون فاقد هویت واقع شده است. یکی از مولفه‌های زبان‌شناختی که گفته می‌شود تجلی‌گاه زبان فردی واقع می‌شود، واژه‌های دستوری در زبان است. واژه‌های دستوری از آن جهت که به‌طور ناخودآگاه در تولید زبان به‌کار گرفته می‌شوند، مستقل از موضوع متن به‌ کار می‌روند و بسامد بالایی در متون کوتاه دارند، همواره مورد توجه پژوهشگران در حوزه‌ شناسایی سبک نویسنده بوده‌اند. در این پژوهش امکان تفکیک متون متعلق به یک نویسنده از متون دیگر با استفاده از واژه‌های دستوری زبان فارسی بررسی شده است. ابتدا پیکر‌ه‌هایی متنی از نوشته‌های ۵ محقق و نویسنده‌ معاصر جمع‌آوری و سپس با استفاده از نرم‌افزار خطایاب وفا، استانداردسازی شدند. با استفاده از بسته‌ تحلیل آماری stylo در نرم‌افزار R، واژه‌های پربسامد دستوری با توالی‌های یک تا سه‌نگاشتی از متون استخراج شدند و سپس قابلیت تفکیک متون بر اساس این واژه‌ها و با استفاده از تحلیل مولفه‌های اصلی و همچنین تحلیل خوشه‌ای بر اساس مقیاس فاصله‌ای دلتا بررسی شد. نتایج نشان می‌دهد که واژه‌های دستوری در زبان فارسی قابلیت تفکیک متون متعلق به یک نویسنده را دارند و عملکرد واژه‌های تک‌نگاشتی بهتر از دونگاشتی و سه‌نگاشتی‌ها در متون کم‌حجم است. همچنین نتایج پژوهش نشان می‌دهد که حجم کمینه‌ متن برای شناسایی موفقیت‌آمیز نویسنده در متون فارسی حدود ۴۰۰۰ واژه بر اساس ۲۰ واژه‌ دستوری پربسامد است.

دسته‌بندی موضوعی: 
استناد: 

گلشائی، رامین. ۱۳۹۵. شناسایی هویت نویسنده بر اساس زبان فردی: پژوهشی پیکره‎‌ای در زبان فارسی. تهران: پژوهشگاه علوم و فناوری اطلاعات ایران.

افزودن دیدگاه