برچسب زنی اجزای گفتار
راضیه احمدی
دانشگاه فردوسی ؛ دانشکده ادبیات و علوم انسانی دکتر علی شریعتی؛1389
شماره ثبت: 5831561
چکیده
یکی از کارهای اساسی در پردازش زبان طبیعی ، برچسب زنی اجزای گفتار می باشد . برچسب زنی ، تعیین مقوله های دستوری برای هر نماد در متن می باشد .
در برچسب زنی دو حوزه ساختواژه و نحو زبان برای تعیین مقوله های دستوری با یکدیگر تعمل دارند . تحلیل های ساخنواژی ، یکی از مسائل اصلی در تحلیل های رایانه ای متون فارسی است و پردازش متون رایانه ای فارسی را با مشکلاتی روبرو کرده است ، از جمله این مشکلات ، شناسایی واژه های ناشناخته در متن و مشکلات خط فارسی می باشد .
برای برچسب زنی ، سیستمهای متفاوتی با الگوریتمهای متفاوت وجود دارد ، از جمله این سیستمها ، سیستم برچسب زن گیت (gate )می باشد که در این پژوهش ، به بررسی برچسب زنی و مشکلات مربوط به آن پرداخته می شود . الگوریتم بکار رفته در این سیستم الگوریتم هپل (Hepple ) می باشد که ترکیبی از دو رویکرد آماری و قاعده بنیاد است . در سیستمهای برچسب زنی از پیکره های برچسب گذاری شده استفاده می شود . دراین سیستم ، از پیکره برچسب گذاری شده بی جن خان که تقریبا شامل دو میلیون و پانصد هزار واژه و 550 برچسب می باشد، استفاده شده است . قابل ذکر می باشد که مجموعه برچسب زیاد ، برچسب زنی را با مشکل مواجه می کند ، به همین دلیل در این پژوهش از 40 مجموعه برچسب کاهش یافته از 550 برچسب بی جن خان استفاده شده است .
دراین سیستم ، برچسب زنی روی متون استاندارد از روزنامه همشهری صورت گرفته است و سعی بر این است که در این متون ، مشکلات مربوط به تحلیل رایانه ای متون فارسی حل شود . نتیجه ارزیابی و دقت سیستم دراین متون 97 درصد می باشد . هدف بعدی این است که سیستم درمورد متون غیر استاندارد نیز به نتیجه مطلوبی برسد . دقت سیستم برای این متون 92 در صد می باشد که در مقایسه با متون استاندارد ، دقت مطلوبی است .
کلیدواژه : برچسب زنی ، نماد خوانی، واژه های ناشناخته ، خط فارسی ، الگوریتم قاعده بنیاد ، الگوریتم آماری