قیمت 19,000 تومان
مرجع مشترک و اسم اشاره در متون پارسی
پایان نامه چارچوبی جديد برای تشخيص مرجع مشترک و اسم اشاره در متون پارسی
فهرست مطالب | |
عنوان | صفحه |
فصل ۱: آشنایی با تشخیص مرجع مشترک……………………… ………………………………………………………..۱
1-۱. مقدمه و بیان مسئله………………………………………………………………………………………………… 1
1-2. بررسی ارتباطات هممرجعی……………………………………………………………………………………… 6
1-2-1. هممرجع در مقابل پیشایند……………………………………………………………………………… 9
1-۲-1-۱. ارتباط هممرجع…………………………………………………………………………………….. ۱0
1-۲-1-2. ارتباط پیشایندی……………………………………………………………………………………. 11
1-۲-۲. تحلیل پیشایند………………………………………………………………………………………………. 16
1-۲-۳. تحلیل مرجع مشترک……………………………………………………………………………………. 16
1-۲-۴. تقابل تحلیل مرجع مشترک و تحلیل پیشایندی……………………………………………. ۱7
1-3.جمعبندی………………………………………………………………………………………………………………. 20
فصل 2 : بخش اول……………………………………………………………………………………… 21
2-1-۱. پیشینه تشخیص مرجع مشترک……………………………………………………………………….. 21
2-1-۲. روشهای زبانشناسی……………………………………………………………………………………….. 22
2-1-۲-1. فاکتورهای حذف کننده………………………………………………………………………….. 23
2-1-۳-۲-۱. تطبیق جنس و عدد………………………………………………………………………. 23
2-1-۳-۲-۱. تطبیق معنایی……………………………………………………………………………….. 24
2-1-۲-۲. فاکتورهای امتیاز دهنده ………………………………………………………………………… 24
2-1-۳-۲-۱. مشابهت نحوی………………………………………………………………………………. 24
2-1-۳-۲-۱. مشابهت معنایی…………………………………………………………………………….. 25
2-1-۳-۲-۱. بارز بودن……………………………………………………………………………………….. 25
2-1-۳. روشهای یادگیری ماشین………………………………………………………………………………… 27
2-1-۳-۱. ویژگیها…………………………………………………………………………………………………. 28
2-1-۳-۲. مدلهای جفت اشاره………………………………………………………………………………. 28
2-1-۳-۲-۱. رده بندی جفت عبارتهای اسمی………………………………………………….. 32
2-1-۳-۲-۱-1. درخت تصمیم……………………………………………………………………….. 33
2-1-۳-۲-۲.افراز…………………………………………………………………………………………………. 35
2-1-۳-۲-۲-۱.درختِ بل……………………………………………………………………………….. 36
2-1-۳-۲-۲-۲. افراز گراف…………………………………………………………………………….. 38
2-1-۳-۳. روشهای مبتنی بر پیکره…………………………………………………………………………… 40
2-1-۳-۴. روشهای جایگزین…………………………………………………………………………………….. 44
2-1-۳-۴-۱. روش همآموزی…………………………………………………………………………………. 44
2-1-۳-۴-۲. مدل احتمالاتی مرتبه اول…………………………………………………………………. 46
2-1-۳-۴-۳. رتبهبندی………………………………………………………………………………………….. 47
2-1-۳-۴-۴. فیلدهای تصادفی شرطی…………………………………………………………………… 49
2-1-۳-۴-۵. خوشهبندی……………………………………………………………………………………… 51
2-1-۴. جمعبندی…………………………………………………………………………………………………………. 56
فصل 2: بخش دوم…………………………………………………………………………………….. 57
2-2-۱. پیکره نشانه گذاری شده توسط اطلاعات هممرجع………………………………………………… 58
2-2-۲. پیکره بیژنخان……………………………………………………………………………………………………… 59
2-2-۳. پیکره لوتوس…………………………………………………………………………………………………………. 60
2-2-۴.شیوههای نشانهگذاری پیکره لوتوس……………………………………………………………………….. 62
2-2-۴-۱. نشانهگذاری انواع موجودیتها……………………………………………………………………….. 62
2-2-۴-۱-۱. موجودیت شخص………………………………………………………………………………….. 64
2-2-۴-۱-۲. موجودیت سازمان…………………………………………………………………………………. 64
2-2-۴-۱-۳. موجودیت مکان…………………………………………………………………………………….. 66
2-2-۴-۱-۴. موجودیت سیاسی…………………………………………………………………………………. 66
2-2-۴-۲.کلاس هر موجودیت……………………………………………………………………………………….. 68
2-2-۴-۲-۱.غیر ارجاعی…………………………………………………………………………………………… 69
2-2-۴-۲-۲.ارجاعی………………………………………………………………………………………………….. 69
2-2-۴-۲-۲-۱.ارزیابی به شکل منفی…………………………………………………………………… 69
2-2-۴-۲-۲-۲.ارجاعی خاص……………………………………………………………………………….. 70
2-2-۴-۲-۲-۳.ارجاعی عمومی…………………………………………………………………………….. 70
2-2-۴-۲-۲-۴.ارجاعی زیر مشخص شده……………………………………………………………… 70
2-2-۴-۳.انواع اشاره/سطوح اشاره………………………………………………………………………………….. 71
2-2-۴-۳-۱.اشاره ساده……………………………………………………………………………………………… 72
2-2-۴-۳-۱-۱.محدوده اشاره……………………………………………………………………………….. 72
2-2-۴-۳-۱-۲. هسته اشاره…………………………………………………………………………………. 72
2-2-۴-۳-۱-۳.انواع اشاره ساده……………………………………………………………………………. 72
2-2-۴-۳-۲.ساختارهای پیچیده…………………………………………………………………………………… 74
2-2-۴-4-۲-۱.ساختارهای عطف بیان یا بدل………………………………………………………. 75
2-2-۵.جمعبندی………………………………………………………………………………………………………………. 75
فصل 3: الگوریتمهای پیشنهادی…………………………………………………………………. 76
3-۱. رده بندی دودویی……………………………………………………………………………………………………… 76
3-1-1.جدا کنندههای خطی………………………………………………………………………………………….. 77
3-1-1-1 پرسپترون…………………………………………………………………………………………………… 78
3-1-1-2 ماشین بردار پشتیبان…………………………………………………………………………………. 80
3-1-1-3 درخت تصمیم……………………………………………………………………………………………. 85
3-۲.خوشهبندی…………………………………………………………………………………………………………………. 88
3-2-1 .الگوریتمهای افراز بستهای………………………………………………………………………………… 89
3-2-1-1 .خوشهبندی سلسله مراتبی پایین به بالا……………………………………………………. 90
3-2-1-2 .آموزش الگوریتم خوشهبندی سلسله مراتبی…………………………………………….. 93
3-3.جمعبندی…………………………………………………………………………………………………………………… 96
فصل 4: سیستم ارزیابی…………………………………………………………………………….. 97
4-۱.مقدمه…………………………………………………………………………………………………………………………. 97
4-۲.سیستم شناسایی اشاره لوتوس……………………………………………………………………………………. 98
4-2-1 .بانک اطلاعاتی………………………………………………………………………………………………….. 98
4-2-2.سیستم شناسایی اشاره……………………………………………………………………………………. 102
4-3.تشخیص اشارههای هم مرجع…………………………………………………………………………………… 103
4-3-1 ویژگیها…………………………………………………………………………………………………………. 104
4-3-2.الگوریتم یادگیری……………………………………………………………………………………………. 105
4-3-3.معیار ارزیابی…………………………………………………………………………………………………… 107
4-3-4.نتیجه ارزیابی………………………………………………………………………………………………….. 110
4-3-4-1.نتایج بدست آمده……………………………………………………………………………………. 110
4-3-4-.2چالشها و تحلیل خطا……………………………………………………………………………. 112
4-4.جمعبندی………………………………………………………………………………………………………………… 115
فصل 5 :نتیجه گیری و پیشنهادها………………………………………………………………. 116
5-۱.نتیجهگیری………………………………………………………………………………………………………………. 116
5-2.پیشنهادها………………………………………………………………………………………………………………… 118
فصل .6 منابع…………………………………………………………………………………………… 121
تحليل مرجع مشترک:
با توجه به آنچه گفته شد، تحلیل مرجع مشترک، به فرآیند مرتبط کردن تمام عبارتهایی گفته میشود که به یک موجودیت واحد در دنیای واقعی اشاره دارند. این عبارتهای اسمیهممرجع، با هم تشکیل یک زنجیره واحد را میدهند که شامل ضمایر صفر تا اسامیخاص خواهد بود. تمام اعضای تشکیل دهندهی این زنجیره باید از نظر تعداد، جنس و… با یکدیگر هم تراز باشند.
تقابل تحليل مرجع مشترک و تحليل پيشايندی:
با توجه به آنچه تا کنون درباره دو مفهوم تحلیل مرجع مشترک و تحلیل پیشایند گفته شد، این دو وظیفه با وجود شباهت زیادی که با یکدیگر دارند، دو وظیفه مجزا محسوب میشوند. بدینترتیب که با به کارگیری فرآیند تحلیل مرجعمشترک، سیستم میتواند تمام اطلاعاتی که در مورد یک موجودیت در متن وجود دارد را شناسایی نماید. از طرفی دیگر تفسیر درست پیشایندها در متون به رفع ابهامات موجود در متن میانجامد؛ لذا استفاده از این دو وظیفه با در نظر گرفتن حوزههای تشابه و اختلاف آنها به درک و استخراج اطلاعات مفید در متن کمک فراوانی خواهد نمود. در این بخش با استفاده از مثالهایی لزوم اجرای این دو فرآیند را در کنار یکدیگر بررسی میکنیم.
پس از شناخت فرآیندهای تحلیل مرجع مشترک و تحلیل پیشایند و اینکه یک سیستم چه انتظاراتی را باید برآورده نماید، لازم است تا روال کار را برای اجرای هر فرآیند را مشخص نماییم. استفاده از الگوریتمهای یادگیری، از پرکاربردترین روشهای ارائه شده برای شناسایی روابط مثبت و منفی در مرجع مشترک و پیشایند میباشد. به این ترتیب که الگوریتم با استفاده از برخی ویژگیها (مانند [105]( آموزش میبیند تا روابط مثبت و منفی را پيشبینی نماید[1].
البته شایان ذکر است که برخی از ویژگیها برای این دو فرآیند مشترک و برخی دیگر متفاوت میباشد. به عنوان مثال ویژگی تطابق رشتهای[2] از جمله مواردی است که برای تحلیل مرجع مشترک بسیار مورد توجه قرار گرفته است اما در فرآیند تحلیل پیشایند کاملاً بی معنا است( دو عبارت یکسان چگونه میتوانند یکدیگر را تفسیر نمایند). به عبارت دیگر فرض بر این است که دو عبارت اسمیکه در یک متن تکرار میشوند به احتمال خیلی زیاد هممرجع هستند.
مثال ۹: دیروز دو تیم محبوب «الف» و «ب» به مصاف یکدیگر رفتند. تیم «الف»، در نیمه اول بسیار درخشید به طوری که طرفداران این تیم به پیروزی تیمشان امیدوار بودند. اما دیری نپایید که تیم «ب» روال بازی را به نفع خود تغییر داد که منجر به شادمانی طرفداران این تیم شد.
همان طور که در مثال ۹ مشاهده میشود، عبارت اسمی«طرفداران این تیم» در خطوط ۲ و ۳ عیناً تکرار شده است. بنابراین طبق ویژگی تطابق رشتهای در فرآیند تحلیل مرجع مشترک این دو عبارت با یکدیگر هممرجع در نظر گرفته خواهند شد، اما واقعیت این است که این دو عبارت با یکدیگر هممرجع نیستند. به عبارتی قرار گرفتن این دو عبارت در یک زنجیره واحد یکی از خطاهای تحلیل مرجع مشترک محسوب میشود.
در حالی که استفاده از فرآیند تحلیل پیشایندی موجب رفع این خطا خواهد شد. این کار به این ترتیب انجام خواهد گرفت که عبارت «طرفداران این تیم» در خط ۳ با اولین و نزدیکترین مفسر خود یعنی «تیم ب»، تشکیل یک جفت تالی و مقدم را میدهند و به همین ترتیب «طرفداران این تیم» در خط ۲ با «تیم الف» جفت خواهد شد. این مثال نمونهایست که در آن دقتِ[3] تحلیل پیشایندی از تحلیل مرجع مشترک پیشی میگیرد.
طبق آنچه در فرآیند تحلیل پیشایندی رایج است. هنگام شناسایی مقدم برای هر عبارت تالی، حرکت از تالی به سمت عبارتهای اسمیماقبل آن انجام خواهد شد تا به این ترتیب، جفت عبارتهای (مقدم و تالی) شناسایی شوند. همان طور که پیش از این اشاره شد، فرآیند تشخیص مرجع ضمیر نیز از همین رویکرد پیروی مینماید، با این تفاوت که در برخی موارد مقدم (در اینجا منظور مرجع ضمیر است) بعد از تالی قرار میگیرد (مانند مثال ۸). بنابراین حرکت الگوریتم (راست به چپ) نمیتواند به شناسائی مرجع صحیح برای ضمیر مورد نظر منجر شود. در حالی که اجرای وظیفهی تحلیل مرجع مشترک، با شناسایی عبارتهای هممرجع، تا حد زیادی این مشکل را برطرف خواهد نمود.
حرکت الگوریتم در تحلیل مرجع مشترک نیز از راست به چپ خواهد بود با این تفاوت که نقطه شروع آن میتواند انتهای متن باشد، هر عبارت اسمیجدید که با عبارتهای پیش از خود هممرجع باشد به زنجیرههای موجود اضافه میشود، در غیر این صورت خودش تشکیل زنجیرهای جدید را خواهد داد. در چنین حالتی فراخوانی[4] و دقت در تحلیل مرجع مشترک نسبت به تحلیل پیشایندی پیشی میگیرد.
به همین ترتیب نیز راهکارهای ارائه شده برای هر کدام از این فرآیندها تا حدودی با یکدیگر متفاوت میباشد. به عنوان نمونه یک رویکرد در فرآیند تحلیل پیشایندی افراز پس از آموزش الگوریتم یادگیری است که تنها به منظور افرازِ جفتهای (مقدم و تالی) صورت میگیرد. به این ترتیب که پس از ایجاد نمونههای مثبت و منفی که عموماً توسط یک ردهبند ایجاد میشوند، نزدیکترین و مناسبترین مقدم برای تالی مورد نظر مشخص میشود.
در مقابل برخی پژوهشگران برای تحلیل مرجع مشترک را یک فرآیند دومرحلهای در نظر میگیرند؛ در مرحلهی اول به جای استفاده از دو اصطلاح تالی و مقدم، اصطلاحاتی مانند «قابل برچسب[5]» و یا «اشاره» جایگزین میشود. هر اشاره میتواند خروجی فرآیند كشف و شناسایی اشاره باشد.
توجیه این جایگزینی این است که ما در تحلیل مرجع مشترک به مفاهیم مفسر یا ارجاع دهنده نیاز نداریم و به جای آن اصلاحِ مستقلِ اشاره را جایگزین مینماییم. هر اشاره به عنوان یک ارجاع به هر گروه از موجودیتها در نظر گرفته میشود و میتواند یکی از انواع اسم عام، اسم خاص و حتی ضمیر (یا شبه ضمیر) باشد. همچنین سایر عبارتهای موجود در متن که برای تحلیل مرجع مشترک کاربرد ندارند، به عنوان خارج از اشاره[6] در نظر گرفته میشوند. در مرحلهی دوم نیز فرآیند تحلیل عبارتهای اسمیهممرجع انجام خواهد شد.
جمعبندی:
در این فصل، تحلیل مرجع مشترک را به طور دقیق تر مورد بررسی قرار دادیم، آنچه مشخص است این فرآیند به دنبال پیدا کردن ارتباطات هممرجع در متن میباشد. در پژوهشهای انجام شده گاهی یک ارتباط هممرجع با ارتباط مشابه دیگری به نام ارتباط پیشایندی مترادف محسوب میشود. حتی گاهی ما یک ارتباط را هممرجع میپنداریم که هممرجع نیست.
از آنجائیکه ما برای انجام تحلیل مرجع مشترک در زبان پارسی نیاز به پیکرهای با برچسب گفتمان خواهیم داشت، لازم بود تا این ارتباطات را به طور دقیق بشناسیم. تا بر اساس آن بتوانیم پیکرهای با روابط صحیح ایجاد نمائیم. به علاوه این شناخت میتواند به انتخاب راهکارهای مناسب برای فرآیند تحلیل مرجع مشترک نیز کمک شایانی داشته باشد و در نهايت نيز شناخت روابط و راهكارهاي مناسب براي تشخيص هر كدام از انواع روابط ميان عبارتهاي اسمي مرتبط با هم، مي تواند به ايجاد يك سيستم چند گذري، مانند آنچه لي 2011، بنسکو2012 ارائه داده اند كمك كند. [41،80]به اين ترتيب كه در هر گذر، يكي از انواع و حالتهاي موجود مورد بررسي و تحليل قرار گيرد و در نهايت با اجماع نتايج حاصل شده، فرايند تحليل اتمام يابد.
پيشينه تشخيص مرجع مشترک
تشخیص مرجع مشترک، یکی از مهمترین وظایف استخراج اطلاعات است که با شناسایی عبارات اسمی (اشارههایی) که به یک موجودیت واحد اشاره دارند، همراه میباشد.[58]به این ترتیب که این اشارهها تشکیل یک زنجیرهی هممرجع را میدهند. در این فصل برخی از روشهایی که در زمینه تشخیص مرجع مشترک بکارگرفته شدهاند را بررسی مینماييم. از آنجائیکه تا کنون پژوهش منتشر شدهای در این زمینه در زبان پارسی پیدا نکردیم، در این بخش به بررسی روشهای ارائه شده در سایر زبان ها(انگلیسی، عربی، چینی و…) میپردازیم.
به طور کلی روشهای تشخیص مرجع مشترک به دو دسته کلی زبانشناسی و روشهای یادگیری ماشین تقسیم میشوند. به این ترتیب که در روشهای زبانشناسی، بسیار نیازمند دانش زبانشناسی هستیم. استخراج این دانش از متن، فرآیندی زمانبر و پرخطاست. نخستین الگوریتمهای زبانشناسی مرتبط با تشخیص مرجع مشترک در اواخر دهه هفتاد ارائه شدند که در آنها از دانش زبانشناسی و معنایی بسیاری استفاده شدهاست.[19،60]
پس از آن، با گذر زمان و فراهم شدن پیکرههای زبانشناسی، این روشها، جای خود را به روشهای آماری دادند. در روشهای آماری، دانش مورد نیاز بیشتر با استفاده از پیکرههای بزرگ و روشهای آماری کسب میشود و نسبت به روش قبل، به دانش زبانشناسی کمتری نیاز است و همچنین به نتایج بهتری نیز بدست ميآيد.[105] در ادامهی این بخش نخست به مرور مختصری از شیوههای کلی روشهای زبانشناسی میپردازیم. سپس روشهای یادگیری ماشین را با تفصیل بیشتری بیان خواهیم نمود.
روشهای زبانشناسی
عموماً روشهای زبانشناسی به منظور تشخیص مرجع مشترک، از مجموعهای از فاکتورها بهره میگیرند. تطابق[1] جنس و عدد (چندم شخص ، مفرد/ جمع)، محدودیتهای تطبیق معنایی، مشابهت معنایی[2]، مشابهت نحوی[3]، بارز بودن[4]، مجاورت[5] و غیره از جمله فاکتورهای متداول برای تشخیص مرجع مشترک میباشند. این فاکتورها میتوانند «حذفکننده[6]» یا «امتیازدهنده[7]» باشند. جدول 2-۱ این فاکتورها را به تفکیک «حذفکننده» و «امتیازدهنده» نمایش میدهد.
جدول2-۱: فاکتورهای متداول برای تشخیص مرجع مشترک | |
«حذفکننده» | «امتیازدهنده» |
تطبیق جنس و تعداد
تطبیق معنایی |
مشابهت معنایی
مشابهت نحوی بارز بودن مجاورت |
در روشهای زبانشناسی، روال کار به این صورت است که ابتدا به ازای یک عبارت تالی، عبارات مقدم(عبارات هممرجع) کاندیدای آن تعیین ميگردد. پس از آن با استفاده از فاکتورهای «حذفکننده»، برخی از کاندیداها حذف میشوند، سپس فاکتورهای امتیازدهنده به امتیازدهی کاندیداهای باقیمانده میپردازند. در نهایت نیز کاندیدایی که بیشترین امتیاز را کسب کرده باشد به عنوان عبارت مقدم که با عبارت اسمی مورد نظر هممرجع میباشد، انتخاب خواهد شد.
جهت مشاهده نمونه های دیگر از ادبیات ، پیشینه تحقیق و مبانی نظری پایان نامه های مهندسی کامپیوتر و فناوری اطلاعات کلیک کنید.
نمونه ای از منابع انگليسی |
1. A. Blum and T. Mitchell, “combining labeled and unlabeled data with containing”, Proceedings of COLT, 1998, pages 92–100. |
2. A. Culotta, M.Wick,. and A. McCallum, “First-Order Probabilistic Models for Coreference Resolution”, Proceedings of NAACL HLT 2007, pages 81–88. |
3. A. Haghighi and D. Klein,“Unsupervised coreference resolution in a nonparametric bayesian model.” In Proceedings of the Association for ComputaDItional Linguistics, 2007. |
4. A. Haghighi, D. Klein, “An Entity –Level Approach To IE “. |
5. A. McCallum and B.Wellner,“Conditional models of identity uncertainty with application to proper noun Coreference”, proceedings of Neural Information Processing Systems 2004, (NIPS). |
6. ACE (Automatic Content Extraction), “English Annotation Guidelines for Entities”, Version 6.06 2008.06.13. |
7. ACE (Automatic Content Extraction),“Arabic Annotation Guidelines for Entities Version 6.0 2006.06.15”. |
8. B. Grosz, A. Joshi,. and S. Weinstein,“providing a unified account of definite noun phrases in discourse”, Proceedings of ACL ’83 1983,, pages 44-50. |
9. B. H. Partee, “Opacity, coreference, and pronouns”. In D. Davidson and G. Harman,eds., Semantics for Natural Language, pages 415–441. Dordrecht, Holland: D.Reidel. 1972. |
10. Bansal, M and Klein,D , “Coreference Semantics From Web Features”, Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pages 389–398,Jeju, Republic of Korea, 8-14 July 2012. |
11. C.Aone and S.W.Bennett, “Applying Machin Learning to Anaphora Resolution”.
12-… 13-…
|
نقد و بررسیها
هنوز بررسیای ثبت نشده است.
نقد و بررسیها
هنوز بررسیای ثبت نشده است.