قیمت 19,000 تومان

اشتراک 0دیدگاه 54 بازدید

مرجع‏ مشترک و اسم اشاره در متون پارسی

پایان نامه چارچوبی جديد برای تشخيص مرجع‏ مشترک و اسم اشاره در متون پارسی

فهرست مطالب
عنوان صفحه

فصل ۱: آشنایی با تشخیص مرجع مشترک……………………… ………………………………………………………..۱

1-۱. مقدمه و بیان مسئله………………………………………………………………………………………………… 1

1-2. بررسی ارتباطات هم‏مرجعی……………………………………………………………………………………… 6

1-2-1. هم‏مرجع در مقابل پیشایند……………………………………………………………………………… 9

1-۲-1-۱. ارتباط هم‏مرجع…………………………………………………………………………………….. ۱0

1-۲-1-2. ارتباط پیشایندی……………………………………………………………………………………. 11

1-۲-۲. تحلیل پیشایند………………………………………………………………………………………………. 16

1-۲-۳. تحلیل مرجع مشترک……………………………………………………………………………………. 16

1-۲-۴. تقابل تحلیل مرجع مشترک و تحلیل پیشایندی……………………………………………. ۱7

1-3.جمع‏بندی………………………………………………………………………………………………………………. 20

فصل 2 : بخش اول……………………………………………………………………………………… 21

2-1-۱. پیشینه تشخیص مرجع مشترک……………………………………………………………………….. 21

2-1-۲. روش‏های زبان‏شناسی……………………………………………………………………………………….. 22

2-1-۲-1. فاکتورهای حذف کننده………………………………………………………………………….. 23

2-1-۳-۲-۱. تطبیق جنس و عدد………………………………………………………………………. 23

2-1-۳-۲-۱. تطبیق معنایی……………………………………………………………………………….. 24

2-1-۲-۲. فاکتورهای امتیاز دهنده ………………………………………………………………………… 24

2-1-۳-۲-۱. مشابهت نحوی………………………………………………………………………………. 24

2-1-۳-۲-۱. مشابهت معنایی…………………………………………………………………………….. 25

2-1-۳-۲-۱. بارز بودن……………………………………………………………………………………….. 25

2-1-۳. روش‏های یادگیری ماشین………………………………………………………………………………… 27

2-1-۳-۱. ویژگی‏ها…………………………………………………………………………………………………. 28

2-1-۳-۲. مدل‏های جفت اشاره………………………………………………………………………………. 28

2-1-۳-۲-۱. رده بندی جفت عبارت‏های اسمی………………………………………………….. 32

2-1-۳-۲-۱-1. درخت تصمیم……………………………………………………………………….. 33

2-1-۳-۲-۲.افراز…………………………………………………………………………………………………. 35

2-1-۳-۲-۲-۱.درختِ بل……………………………………………………………………………….. 36

2-1-۳-۲-۲-۲. افراز گراف…………………………………………………………………………….. 38

2-1-۳-۳. روش‏های مبتنی بر پیکره…………………………………………………………………………… 40

2-1-۳-۴. روش‏های جایگزین…………………………………………………………………………………….. 44

2-1-۳-۴-۱. روش هم‏آموزی…………………………………………………………………………………. 44

2-1-۳-۴-۲. مدل احتمالاتی مرتبه اول…………………………………………………………………. 46

2-1-۳-۴-۳. رتبه‏بندی………………………………………………………………………………………….. 47

2-1-۳-۴-۴. فیلدهای تصادفی شرطی…………………………………………………………………… 49

2-1-۳-۴-۵. خوشه‏بندی……………………………………………………………………………………… 51

2-1-۴. جمع‏بندی…………………………………………………………………………………………………………. 56

فصل 2: بخش دوم…………………………………………………………………………………….. 57

2-2-۱. پیکره نشانه گذاری شده توسط اطلاعات هم‏مرجع………………………………………………… 58

2-2-۲. پیکره بیژن‏خان……………………………………………………………………………………………………… 59

2-2-۳. پیکره لوتوس…………………………………………………………………………………………………………. 60

2-2-۴.شیوه‏های نشانه‏گذاری پیکره لوتوس……………………………………………………………………….. 62

2-2-۴-۱. نشانه‏گذاری انواع موجودیت‏ها……………………………………………………………………….. 62

2-2-۴-۱-۱. موجودیت شخص………………………………………………………………………………….. 64

2-2-۴-۱-۲. موجودیت سازمان…………………………………………………………………………………. 64

2-2-۴-۱-۳. موجودیت مکان…………………………………………………………………………………….. 66

2-2-۴-۱-۴. موجودیت سیاسی…………………………………………………………………………………. 66

2-2-۴-۲.کلاس هر موجودیت……………………………………………………………………………………….. 68

2-2-۴-۲-۱.غیر ارجاعی…………………………………………………………………………………………… 69

2-2-۴-۲-۲.ارجاعی………………………………………………………………………………………………….. 69

2-2-۴-۲-۲-۱.ارزیابی به شکل منفی…………………………………………………………………… 69

2-2-۴-۲-۲-۲.ارجاعی خاص……………………………………………………………………………….. 70

2-2-۴-۲-۲-۳.ارجاعی عمومی…………………………………………………………………………….. 70

2-2-۴-۲-۲-۴.ارجاعی زیر مشخص شده……………………………………………………………… 70

2-2-۴-۳.انواع اشاره/سطوح اشاره………………………………………………………………………………….. 71

2-2-۴-۳-۱.اشاره ساده……………………………………………………………………………………………… 72

2-2-۴-۳-۱-۱.محدوده اشاره……………………………………………………………………………….. 72

2-2-۴-۳-۱-۲. هسته اشاره…………………………………………………………………………………. 72

2-2-۴-۳-۱-۳.انواع اشاره ساده……………………………………………………………………………. 72

2-2-۴-۳-۲.ساختارهای پیچیده…………………………………………………………………………………… 74

2-2-۴-4-۲-۱.ساختارهای عطف بیان یا بدل………………………………………………………. 75

2-2-۵.جمع‏بندی………………………………………………………………………………………………………………. 75

فصل 3: الگوریتم­های پیشنهادی…………………………………………………………………. 76

3-۱. رده بندی دودویی……………………………………………………………………………………………………… 76

3-1-1.جدا کننده‏های خطی………………………………………………………………………………………….. 77

3-1-1-1 پرسپترون…………………………………………………………………………………………………… 78

3-1-1-2 ماشین بردار پشتیبان…………………………………………………………………………………. 80

3-1-1-3 درخت تصمیم……………………………………………………………………………………………. 85

3-۲.خوشه‏بندی…………………………………………………………………………………………………………………. 88

3-2-1 .الگوریتم‏های افراز بسته‏ای………………………………………………………………………………… 89

3-2-1-1 .خوشه‏بندی سلسله مراتبی پایین به بالا……………………………………………………. 90

3-2-1-2 .آموزش الگوریتم خوشه‏بندی سلسله مراتبی…………………………………………….. 93

3-3.جمع‏بندی…………………………………………………………………………………………………………………… 96

فصل 4: سیستم ارزیابی…………………………………………………………………………….. 97

4-۱.مقدمه…………………………………………………………………………………………………………………………. 97

4-۲.سیستم شناسایی اشاره لوتوس……………………………………………………………………………………. 98

4-2-1 .بانک اطلاعاتی………………………………………………………………………………………………….. 98

4-2-2.سیستم شناسایی اشاره……………………………………………………………………………………. 102

4-3.تشخیص اشاره‏های هم مرجع…………………………………………………………………………………… 103

4-3-1 ویژگی‏ها…………………………………………………………………………………………………………. 104

4-3-2.الگوریتم یادگیری……………………………………………………………………………………………. 105

4-3-3.معیار ارزیابی…………………………………………………………………………………………………… 107

4-3-4.نتیجه ارزیابی………………………………………………………………………………………………….. 110

4-3-4-1.نتایج بدست آمده……………………………………………………………………………………. 110

4-3-4-.2چالش‏ها و تحلیل خطا……………………………………………………………………………. 112

4-4.جمع‏بندی………………………………………………………………………………………………………………… 115

فصل 5 :نتیجه گیری و پیشنهادها………………………………………………………………. 116

5-۱.نتیجه‏گیری………………………………………………………………………………………………………………. 116

5-2.پیشنهادها………………………………………………………………………………………………………………… 118

فصل .6 منابع…………………………………………………………………………………………… 121

 

چارچوبی جديد برای تشخيص مرجع‏ مشترک و اسم اشاره در متون پارسی

تحليل مرجع ‏مشترک:

با توجه به آنچه گفته شد، تحلیل مرجع‏ مشترک، به فرآیند مرتبط کردن تمام عبارت‏هایی گفته می‏شود که به یک موجودیت واحد در دنیای واقعی اشاره دارند. این عبارت‏های اسمی‏هم‏مرجع، با هم تشکیل یک زنجیره واحد را می‏دهند که شامل ضمایر صفر تا اسامی‏خاص خواهد بود. تمام اعضای تشکیل دهنده‏ی این زنجیره باید از نظر تعداد، جنس و… با یکدیگر هم تراز باشند.

 

تقابل تحليل مرجع‏ مشترک و تحليل پيشايندی:

با توجه به آنچه تا کنون درباره دو مفهوم تحلیل مرجع ‏مشترک و تحلیل پیشایند گفته شد، این دو وظیفه با وجود شباهت زیادی که با یکدیگر دارند، دو وظیفه مجزا محسوب می‏شوند. بدین‏ترتیب که با به کارگیری فرآیند تحلیل مرجع‏مشترک، سیستم می‏تواند تمام اطلاعاتی که در مورد یک موجودیت در متن وجود دارد را شناسایی نماید. از طرفی دیگر تفسیر درست پیشایندها در متون به رفع ابهامات موجود در متن می‏انجامد؛ لذا استفاده از این دو وظیفه با در نظر گرفتن حوزه‏ها‏ی تشابه و اختلاف آن‏ها به درک و استخراج اطلاعات مفید در متن کمک فراوانی خواهد نمود. در این بخش با استفاده از مثال‏هایی لزوم اجرای این دو فرآیند را در کنار یکدیگر بررسی می‏کنیم.

پس از شناخت فرآیندهای تحلیل مرجع‏ مشترک و تحلیل پیشایند و اینکه یک سیستم چه انتظاراتی را باید برآورده نماید، لازم است تا روال کار را برای اجرای هر فرآیند را مشخص نماییم. استفاده از الگوریتم‏های یادگیری، از پرکاربردترین روش‏های ارائه شده برای شناسایی روابط مثبت و منفی در مرجع ‏مشترک و پیشایند می‏باشد. به این ترتیب که الگوریتم با استفاده از برخی ویژگی‏ها (مانند [105]( آموزش می‏بیند تا روابط مثبت و منفی را پيش‏بینی نماید[1].

البته شایان ذکر است که برخی از ویژگی‏ها برای این دو فرآیند مشترک و برخی دیگر متفاوت می‏باشد. به عنوان مثال ویژگی تطابق رشته‏ای[2] از جمله مواردی است که برای تحلیل مرجع‏ مشترک بسیار مورد توجه قرار گرفته است اما در فرآیند تحلیل پیشایند کاملاً بی معنا است( دو عبارت یکسان چگونه می‏توانند یکدیگر را تفسیر نمایند). به عبارت دیگر فرض بر این است که دو عبارت اسمی‏که در یک متن تکرار می‏شوند به احتمال خیلی زیاد هم‏مرجع هستند.

مثال ۹: دیروز دو تیم محبوب «الف» و «ب» به مصاف یکدیگر رفتند. تیم «الف»، در نیمه اول بسیار درخشید به طوری که طرفداران این تیم به پیروزی تیمشان امیدوار بودند. اما دیری نپایید که تیم «ب» روال بازی را به نفع خود تغییر داد که منجر به شادمانی طرفداران این تیم شد.

همان طور که در مثال ۹ مشاهده می‏شود، عبارت اسمی‏«طرفداران این تیم» در خطوط ۲ و ۳ عیناً تکرار شده است. بنابراین طبق ویژگی تطابق رشته‏ای در فرآیند تحلیل مرجع ‏مشترک این دو عبارت با یکدیگر هم‏مرجع در نظر گرفته خواهند شد، اما واقعیت این است که این دو عبارت با یکدیگر هم‏مرجع نیستند. به عبارتی قرار گرفتن این دو عبارت در یک زنجیره واحد یکی از خطاهای تحلیل مرجع ‏مشترک محسوب می‏شود.

در حالی که استفاده از فرآیند تحلیل پیشایندی موجب رفع این خطا خواهد شد. این کار به این ترتیب انجام خواهد گرفت که عبارت «طرفداران این تیم» در خط ۳ با اولین و نزدیک‏ترین مفسر خود یعنی «تیم ب»، تشکیل یک جفت تالی و مقدم را می‏دهند و به همین ترتیب «طرفداران این تیم» در خط ۲ با «تیم الف» جفت خواهد شد. این مثال نمونه‏ایست که در آن دقتِ[3] تحلیل پیشایندی از تحلیل مرجع‏ مشترک پیشی می‏گیرد.

طبق آنچه در فرآیند تحلیل پیشایندی رایج است. هنگام شناسایی مقدم برای هر عبارت تالی، حرکت از تالی به سمت عبارت‏های اسمی‏ماقبل آن انجام خواهد شد تا به این ترتیب، جفت عبارت‏های (مقدم و تالی) شناسایی شوند. همان طور که پیش از این اشاره شد، فرآیند تشخیص مرجع ضمیر نیز از همین رویکرد پیروی می‏نماید، با این تفاوت که در برخی موارد مقدم (در اینجا منظور مرجع ضمیر است) بعد از تالی قرار می‏گیرد (مانند مثال ۸). بنابراین حرکت الگوریتم (راست به چپ) نمی‏تواند به شناسائی مرجع صحیح برای ضمیر مورد نظر منجر شود. در حالی که اجرای وظیفه‏ی تحلیل مرجع‏ مشترک، با شناسایی عبارت‏های هم‏مرجع، تا حد زیادی این مشکل را برطرف خواهد نمود.

حرکت الگوریتم در تحلیل مرجع‏ مشترک نیز از راست به چپ خواهد بود با این تفاوت که نقطه‏ شروع آن می‏تواند انتهای متن باشد، هر عبارت اسمی‏جدید که با عبارت‏های پیش از خود هم‏مرجع باشد به زنجیره‏های موجود اضافه می‏شود، در غیر این صورت خودش تشکیل زنجیره‏ای جدید را خواهد داد. در چنین حالتی فراخوانی[4] و دقت در تحلیل مرجع‏ مشترک نسبت به تحلیل پیشایندی پیشی می‏گیرد.

به همین ترتیب نیز راهکار‏ها‏ی ارائه شده برای هر کدام از این فرآیندها تا حدودی با یکدیگر متفاوت می‏باشد. به عنوان نمونه یک رویکرد در فرآیند تحلیل پیشایندی افراز پس از آموزش الگوریتم یادگیری است که تنها به منظور افرازِ جفت‏های (مقدم و تالی) صورت می‏گیرد. به این ترتیب که پس از ایجاد نمونه‏ها‏ی مثبت و منفی که عموماً توسط یک رده‏بند ایجاد می‏شوند، نزدیک‏ترین و مناسب‏ترین مقدم برای تالی مورد نظر مشخص می‏شود.

در مقابل برخی پژوهشگران برای تحلیل مرجع ‏مشترک را یک فرآیند دومرحله‏ای در نظر می‏گیرند؛ در مرحله‏ی اول به جای استفاده از دو اصطلاح تالی و مقدم، اصطلاحاتی مانند «قابل برچسب[5]» و یا «اشاره» جایگزین می‏شود. هر اشاره می‏تواند خروجی فرآیند كشف و شناسایی اشاره باشد.

توجیه این جایگزینی این است که ما در تحلیل مرجع ‏مشترک به مفاهیم مفسر یا ارجاع دهنده نیاز نداریم و به جای آن اصلاحِ مستقلِ اشاره را جایگزین می‏نماییم. هر اشاره به عنوان یک ارجاع به هر گروه از موجودیت‏ها در نظر گرفته می‏شود و می‏تواند یکی از انواع اسم عام، اسم خاص و حتی ضمیر (یا شبه ضمیر) باشد. همچنین سایر عبارت‏های موجود در متن که برای تحلیل مرجع ‏مشترک کاربرد ندارند، به عنوان خارج ‏از اشاره[6] در نظر گرفته میشوند. در مرحله‏ی دوم نیز فرآیند تحلیل عبارت‏ها‏ی اسمی‏هم‏مرجع انجام خواهد شد.

جمع‏بندی:

در این فصل، تحلیل مرجع مشترک را به طور دقیق تر مورد بررسی قرار دادیم، آنچه مشخص است این فرآیند به دنبال پیدا کردن ارتباطات هم‏مرجع در متن می‏باشد. در پژوهش‏ها‏ی انجام شده گاهی یک ارتباط هم‏مرجع با ارتباط مشابه دیگری به نام ارتباط پیشایندی مترادف محسوب می‏شود. حتی گاهی ما یک ارتباط را هم‏مرجع می‏پنداریم که هم‏مرجع نیست.

از آنجائیکه ما برای انجام تحلیل مرجع مشترک در زبان پارسی نیاز به پیکره‏ای با برچسب گفتمان خواهیم داشت، لازم بود تا این ارتباطات را به طور دقیق بشناسیم. تا بر اساس آن بتوانیم پیکره‏ای با روابط صحیح ایجاد نمائیم. به علاوه این شناخت می‏تواند به انتخاب راهکار‏های مناسب برای فرآیند تحلیل مرجع مشترک نیز کمک شایانی داشته باشد و در نهايت نيز شناخت روابط و راهكارهاي مناسب براي تشخيص هر كدام از انواع روابط ميان عبارت‏هاي اسمي مرتبط با هم، مي تواند به ايجاد يك سيستم چند گذري، مانند آنچه لي 2011، بنسکو2012 ارائه داده اند كمك كند. [41،80]به اين ترتيب كه در هر گذر، يكي از انواع و حالت‏هاي موجود مورد بررسي و تحليل قرار گيرد و در نهايت با اجماع نتايج حاصل شده، فرايند تحليل اتمام يابد.

 

پيشينه تشخيص مرجع مشترک

تشخیص مرجع مشترک، یکی از مهمترین وظایف استخراج اطلاعات است که با شناسایی عبارات اسمی (اشاره‏هایی) که به یک موجودیت واحد اشاره دارند، همراه می‏باشد.[58]به این ترتیب که این اشاره‏ها تشکیل یک زنجیره‏ی هم‏مرجع را می‏دهند. در این فصل برخی از روش‏هایی که در زمینه تشخیص مرجع مشترک بکارگرفته شده‏اند را بررسی می‏نماييم. از آنجائی­که تا کنون پژوهش منتشر شده‏ای در این زمینه در زبان پارسی پیدا نکردیم، در این بخش به بررسی روش‏های ارائه شده در سایر زبان ها(انگلیسی، عربی، چینی و…) می‏پردازیم.

به طور کلی روش‏های تشخیص مرجع مشترک به دو دسته کلی زبان‏شناسی و روش‏های یادگیری ماشین تقسیم می‏شوند. به این ترتیب که در روش‏های زبان‏شناسی، بسیار نیازمند دانش زبان‏شناسی هستیم. استخراج این دانش از متن، فرآیندی زمان‏بر و پر‏خطاست.  نخستین الگوریتم‏های زبان‏شناسی مرتبط با  تشخیص مرجع مشترک در اواخر دهه هفتاد ارائه شدند که در آن‏ها از دانش زبان‏شناسی و معنایی بسیاری استفاده شده‏است.[19،60]

پس از آن، با گذر زمان و فراهم شدن پیکره‏های زبان‏شناسی، این روش‏ها، جای خود را به روش‏های آماری دادند. در روش‏های آماری، دانش مورد نیاز بیشتر با استفاده از پیکره‏های بزرگ و روش‏های آماری کسب می‏شود و نسبت به روش قبل، به دانش زبان‏شناسی کمتری نیاز است و همچنین به نتایج بهتری نیز بدست مي‏آيد.[105] در ادامه‏ی این بخش نخست به مرور مختصری از شیوه‏های کلی روش‏های زبان‏شناسی می‏پردازیم. سپس روش‏های یادگیری ماشین را با تفصیل بیشتری بیان خواهیم نمود.

 

روش‏های زبان‏شناسی

عموماً روش‏های زبان‏شناسی به منظور تشخیص مرجع مشترک، از مجموعه‏ای از فاکتورها بهره می‏گیرند. تطابق[1] جنس و عدد (چندم شخص ، مفرد/ جمع)، محدودیت‏های تطبیق معنایی، مشابهت معنایی[2]، مشابهت نحوی[3]، بارز بودن[4]، مجاورت[5] و غیره از جمله فاکتورهای متداول برای تشخیص مرجع مشترک می‏باشند. این فاکتورها می‏توانند «حذف‏کننده[6]» یا «امتیاز‏دهنده[7]» باشند. جدول 2-۱ این فاکتورها را به تفکیک «حذف‏کننده» و «امتیازدهنده» نمایش می‏دهد.

جدول2-۱: فاکتورهای متداول برای تشخیص مرجع مشترک
«حذف‏کننده» «امتیاز‏دهنده»
تطبیق جنس و تعداد

تطبیق معنایی

مشابهت معنایی

مشابهت نحوی

بارز بودن

مجاورت

در روش‏های زبان‏شناسی، روال کار به این صورت است که ابتدا به ازای یک عبارت تالی، عبارات مقدم(عبارات هم‏مرجع) کاندیدای آن تعیین مي‏گردد. پس از آن با استفاده از فاکتورهای «حذف‏کننده»، برخی از کاندیداها حذف می‏شوند، سپس فاکتورهای امتیازدهنده به امتیازدهی کاندیداهای باقیمانده می‏پردازند. در نهایت نیز کاندیدایی که بیشترین امتیاز را کسب کرده باشد به عنوان عبارت مقدم که با عبارت اسمی مورد نظر هم‏مرجع می‏باشد، انتخاب خواهد شد.

جهت مشاهده نمونه های دیگر از ادبیات ، پیشینه تحقیق و مبانی نظری پایان نامه های مهندسی کامپیوتر و فناوری اطلاعات کلیک کنید.

    نمونه ای از منابع انگليسی

1.     A. Blum and T. Mitchell, “combining labeled and unlabeled data with containing”, Proceedings of COLT, 1998, pages 92–100.
2.     A. Culotta, M.Wick,. and A. McCallum, “First-Order Probabilistic Models for Coreference Resolution”, Proceedings of NAACL HLT 2007, pages 81–88.
3.     A. Haghighi and D. Klein,“Unsupervised coreference resolution in a nonparametric bayesian model.” In Proceedings of the Association for ComputaDItional Linguistics, 2007.
4.     A. Haghighi, D. Klein, “An Entity –Level Approach To IE “.
5.     A. McCallum and B.Wellner,“Conditional models of identity uncertainty with application to proper noun Coreference”, proceedings of Neural Information Processing Systems 2004, (NIPS).
6.     ACE (Automatic Content Extraction), “English Annotation Guidelines for Entities”, Version 6.06 2008.06.13.
7.     ACE (Automatic Content Extraction),“Arabic Annotation Guidelines for Entities Version 6.0 2006.06.15”.
8.     B. Grosz, A. Joshi,. and S. Weinstein,“providing a unified account of definite noun phrases in discourse”, Proceedings of ACL ’83 1983,, pages 44-50.
9.     B. H. Partee, “Opacity, coreference, and pronouns”. In D. Davidson and G. Harman,eds., Semantics for Natural Language, pages 415–441. Dordrecht, Holland: D.Reidel. 1972.
10.  Bansal, M and Klein,D , “Coreference Semantics From Web Features”, Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pages 389–398,Jeju, Republic of Korea, 8-14 July 2012.
11.  C.Aone and S.W.Bennett, “Applying Machin Learning to Anaphora Resolution”.

12-…

13-…

 

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “چارچوبی جديد برای تشخيص مرجع‏ مشترک و اسم اشاره در متون پارسی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لطفا برای ارسال یا مشاهده تیکت به حساب خود وارد شوید