دانشكده برق و كامپيوتر

پايان‏نامه جهت اخذ درجه كارشناسي ارشد
رشته مهندسی پزشکی
عنوان:
بهبود طبقه‌بندی سیگنال الکتروکاردیوگرام -ECG- با ماشین بردار پشتیبان و بهینه‌سازی اجتماع ذرات -PSO-SVM-
استاد راهنما:
دكتر کرمی
دانشجو:
حسین زمانی پاشاکی
زمستان 93
تقدیم به پدر و مادر فداکارم
خدای را بسی شاکریم که از روی کرم پدران و مادرانی فداکار نصیب مان ساخته تا در سایه درخت پر بار وجودشان بیاسائیم و از ریشه آنها
شاخه و برگ گیریم و از سایه وجودشان در راه کسب علم و دانش تلاش نمائیم. والدینی که بودنشان تاج افتخاری است بر سرمان و نامشان
دلیلی است بر بودنمان. آموزگارانی که برایمان زنذگی؛ بودن و انسان بودن را معنا کردند.
سپاس و ستایش بیکران خداوند یگانه رحمان را سزاست که در روی کره ای متحرک ، لرزان، معلق و آویزان، کوه و صحرا رقم زد.
تقدیر و سپاسگزاری
سپاس بی حد و حصر خدای را که خوان نعمت بی دریغش همه ما بندگان را در بر گرفته و با نور وجودی ذات متعال خود، ما خاک نشینان را از پستوهای تاریکی و ضلالت بسوی دانایی، علم و کشف حقیقت هستی و افلاک نشینی شدن رهنمون میسازد.
در انجام این پژوهش، پس از لطف و عنایت باری تعالی از همیاری و همکاری اساتید بزرگواری که همواره راهنماییهای آنها چراغی جهت هدایت اینجانب بود و با همنشینی با این بزرگواران بود که به رهروی دانش مفتخر شدم، مراتب سپاس و قدردانی خود را به این عزیزان اعلام میدارم.
چکیده
آريتمي‌هاي قلبي يكي از بيماري‌هاي قلبي بوده كه در مورد بيماران بستري شده در بخش مراقبت‌هاي ويژه بايد به آن توجه شود. هوشمند‌سازی فرآیند تشخیص دقیق بیماری‌های قلبی مساله‌ای است که سال‌ها مورد توجه پژوهشگران قرار گرفته است. در این تحقیق روشی کارآمد جهت گزینش ویژگی‌های مناسب استخراج شده از سیگنال ECG، بر پایه‌ی الگوریتم باینری فاخته (BCOA) ارائه شده است. ویژگی‌های استخراج شده شامل ویژگی‌های زمانی،‌ AR و ضرایب موجک‌ است که تعداد این ویژگی‌ها با استفاده از عملگر mRMR یا PCA کاهش داده می‌شود BCOA ،مجموعه‌هایی از ویژگی تشکیل می‌دهد و همواره در پی یافتن مجموعه‌ای شایسته از تمامی ویژگی‌ها است. ارزیابی این مجموعه از ویژگی‌های ا‌نتخاب شده توسط‌BCOA با اعمال به طبقه بند SVM بررسی می‌شود. سپس الگوریتم‌ PSO جهت بهینه‌سازی پارامترهای‌ SVM اعمال می‌شود.‌ به كمك شبيه‌سازي كامپيوتري،صحت كلي سيستم براي شناسايي 6 نوع ريتم قلبي %97/98 به دست آمد که در مقایسه دقت حاصل شده با پژوهش‌های‌ پیشین،کارایی مطلوب روش پیشنهادی را نشان می‌دهد.
کلمات کلیدی: طبقه‌بندی سیگنال الکتروکاردیو گرام، الگوریتم فاخته، طبقه‌بند ماشین بردار پشتیبان.
فصل اول مقدمه1
1-1- مقدمه2
1-2- تعریف مسئله2
1-3- ضرورت و اهمیت تحقیق3
1-4- روش تحقیق3
1-5- تعریف مفاهیم4
سیگنال الکتریکی قلب:4
پتانسیل عمل عضله قلب5
مرحله استراحت :5
مرحله دپلاریزاسیون :5
مرحله رپلاریزاسیون :5
موج P :6
منحنی QRS :6
موج T :6
قطعه ST :6
بازه QT:6
بیماریهای ضربان قلب :6
فصل دوم پیشینه پژوهش2
2-1- مقدمه10
معرفی پایگاه داده:10
2-2- طبقه‌بندی سیگنال ECG با استفاده از موجک و شبکه عصبی10
2-3- طبقه‌بندی سیگنال ECG با استفاده ازموجک و خواص مورفولوژیک و شبکه عصبی11
2-4- طبقه‌بندی سیگنال ECG با استفاده از تبدیل موجک و شبکه عصبی فازی11
2-5- طبقه‌بندی سیگنال ECG با استفاده از تبدیل ویولت و شبکه عصبی مصنوعی و الگوریتم پرندگان12
2-6- طبقه‌بندی آریتمی‌های قلبی با استفاده از SVM12
2-7- طبقه‌بندی آریتمی دهلیزی بطنی12
2-8- طبقه‌بندی سیگنال الکترو‌کاردیو‌گرام با طبقه‌بند ماشین بردار پشتیبان و الگوریتم PSO13
2-9- طبقه‌بندی آریتمی‌های قلبی با استفاده از PSO13
2-10- رویکرد ترکیبی در طبقه‌بندی سرطان14
2-11- دسته‌بندی آریتمی‌های قلبی بر مینای تبدیل موجک و SVM14
2-12- طبقه‌بندی سیگنال ECG با استفاده از خواص مورفولوژی14
2-13- انتخاب ویژگی با استفاده از الگوریتم فاخته باینری14
2-14- انتخاب ویژگی با استفاده از الگوریتم فاخته15
فصل سوم معرفی الگوریتم‌ها و روش‌های پردازش سیگنالECG10
3-1- مقدمه17
3-2- آنالیز موجک17
3-2-1- تبدیل موج پیوسته (CWT)18
3-2-2- تبدیل موجک گسسته18
3-3-2-2- تجزیه چند سطحی18
3-2-4- انتخاب موجک مادر19
3-2-4- ویژگی‌های استخراج شده از ویولت21
3-3- ویژگی زمانی21
3-4- استخراج ویژگی با مدل خودبازگشتی(AR)22
3-5- استراتژی انتخاب ویژگی22
3-6- تحلیل مولفه اصلی (PCA)23
3-7- روش بیشترین وابستگی و کمترین افزونگی (mRMR)24
3-8- الگوریتم فاخته COA26
3-8-2- جزییات الگوریتم بهینه‌سازی فاخته27
3-8-2-1- تولید محل‌های سکونت اولیه فاخته‌ها (جمعیت اولیه‌ی جواب‌های کاندید)29
3-8-2-2- روش فاخته‌ها برای تخم‌گذاری30
3-8-2-3- مهاجرت فاخته‌ها30
3-8-2-4- از بین بردن فاخته‌های قرار گرفته در مناطق نا‌مناسب32
3-8-2-5- همگرایی الگوریتم32
3-9- گسسته‌‌سازی دودویی الگوریتم فاخته33
3-10- ماشین بردار پشتیبان(SVM)33
3-11- الگوریتم بهینه‌سازی ذرات(PSO)35
3-11-1- وزن اینرسی36
3-12- شمای کلی سیستم طبقه‌بندی سیگنال ECG38
فصل چهارم روش پیشنهادی طبقه‌بندی سیگنال ECG17
4-1- مقدمه40
4-2- پیش‌پردازش سیگنال ECG41
4-2-1- شیفت سیگنال به انحراف زمینه42
4-2-2- حذف مقدار متوسط سیگنال42
4-2-3- حذف نویز ناشی از برق شهر43
4-2-4- هموارسازی سیگنال43
4-2-5- پنجره‌گذاری سیگنال43
4-2-6- آزمون همبستگی و حذف ضربان‌های نا‌همبسته44
4-2-7- انتخاب داده‌های آموزش و آزمون44
4-3- ویژگی‌های سیگنال47
4-3-1- استخراج ویژگی47
4-3-1-1- ویژگی زمانی47
4-3-1-2- ویژگی موجک47
4-3-1-3- ویژگی AR47
4-3-1-4- شناسایی نقاط پراهمیت سیگنال با استفاده از PCA48
4-3-2-ترکیب و ادغام ویژگی‌ها48
4-3-2-1- انتخاب ویژگی با PCA48
4-3-2-2- انتخاب ویژگی با mRMR49
4-3-2-3- انتخاب ویژگی با استفاده از الگوریتم فاخته49
4-4- طبقه‌بندی با استفاده از SVM51
فصل پنجم نتیجه‌گیری55
5-1- مقدمه56
5-2- مقایسه و نتیجه‌گیری56
5-4- ارائه پیشنهاد57
منابع :58
فصل اول
مقدمه
1-1- مقدمه
سيگنال تابعي از يك يا چند متغير مستقل است كه اطلاعاتي را در مورد يك پديدة فيزيكي يا بيولوژيكي در بردارد. موجودات زنده از سلول گرفته تا ارگان‌هاي بدن، سيگنال‌هايي با منشاء بيولوژيكي توليد مي كنند. اين سيگنال‌ها به صورت الكتريكي، مكانيكي يا شيميايي‌اند. سيگنال‌هاي الكتريكي نتيجة دپلاريزاسيون سلول‌هاي عصبي يا ماهيچة قلبي‌اند. صداي توليد شده توسط دريچه‌هاي قلب نمونه‌اي از سيگنال‌هاي مكانيكي است. اين سيگنال‌هاي بيولوژيكي يا سيگنال‌هاي حياتي براي تشخيص پزشكي و تحقيقات زيست-پزشكي مورد استفاده قرار مي‌گيرند.
سيگنال‌هاي حياتي در سطح بدن وضعيت دروني و فعاليت الكتريكي بدن را منعكس مي‌كنند. بنابراين با استفاده از اندازه‌گيري غير تهاجمي اطلاعاتي درباره ارگان‌هاي داخلي فراهم می‌کند. الكتروكارديوگرام توسط كارديولوژيست‌ها براي اهداف تشخيصي استفاده می‌شود و اطلاعات كليدي درباره فعاليت الكتريكي ECG1 ارائه مي‌دهد. بنابراين با نمايش دائمی اين سيگنال می‌توان تغییرات فعالیت الکتریکی قلب را در طول زمان مشاهده نمود که این تغییرات،شامل اطلاعات بسیارکلیدی برای پزشکان می باشد]1[.
1-2- تعریف مسئله
قلب یکی از مهمترین اعضای بدن است که وظیفه پمپ کردن خون در سیستم قلبی عروقی را به عهده دارد. چنانچه عملکرد قلب از نظم طبیعی (ریتم) خود خارج شود، گردش خون به خوبی انجام نمی شود و این امر می‌تواند خطرهای جدی برای فرد به دنبال داشته باشد، از این رو تشخیص درست و به موقع آریتمی‌های قلبی از اهمیت به سزایی برخوردار است. یکی از راههای شناخته شده برای تشخیص به موقع این آریتمی‌ها بررسی فعالیت‌های الکتریکی قلب با استفاده از سیگنال‌های الکتروکاردیوگرافی یا به اختصار ECG، است. تغییرات معنی داری از ساختار قلب بیماران و ضربان‌های آن با استفاده از این سیگنال‌ها قابل تشخیص هستند‌]2[. در چندین سال اخیر،طبقه‌بندی خودکار سیگنال‌های الکتروکاردیوگرام توجه زیاد مهندسین پزشکی را به خود جلب کرده است. به واسطه این سیگنال‌ها یک متخصص قلب اطلاعاتی مفید درباره ریتم و عملکرد قلب خواهد داشت. بنابراین آنالیز آن نشان دهنده ی یک راه مؤثر برای شناسایی و درمان انواع بیماری‌های قلبی است]3[.
براي طراحي يك سيستم هوشمند تشخيص آريتمي‌هاي قلبي از روي سيگنال‌هاي الكتروكارديوگرافي،لازم است ابتدا ويژگي هاي مناسبي از روي اين سيگنال‌ها استخراج شود. با توجه به اينكه ضرايب موجك قادرند اطلاعات زمان-فركانس سيگنال را به طور توام توصيف كنند، یکی از انتخاب ها براي استخراج ويژگي از يك سیگنال الكتروكارديوگرافي خواهد بود. در اين راستا بايد تعداد سطوح تجزيه و نوع موجك مشخص شوند. همچنين، نتايج تحقيقات قبلي نشان داده است كه براي استخراج ويژگي از سيگنال‌هاي الكتروكارديوگرافي خانواده دابيچز و هار در مقايسه با ساير موجك‌ها بسيار مناسب‌تر هستند ]4[. تشخيص پزشك براساس اطلاعات زماني و ریخت‌شناسی استخراج شده از سيگنال الكتروكارديوگرافي است. در حالي كه گاهی اوقات تحلیل موجک بر روی سیگنال‌های قلبی به تنهایی برای طبقه‌بندی کافی نیست و به همین دلیل استفاده از دیگر ‌مشخصه‌های موجود در سیگنال‌های قلبی برای طبقه‌بندی بیماری‌های قلبی ضروری است. برای توصیف کامل‌تر سیگنال‌های الکتروکاردیوگرافی علاوه بر ویژگی‌های موجک از ویژگی‌های زمانی نیز استفاده می‌شود. ]4[.
1-3- ضرورت و اهمیت تحقیق
از آنجائی که ECG پزشک را قادر میسازد تا فعالیت الکتریکی قلب را ثبت کند، میتوان به کمک آن بیماری‌های قلبی را تشخیص داد. برای از بین بردن خطای انسانی و همچنین استفاده از بانکهای اطلاعاتی موجود در تشخیص دقیق و سریع بیماریها، از آنالیز خودکار کامپیوتری استفاده می‌شود.. بنابراین در این پژوهش سعی در تشخیص خودکار بیماری‌های قلبی شده که در آیندهای قابل پیشبینی سبب حذف اشتباهات انسانی در تشخیص بیماریها می‌شود. هدف از انجام این تحقیق ارائه یک روش مناسب برای تشخیص خودکار 5 بیماری‌ مهم قلبی، شامل نارسائیهای RBBB2،LBBB3 و PVC4 وAPC5 وP6 می‌باشد.
1-4- روش تحقیق
در این پژوهش ابتدا داده‌های مربوط به سیگنال ECG از پایگاه داده تهیه می‌شود و پیش پردازش آن‌ها جهت انتخاب سیگنال‌های مناسب و همچنین پنجره‌گذاری روی آنها انجام خواهد شد. سپس ویژگی های مناسبی استخراج و بر اساس این ویژگی‌ها عمل طبقه‌بندی انجام می‌شود. مراحل فوق با استفاده از نرم افزار متلب صورت خواهد گرفت.

1-5- تعریف مفاهیم
سیگنال الکتریکی قلب:
انتشار پتانسیل عمل در قلب، یک جریان ایجاد می‌کند. این جریان به نوبه خود تولید یک میدان الکتریکی می‌نماید که می‌تواند با استفاده از یک سیستم اندازه‌گیری ولتاژ تفاضلی به صورت خیلی ضعیف در سطح بدن بدست آید. سیگنال اندازه‌گیری شده به این طریق، هنگامی که به وسیله الکترودهایی در مکان‌های استاندارد گرفته شود، به عنوان الکتروکاردیوگرام یا به اختصار ECG شناخته میشود. سیگنال ECG معمولی، در رنج 2mv است و برای ثبت آن نیاز به دستگاهی با پهنای باند 0.5 تا 15هرتز می‌باشد. به عبارت دیگر ECG یک نمایش گرافیکی از فعالیت قلب به صورت سیگنال الکتریکی است که در طول یک دوره زمانی ثبت شده است[5].
وجود فعالیت الكتريكي براي ايجاد ضربان در قلب ضروري است. خون‌رساني كافي به بافت‌‌هاي بدن، مستلزم تعداد ضربان كافي قلب بوده و هم چنين بايد زمان‌بندي و توالي انقباضات عضلاني قلب به دقت هماهنگ باشند. ضربان‌ساز طبيعي قلب، “گره سينوسي- دهليزي SA ” است كه يك گروه ميكروسكوپي از سلول‌هاي الكتريكي تخصص يافته قلبي مي‌باشند و در بالاي دهليز راست واقع شده‌اند. به دنبال ايجاد يك تحريك الكتريكي توسط “گره سينوسي– دهليزي “، يك ضربان قلب ايجاد مي‌شود. اين تحريك از طريق مسيرهاي اختصاصي به سلول‌هاي بافت عضلاني ديواره‌هاي قلب منتقل مي‌شود. اين تحريك ابتدا حفره‌هاي فوقاني قلب يعني دهليزها را منقبض مي‌كند و خون را به داخل بطن‌ها مي‌راند. سپس تحريك به ناحيه ديگري از سلول‌هاي الكتريكي تحت عنوان “گره دهليزي- بطني “، كه در بالاي بطن‌ها واقع شده است، منتقل مي‌گردد. اين گره به شكل يك ايستگاه تأخيري در مسير تحريك عمل مي‌كند و اجازه مي‌دهد دهليزها به طوركامل تخليه شوند. پس از يك فاصله كوتاه زماني، تحريك از طريق مسيرهاي شاخه‌اي وارد بطن‌ها شده و منجر به‌انقباض آنها مي‌گردد.
سیگنال ECG در طول هر سیکل کاری قلب، دارای منحنی مشخصه‌ای به صورت شکل 1-1 است.
شکل 1-1 : یک سیکل از سیگنال ECG
پتانسیل عمل عضله قلب
فرآیند انقباض هماهنگ بخش‌های مختلف قلب توسط پتانسیل عمل در سلول‌های موجود در بافت قلب انجام می‌گیرد. در ادامه مراحل مختلف پتانسیل عمل در یک سلول قلبی جهت ایجاد انقباض ماهیچه قلب بررسی می‌گردد[8].
مرحله استراحت :
پیش از وقوع پتانسیل عمل، مرحله استراحت بر غشا حاکم است. در این مرحله گفته می‌شود که غشا پلاریزه یا قطبی است. زیرا پتانسیل آن 90- میلی‌ولت است.
مرحله دپلاریزاسیون :
در این مرحله غشا ناگهان نسبت به یون سدیم نفوذپذیر می‌شود و اجازه می‌دهد تا تعداد بی‌شماری یون مثبت سدیم به درون آکسون جاری شود. حالت طبیعی پلاریزه با پتانسیل 90- میلی‌ولت از بین می‌رود و پتانسیل به سرعت در جهت مثبت بالا می‌رود. به‌این حالت دپلاریزاسیون می‌گویند.
مرحله رپلاریزاسیون :
در چند ده‌هزارم ثانیه بعد از اینکه غشا به شدت نسبت به سدیم نفوذپذیر گردید،‌کانال‌های سدیم شروع به بسته شدن می‌کنند و کانال‌های پتاسیمی به میزان بیشتری نسبت به حالت طبیعی بازمی‌گردند. سپس انتشار سریع یون‌های پتاسیم به خارج، مجددا پتانسیل غشا را به حالت منفی زمان استراحت می‌رساند؛ به‌این حالت رپلاریزاسیون غشا می‌گویند.
موج P :
انتشار پتانسیل تحریک از طریق دهلیز، باعث انقباض دهلیز میشود )دپلاریزاسیون( و موج P را تولید می‌کند. دامنه موج P به طور نرمال کم است.
منحنی QRS :
منحنی QRS مربوط به دوره زمانی انقباض یا دپلاریزاسیون بطنی است. سیگنال رپلاریزاسیون7 دهلیزی مغلوب سیگنال بسیار بزرگتر بطنی می شود. این سیگنال حاصل دپلاریزاسیون بطنی است. منحنی QRS به دلیل حجم بافت بطنی که درگیر است سیگنال بسیار بزرگتری نسبت به موج P است.
موج T :
موج T نتیجه انبساط یا رپلاریزاسیون بطن‌ها است و دارای طول زمانی بیشتری نسبت به منحنی QRS است، زیرا رپلاریزاسیون بطنی بسیار آهسته تر از دپلاریزاسیون اتفاق می‌افتد.
قطعه ST :
بخش ST زمان بین دپلاریزاسیون و رپلاریزاسیون بطنی را نشان میدهد. بخش ST از پایان کمپلکس QRS شروع می‌شود و در آغاز موج T پایان مییابد. در حالت نرمال، بخش ST به‌اندازه 0.12 ثانیه یا کمتر است.
بازه QT:
بازه QT از آغاز موج (Qi) Q شروع می‌شود و در نقطه پایان موج (Ti) Tتمام می‌شود، که نشان دهنده طول زمان سیکل دپلاریزاسیون یا رپلاریزاسیون است. اندازه نرمال زمانی بازه QTحدود 0.38 ثانیه است، و اندازه ‌آن در مردان و زنان و در سنین مختلف، متفاوت است. به عنوان یک قانون کلی، فاصله زمانی QT باید حدود 0.40 درصد فاصله زمانی R-R اندازه‌گیری شده باشد.
بیماریهای ضربان قلب :
از تحلیل تغییرات ایجاد شده درشکل سیگنال نرمال الکتروکاردیوگرام می‌توان برای تشخیص بسیاری از انواع آریتمی و بیماری‌های قلبی استفاده شود. سیگنال الکتروکاردیوگرام می‌تواند به بخش‌ها و فواصل زمانی گوناگون تقسیم شود که با تعیین محدوده برای این بخش‌ها، ضربان‌های غیر نرمال تشخیص داده شوند. سیگنالهای ECG با توجه به شکل آنها و نوع آریتمی‌ها به گروه‌های مختلف تقسیم می شوند. انواع ضربان‌های قلبی با توجه به پایگاه داده MIT-BIH در جدول 1-1 نشان داده شده‌اند]6[.
Beat typeLabelNormal beatNLeft bundle branch blockLRight bundle branch blockRAtrial premature beatAAbberated atrial premature beatANodal(junctional) premature beatJSupraventricular premature beatSVentricular premature beatVFusion of ventricular and normal beatFVentricular flutter beatb or INodal(junctional) escape beatJVentricular escape beatEFusion of paced and normal beatFجدول 1-1 : ضربان های قلبی
در این تحقیق به طبقه‌بندی شش شکل مختلف سیگنال ECG که دارای بیشترین اهمیت هستند، پرداخته شده است. این ضربان‌ها عبارتند از:
نرمال (N)، بلوک شاخه دسته ای چپ (L یا LBBB)، بلوک شاخه دسته‌ای راست (R یا RBBB) و انقباض زودرس بطنی (V یا PVC) و ضربان زودرس دهلیزی (A) و تپش قلب (Pace beat).
بلوک شاخه دسته‌ای چپ (LBBB) و بلوک شاخه دسته‌ای راست (RBBB):
دسته‌ای از آریتمی‌ها مربوط به نارسایی‌های دسته‌ای هادی8 مختلف می باشند (بلوک شاخه دسته‌ای راست و بلوک شاخه دسته‌ای چپ). بلوکهای شاخه دسته‌ای (BBB) در اثر تأخیر در هدایت یکی از بخش‌های چپ (LBBB) یا راست (RBBB) سیستم هدایت بطنی رخ می‌دهد. به دلیل اینکه سیگنال در یکی از نیمه‌های بطن تأخیر یافته است، شکل QRS پهنتر می‌شود و گاهی نیز فرورفته می‌شود. این انسدادها معمولاً تاثیر بسیار کمی در عملکرد و کارآیی پمپاژ دارند و اما می‌توانند تغییر قابل ملاحظه‌ای در مسیر بردار قلبی و در نتیجه در شکل ظاهری ECG به وجود آورند. به همین دلیل این ضربان‌های قلبی غیر نرمال می‌توانند تغییرات دیگر ECG را که مشخص کننده بیماری‌ها (مثلا ایسکمی9) می‌باشند را بپوشانند. در برخی موارد، این ناهنجاری‌های رسانش(LBBB و RBBB) نشانگر برخی از دیگر آسیب‌های بسیار مهم پنهان می باشند. برای نمونه، انسداد رگ های ریوی می‌تواند موجب یک بلوک شاخه دسته‌ای راست جدید و ایسکمی حاد پیشین می‌تواند موجب یک بلوک شاخه دسته‌ای چپ جدید شود. معمولاً هیچ درمانی برای بلوک شاخه دسته‌ای انجام نمی‌شود.
انقباض زودرس دهلیزی یا اکستراسیستول (APC):
گاهی اوقات ممکن است یک ریتم به وسیله ایمپالس‌هایی‌که از خارج گره سينوسي– دهليزي‌SA10 سرچشمه گرفته باشند، متوقف شود. این ایمپالس‌ها قبل از اینکه یک دشارژ SA نرمال رخ دهد، اتفاق می‌افتند و در سراسر قلب انتشار پیدا می‌کنند، اگر میوکاردیوم (ماهیچه قلب) مقاوم نباشد، سبب می‌شوند تا به صورت زودرس منقبض شود. اکستراسیستول‌ها ممکن است از بالا (بالابطنی) یا از پایین (بطنی) گره دهلیزی بطنی سرچشمه بگیرند. اکستراسیستول‌ها ممکن است به صورت تکی یا در ردیف‌های کوتاه یا بلند اتفاق بیافتند.
انقباض زودرس بطنی(PVC):
ضربان‌های PVC یک شکل بسیار رایج از آریتمی‌ها می‌باشند. آنها یک شکل ضربان‌های قلبی غیر معمولی هستند که در آنها بطن به طور زودرس انقباض پیدا می‌کند. در طول یکPVC ، بطن قبل از اینکه دشارژ الکتریکی نرمال از گره SA فرا برسد، از نظر الکتریکی زودتر دشارژ شده و منقبض می‌گردد. این دشارژهای زودرس به دلیل تحریک‌پذیری الکتریکی عضله های قلبی بطن‌ها هستند. بعد از PVC سیستم الکتریکی قلب فوراً به حالت اولیه باز می‌گردد. این بازگردانی سبب یک توقف مختصر در ضربان قلبی می شود. ضربان PVC به وسیله منحنی‌های QRS پهن و گسترده شناخته می‌شود]5[.
ساختار کلی تحقیق
در این تحقیق ابتدا به بیان کلیات و روش انجام تحقیق به صورت خلاصه پرداخته شده است. در فصل دوم به مرور پژوهش‌های انجام شده در زمینه طبقه بندی سیکنال‌های قلبی و بیان روش کار آنها و مقایسه نتایج بدست آمده، پرداخته خواهد شد. در فصل سوم روش پیشنهادی به همراه توضیحات دقیق و فرمول آنها تشریح خواهد شد. در فصل چهارم مراحل شبیه‌سازی به صورت بخش به بخش بیان می‌شود. در فصل پنجم نتایج شبیه‌سازی و همچنین مقایسه با نتایج تحقیقات قبلی که در فصل دوم تشریج شده اند بیان می‌شود.
فصل دوم
پیشینه ‌پژوهش
2-1- مقدمه
هوشمند‌سازی فرآیند تشخیص بیماری‌های قلبی سالها است مورد بحث پژوهشگران تمامی کشور‌ها قرار گرفته است. این فرآیند شامل مراحلی است که طی آن سیگنال ECG به عنوان ورودی نرم افزار انتخاب می‌شود و انتظار این است که نرم افزار با دقت قابل قبولی سلامت یا بیماری و حتی نوع بیماری قلبی را تشخیص دهد. تمامی این نرم افزار‌ها پس از دریافت سیگنال، ویژگی‌های مناسب آن را استخراج و انتخاب کرده، سپس به تشخیص نوع بیماری می‌پردازد. در هر یک از مراحل بیان شده روش های گوناگونی وجود دارد که در این فصل به تحقیقات پیشین و روشی که مورد استفاده قرار گرفته است پرداخته خواهد شد.
معرفی پایگاه داده:
سیگنال‌های نارسائی قلبی که از پایگاه داده MIT-BIH گرفته شده است، شامل 48 سیگنال قلب دوکاناله متشکل از 25 مرد از سنین 32-89 سال و 22 زن در سنین 23-89 سال با فرکانس نمونه‌برداری 360 هرتز و رزولوشن 12 بیت، که حدودا حاوی 650000 نمونه و تقریبا 2750 ضربان قلب در مدت زمان 30 دقیقه برای هر سیگنال می‌باشد. بیش از 109000 ضربان قلب در پایگاه فوق در قالب 15 نارسائی برچسب‌گذاری شده‌اند. از این سیگنال‌ها 45 سیگنال دارای lead II می‌باشند [11،24].
2-2- طبقه‌بندی سیگنال ECG با استفاده از موجک و شبکه عصبی
پس از چند مرحله پیش پردازش از تبدیل موجک پیوسته برای استخراج ویژگی های سیگنال می‌شود. به دلیل زیاد بودن تعداد بردارهای استخراج شده توسط موجک از آنالیز PCA11 جهت کاهش ابعاد و به عبارتی انتخاب بهترین نمونه‌ها استفاده شده است.
شبکه عصبی چند لایه، طبقه‌بندی را بر روی شش کلاس که شامل سیگنال نرمال و 5 اریتمی قلبی که از گروهی خاص از سیگنال ECG بیماران پایگاه داده MIT-BIH انجام داده است. نمودار گرافیکی روش به کار رفته در این تحقیق در شکل 2-1 نشان داده شده است]7[.
شکل 2-1 :مراحل طبقه بندی 6 آریتمی
2-3- طبقه‌بندی سیگنال ECG با استفاده ازموجک و خواص مورفولوژیک و شبکه عصبی
در این پژوهش پس از پیش‌پردازش، 15 ویژگی زمانی و 15 ویژگی از تبدیل موجک انتخاب شده است و برای کاهش ابعاد این ویژگی ها از روش PCA استفاده شد که نتیجه آن انتخاب 8 ویژگی از بهترین ویژگی‌های هر کلاس بوده است. شبکه عصبی پرسپترون چند لایه و شبکه عصبی پایه شعاعی به صورت ترکیبی طبقه‌بندی را انجام می دهد. در این تحقیق نشان داده شده است که ساختار ترکیبی شبکه عصبی دارای نتایجی به مراتب بهتر از شبکه عصبی MLP12 می‌باشد]4[.
2-4- طبقه‌بندی سیگنال ECG با استفاده از تبدیل موجک و شبکه عصبی فازی
در این پژوهش از استخراج ویژگی موجک به همراه شبکه عصبی فازی برای شناسایی انقباضات زودرس بطنی PVC استفاده کرده‌اند. ایده اصلی و مزیت مهم این تحقیق استفاده مجدد از اطلاعات تولید شده در مرحله تشخیصQRS ، که یک مرحله اساسی برای بیشتر الگوریتم های طبقه بندی ECG است، می باشد. طول مدت زمان کمپلکس QRS در مقیاس سه و سطح زیر کمپلکس QRS در مقیاس چهار به عنوان ویژگی های مشخصه انتخاب شده اند. پس از نرمالیزاسیون، طبقه بندی PVC با استفاده از شبکه عصبی فازی روی سیگنال ECG تعدادی خاص از بیماران انجام شده است. دو مزیت اولیه استفاده از موجک یکسان برای دو مرحله تشخیص QRS و طبقه‌بندی PVC، محاسبات کمتر و پیچیدگی کمتر در هنگام پیاده سازی واقعی است]9[.
2-5- طبقه‌بندی سیگنال ECG با استفاده از تبدیل ویولت و شبکه عصبی مصنوعی و الگوریتم پرندگان
ویژگی‌های شکلی تبدیل موجک، با استفاده از آنالیز PCA به یک فضای ویژگی با ابعاد کمتر نگاشت داده شده اند، و همچنین ویژگی‌های زمانی از داده های ECG استخراج شده اند. برای قسمت تشخیص الگو از شبکه‌های عصبی مصنوعی رو به جلو که هر کدام با استفاده از تکنیک الگوریتم پرندگان چند هدفه استفاده شده است. در این تحقیق،‌سیستم طبقه‌بندی ارائه شده می تواند با آموزش ساختارهای شبکه بهینه به تغییرات اساسی در الگوهای ECG یک بیمار خاص سازگار شده و بنابراین می‌تواند به درصد دقت‌های بالاتری در دسته داده‌های بزرگ دست پیدا کند.
بر روی کل داده‌های پایگاه داده میزان میانگین معیار عملکردهای دقت حساسیت برای روش پیشنهادی برای شناسایی ضربان‌های اکتوپیک بطنی (VEB) و ضربان‌های اکتوپیک بالابطنی (SVEB) انجام شده است]10[.
2-6- طبقه‌بندی آریتمی‌های قلبی با استفاده از SVM
در این پژوهش با تحلیل سیگنال ECG، ویژگی‌هاي آن با ترکیبی از تبدیل ویولت و مدل AR استخراج شده اند. با چنین تلفیقی روش هاي رایج در تشخیص بیماري‌هاي قلبی بهینه شده‌اند. سپس از یک طبقه‌بندي‌کننده ماشین بردار پشتیبان با هسته گوسین به منظور طبقه‌بندي خودکار پنج نوع آریتمی قلبی استفاده شده است]2[.
2-7- طبقه‌بندی آریتمی دهلیزی بطنی
در اين پژوهش يك الگوريتم كارآمد تشخيص و طبقه‌بندي ECG تك كاناله مبتني بر تبديل موجك را اجرا نموده و به منظور تشخيص و طبقه‌بندي برخي آريتمي‌هاي خطرناك بطني به كار گرفته و بهبود داده شده است. در اولين مرحله، كمپلكس‌هاي QRS تشخيص داده مي‌شوند. سپس مشخصات هر QRS با شناسايي و تعيين قله‌هاي مو ج هاي تشكيل دهنده آن و نيز نقاط شروع و پايان كمپلكس QRS تكميل مي‌گردد. در ادامه قله‌هاي موج هايT ، P و نيز نقاط شروع و پايان هر يك تعيين مي‌شود . اين الگوريتم را با استفاده از داده‌هاي حاشيه نويسي شده معروف MIT/BIH Arrhythmia Database و QT Database ارزيابي شده اند. در الگوريتم پيشنهادي با بكارگير‌ي موجك اسپلاين درجه دوم (quadratic spline)، كمپلكس QRS و همچنين موجهاي T و P از انواع نويزها و تداخل‌هاي ناخواسته تفكيك شده و تشخيص آريتمي‌هاي حاد در بانك اطلاعاتي سيگنال‌هاي الكتروكارديوگرام استاندارد حتي در حضور نويز و تداخل‌هاي ناخواسته نيز امكان پذير مي‌گردد. با استفاده از الگوريتم پيشنهادي تشخيص آريتمي‌هاي تاكيكاردي بطني VT، تاكيكاردي فوق بطني SVT، فيبريلاسيون بطني VFIB، فلاتر بطني VFL، فلاتر دهليزي AFL، و آريتمي فيبريلاسيون دهليزي AFIB، انجام شده است]12[.
2-8- طبقه‌بندی سیگنال الکترو‌کاردیو‌گرام با طبقه‌بند ماشین بردار پشتیبان و الگوریتم PSO
در این پژوهش از ویژگی‌های زمانی و مورفولوژیک استفاده شده است. آزمایش از روش‌های طبقه بند RBF و kNN و SVM به عمل آمده که نتایج برتری طبقه‌بند SVM با هسته گوسی را نشان می‌دهد. همچنین برای تنظیم پارامترهای SVM از الگوریتم بهینه‌ساز PSO استفاده شده است که باعث بهبود عملکرد طبقه‌بندی SVM می شود. در این مقاله از 250 و500و750 ضربان اموزش استفاده شده که با توجه به نتایج آزمایش عملکرد طبقه‌بند با 750 داده اموزش دقت 93.27% است]3[.
2-9- طبقه‌بندی آریتمی‌های قلبی با استفاده از PSO
در این پژوهش یک سیستم جدید برای طبقه‌بندی سه نوع ضربان قلب شامل ضربان نرمال و دو آریتمی قلبی ارائه شده است. این سیستم شامل سه ماژول اصلی – یک ماژول استخراج ویژگی، یک ماژول طبقه بندی و یک ماژول بهینه‌سازی‌ است. در ماژول استخراج ویژگی ترکیبی مناسب از ویژگی‌های شکلی و زمانی ایجاد می‌شود. در ماژول طبقه بندی یک کلاس بند چند طبقه بر پایه ماشین بردار پشتیبان ارائه شده است. در ماژول بهینه‌سازی از الگوریتم اجتماع ذرات برای یافتن بهترین ویژگی‌ها استفاده شده است. نتایج شبیه سازی دقت مناسبی داشت و این در حالی است که در بدست آمدن این سطح دقت،فقط مقدار کمی از ویژگی‌ها استفاده شده است]14[.
2-10- رویکرد ترکیبی در طبقه‌بندی سرطان
مدلی مبتنی بر فیلتر و رپر را جهت دسته‌بندی نشان گر سرطان برای انتخاب ژن در داده‌های ریز آرایه ارائه شده است. نتایج مدل ترکیبی ان‌ها که از نرخ فیشر13 به عنوان فیلتر استفاده می‌کند،روی چندین مجموعه داده واقعی دقت کلاس‌بندی بسیار بهتری نسبت به مدل تنها رپر، نشان می‌دهد. مدل ترکیبی دو مرحله‌ای ارائه شده در این پژوهش ویژگی‌های مناسب را بر اساس معیار اماری حداکثر وابستگی و حداقل افزونگی انتخاب می‌کند. در مرحله اول مدل از معیار حداکثر ارتباط و حداقل افزونگی برای انتخاب زیر مجموعه بهینه ویژگی‌ها بهره می‌برد. در مرحله دوم از الگوریتم‌های کلاسیک رو به جلو وعقب گرد برای جستجو در زیر مجموعه‌های مرحله اول استفاده می‌کند. نتایج تجربی مدل آنها حاکی از عملکرد بهتر این روش نسبت به روش فیلتر حداکثر وابستگی می‌باشد]15[.
2-11- دسته‌بندی آریتمی‌های قلبی بر مینای تبدیل موجک و SVM
در این پژوهش یک روش برای دسته‌بندی آریتمی‌های قلبی ارائه شده است که تعداد 5 آریتمی از بانک اطلاعاتی Physionet انتخاب شده و آریتمی‌ها به زمان های 6 ثانیه تقسیم شده و برای هر قطعه زمانی ضرایب تبدیل موجک به عنوان بردار ویژگی آن قطعه محاسبه شده و از ماشین بردار پشتیبان SVM برای دسته‌بندی آریتمی‌ها استفاده شده است. دسته‌بندی‌کننده‌های SVM را با بردارهای ویژگی قطعات آموزش داده و برای دسته‌بندی یک آریتمی مجهول، بردارهای ویژگی زمانی آن به SVM ها اعمال می‌شود]16[.
2-12- طبقه‌بندی سیگنال ECG با استفاده از خواص مورفولوژی
در این پژوهش یک روش جهت کلاس‌بندی ضربان از یک مجموعه داده بزرگ با آموزش شبکه عصبی و استفاده از موجک و ویژگی‌های زمان‌بندی ارائه داده اند. آنها دریافتند که مقیاس چهارم از تبدیل ویولت دوتایی با ویولت مرتبه دوم همراه با نرخ فاصله قبل و بعد از R-R در تمایز نرمال و PVC دیگر ضربان‌ها بسیار مؤثر است]17[.
2-13- انتخاب ویژگی با استفاده از الگوریتم فاخته باینری
در این پژوهش،انتخاب ویژگی جدید به نام جستجو فاخته دودویی، که در رفتار پرندگان فاخته است پیشنهاد شده است. آزمایش‌های انجام شده در زمینه تشخیص سرعت در سیستم‌های توزیع قدرت در دو مجموعه داده به دست آمده از یک شرکت برق برزیل انجام شدو توانایی این روش در برابر با چندین تکنیک بهینه‌سازی دیگر را نشان می‌دهد]18[.
2-14- انتخاب ویژگی با استفاده از الگوریتم فاخته
معمولا برای پیدا کردن مجموعه داده‌ها با مقدار زیادی از ویژگی‌ها روبرو هستیم که برخی از این ویژگی های مناسب نیستند. در این زمینه، یکی از استراتژی‌های مورد استفاده برای مقابله با این مشکل،انجام یک فرآیند انتخاب ویژگی به منظور ساخت یک زیر مجموعه از ویژگی‌های است که می تواند بهترین مجموعه داده را نشان دهد. مطالعات متعددی با استفاده از تکنیک‌های بهینه‌سازی الهام گرفته از طبیعت وجود دارد. در این پژوهش، ما از الگوریتم جستجو فاخته (CS) در زمینه انتخاب ویژگی استفاده می‌کنیم. برای این منظور، یک نسخه باینری از جستجو فاخته، یعنی BCS، بکار گرفته می‌شود. شبیه‌سازی و مقایسه BCS با نسخه‌های باینری از بت الگوریتم، الگوریتم کرم شب‌تاب و ذرات بهینه‌سازی انجام شده است که BCS نتایج منطقی و مناسب‌تری را نشان می‌دهد]19[.
فصل سوم
معرفی الگوریتم‌ها و روش‌های پردازش سیگنال ECG
3-1- مقدمه
در این فصل به بررسی تئوری روش پیشنهادی، جزئیات و تشریح فرمول‌های مربوطه خواهیم پرداخت که شامل تکنیک‌ها و فیلترهای موجود در بخش پیش پردازش، روش‌های استخراج ویژگی از سیگنال پیش پردازش شده، روش انتخاب ویژگی‌ها و طبقه‌بند می‌باشد.
3-2- آنالیز موجک14
موجک یک شکل موج با طول موثر محدود و متوسط صفر است. شکل 3-1 موجک را با موج سینوسی که مبنای آنالیز فوریه است مقایسه می‌کند. موج سینوسی طول محدود ندارد و همواره قابل پیش بینی است، اما موجک‌ها تمایل دارند که نامنظم و نامتقارن باشند.
شکل 3-1: سیگنال سینوسی و موجک
آنالیز فوریه تجزیه یک سیگنال به موجهای سینوسی از فرکانسهای مختلف است. به شکل مشابه، آنالیز موجک تجزیه یک سیگنال به نسخه‌های شیفت یافته و مقیاس شده از موجک اصلی یا مادر می‌باشد. با توجه به شکل‌های موجک و موج سینوسی، می توان دید که سیگنال‌های با تغییرات شدید بهتر می تواند با موجک نامنظم آنالیز شوند. همچنین مشخصه‌های محلی نیز توسط موجک بهتر توصیف می شوند، چون موجک‌ها محدوده محلی دارند. تبدیل موجک پیوسته (CWT) و تبدیل موجک گسسته (DWT) دو تبدیل مهم در آنالیز موجک می باشد]20[.
3-2-1- تبدیل موج پیوسته (CWT)
تبدیل پیوسته موجک روی تابع پیوسته و انتگرال پذیر f(x) نسبت به موجک حقیقی Ψ(x) از رابطه زیر حاصل می‌شود:
W_Ψ (s, τ)=∫_(–)^(+^^)▒〖f(x) Ψ_(s,τ) (x) dx〗 , Ψ_(s,τ) (x)=1/√s Ψ((x-τ)/s)
τ , s به ترتیب بیانگر مقیاس و زمان هستند]20[.
3-2-2- تبدیل موجک گسسته
ضرایب موجک در هر مقیاس ممکن، مقادیر بسیار زیادی عدد تولید می‌کند. راه حل کاهش تعداد آنها را می توان از تبدیل گسسته موجک (DWT) بدست آورد.
یک راه مناسب، استفاده از فیلترها در سال 1988 توسط مالات15 ارایه شد و توسعه یافت]21[.
3-3-2-2- تجزیه چند سطحی
فرایند تجزیه می‌تواند با تقریب‌های متوالی که به نوبت تجزیه می‌شوند، تکرار شود.این عمل منجر به ایجاد درخت تجزیه موجک می‌باشد.شکل 3-2 یک درخت تجزیه موجک سه سطحی را نمایش می‌دهد]21[.
شکل 3-2: نمایی از تحلیل موجک چند وضوحی با ساختار سلسله مراتبی توسط ضرایب تقریبی و جزیی تا سطح تجزیه 3 که در آن، A مبین ضرایب تقریب و D نیز ضرایب جزئی را نشان میدهد.
شکل (3-3) ساختار فیلتری را نشان میدهد که به آن بانک فیلتری میگویند. در این ساختار بعد از اعمال هر فیلتر با کاهش نمونههای زمانی، رزولوشن فرکانسی را افزایش میدهند. بدین ترتیب که بعد از اعمال فیلتر پایينگذر در هر مرحله، با كاهش رزولوشن زمانی به ميزان نصف مرحله قبل، رزولوشن فركانسی را دو برابر میشود.
شکل 3-3: شمایی از ساختار فیلتر بانک را برای تولید ضرایب جزیی و تقریب تبدیل موجک توسط فیلترهای پایینگذر (g) و بالاگذر (h) تا سطح تجزیه سوم نشان میدهد.
3-2-4- انتخاب موجک مادر
ضرایب تبدیل موجک تحت تاثیر فیلترهای اعمال شده به سیگنال هستند، که این فیلترها توسط موجک مادر و تابع مقیاس بدست میآیند. از اینرو، ضرایب تبدیل موجک با توجه به تابع موجک مادر میتواند دارای شدت و اندازههای مختلف باشد. هریک از موجکهای مادر دارای خواصی هستند که آنها را از یکدیگر جدا میسازد. یکی از پرکاربردترین توابع موجک، تابع موجک مادر دابیچیز است .که برخی توابع مادر مانند سیملت و کافلت از روی آن ساخته میشود و دارای ویژگیهای متفاوت نسبت به دابیچیز هستند. از آنجاییکه توابع موجک مادر از لحاظ نوع و مرتبه متفاوت میباشند، لذا ضرایب موجک آنها از لحاظ زمانی و اندازه دامنه متفاوت است. این نکته قابل ذکر است که ضرایب خروجی فيلتر پائين گذر(g(n)) شكل اوليه سيگنال را دنبال میكنند، یعنی کلیات سیگنال معادل فرکانسهای پایین را دربردارند و ضرایب تقریب نام گرفتند. همچنين ضرايب خروجی فيلتر بالاگذر(h(n))، جزئيات سيگنال را دربردارند، به همين دليل به اين ضرايب، جزیيات گفته میشود و نماینده فرکانسهای بالا میباشند[37].
انتخاب موجک مادر نقش مهمی در استخراج ویژگی سیگنال ها به خصوص سیگنال ECG دارد. از این رو ما از بین موجک‌های مختلف، موجکی را انتخاب می‌نماییم که بیشترین شباهت به سیگنال ECG داشته باشد.در شکل 3-6 انواع دابیچیز16ها نشان داده شده است در بین موجک‌های مادر، موجک دابیچیز 6 بیشترین شباهت به سیگنال ECG را دارد که در شکل 3-7 سیگنال ECG با 8 سطح تجزیه و 8 سیگنال جزییات نشان داده شده است[36].
شکل 3-6: انواع دابیچیز
شکل 3-7: سیگنال ECG به همراه 8 سطح تجزیه با db6 ]36[
3-2-4- ویژگی‌های استخراج شده از ویولت
استفاده از پارامترهای جدول3-1 به جای استفاده از ضرایب ویولت توصیه شده است]35] [23[.
ویژگی های موجک استخراج شده انرژیدرصد انرژی طول سیگنالواریانس ضرایب ویولتانحراف معیار ضرایب ویولتمقدار حداکثرتوزیع داده هاانحراف داده هاانحراف استانداردمیانگین داده هاجدول 3-1 ويژگي ویولت براي تشخيص مولفه هاي شناختي از ECG
3-3- ویژگی زمانی
تشخيص پزشك به طور عمده مبتني بر اطلاعات زماني‌ و ریخت‌شناسی استخراج شده از سيگنال الكتروكارديوگرافي است. اين در حالي است كه در برخي از شرايط ويژگي‌هاي به دست آمده از تحليل موجك بر روي سيگنال‌هاي قلبي، به تنهايي از تمايز كافي براي طبقه‌بندي برخوردار نيستند. از اين رو، استفاده از ديگر مشخصه‌هاي موجود در سيگنال‌هاي قلبي به جهت طبقه‌بندي بيمار‌یهاي قلبي ضروري به نظر مي‌رسد.
براي توصيف كاملتر سيگنال الكتروكارديوگرافي، علاوه بر ويژگي‌هاي موجك از ويژگي‌هاي زماني نيز در اين تحقيق استفاده شده است. ويژگي‌هاي زماني مورد استفاده شامل نه ويژگي زماني براي تشخيص مولفه‌هاي شناختي از سيگنال ECG هستند كه نماد اختصاری آ نها در جدول 3-2 بيان شده است]4[.
جدول 3-2 : ويژگي زماني براي تشخيص مولفه‌هاي شناختي از ECG
ویژگینماد اختصاریدامنه ماكزيمم سيگنالAMPدامنه مينيمم سيگنال-AMPناحيه مثبتPARناحيه منفيNARقدر مطلق ناحيه منفيNANRمجموع ناحيهTARقدر مطلق مجموع ناحيهATARقدر مطلق مجموع ناحيهTAARپيك تا پيك سيگنالPP
3-4- استخراج ویژگی با مدل خودبازگشتی(AR17)
روش مدلسازي خود بازگشتی یکی از مدل‌هاي اتفاقی است که براي نمایش سیگنال‌هاي غیر ایستا بسیار مورد استفاده می‌باشد. در این مدل، مقادیر جاري سیگنال به صورت جمع خطی از تعداد محدودي از مقادیر قبلی بعلاوه خطای e(n) بیان می‌شود. بنابر این پردازش به صورت 3-2 مدل می‌شود:
x[n]=∑_(i=1)^p▒〖a[i].x[n-1]+e[n]〗
به طوری‌که می توان گفت x(n) سیگنال مورد نظر، e(n) نویز سفید با میانگین صفر و واریانس مجهول، a_i ها ضرایب و p مرتبه مدل AR می‌باشد. در این معادله متغیر x(n) به مقادیر قبلی خودش وابسته است. روشهاي متعددي بطور رایج براي تخمین ضرایب AR استفاده می‌شود]2[.
3-5- استراتژی انتخاب ویژگی
انتخاب ویژگی فرآیندی است که ویژگی‌های با قدرت تشخیص بالاتر و موثرتر را از مجموعه‌های داده برای انجام اعمال داده کاوی انتخاب می‌کند. مرحله مقدماتی فرایند انتخاب ویژگی عبارتند از: شناسایی مجموعه ویژگی‌ها و جستجو برای بهترین زیر مجموعه. مجموعه پارامترها اغلب شامل الگوریتم‌های یادگیری الگوریتم های انتخاب و فرآیندهای تخمین خطا می‌باشند. البته این مسئله کاملا روشن است که هیچ مجموعه ویژگی به تنهایی برای کلیه‌ی مسائل داده کاوی کارا نمی‌باشد.
الگوریتم‌های انتخاب ویژگی به طور کلی به سه دسته تقسیم می‌شوند: مدل‌های فیلتر، مدل‌های رپر18 و مدل‌های ترکیبی]13[. مدل‌های فیلتر از مشخصات ذاتی یا آماری ویژگی‌های مجموعه‌های داده استفاده می کنند و از هر گونه الگوریتم یادگیری مستقل اند. چنین رویه‌هایی شامل ماشین یادگیری نمی‌باشند و برای مجموعه داده‌های با ابعاد بالا موثر بوده و پیشنهاد می‌شوند. در مقابل مدل‌های رپر از ماشین‌های یادگیری استفاده کرده و زیرمجموعه ویژگی‌ها را بر اساس تخمین کارایی انتخاب می‌کنند. در مقایسه با فیلتر‌ها رپرها دارای زمان و هزینه‌های محاسباتی بالاتری بوده و برای مجموعه داده‌های با ابعاد بالا مناسب نمی‌باشد. مزیت اصلی رپرها در دقت بالای پیش‌بینی آنها است. نتایج جستجوی رپرها برای یافتن بهترین زیر مجموعه ویژگی بسیار بالاتر از فیلتر‌ها گزارش شده است. برای انتخاب ویژگی خوب،تلاش اصلی فرایند جستجو باید شناخت ویژگی‌های موثر و غیر افزونه باشد]25[. اغلب روش‌های ترکیبی فیلتر و رپر از فیلترها جهت رتبه‌بندی ویژگی‌ها و کاهش تعداد ویژگی‌های کاندید استفاده می‌کنند. به طور کلی مدل‌های ترکیبی بر اساس رویه‌های ترتیبی دو مرحله‌ای کار می‌کنند.در مرحله اول معمولا براساس فیلترها تعداد ویژگی‌های مورد نظر برای مرحله دوم کاهش می‌یابند. سپس با استفاده از مجموعه کاهش یافته یک رویه رپر در مرحله دوم جهت انتخاب ویژگی‌های مطلوب اعمال می‌شود.
3-6- تحلیل مولفه اصلی (PCA)
در روش تحليل مؤلفه‌هاي اصلي، محور‌هاي مختصات جديدي براي داده‌ها تعريف مي‌شود به گونه اي كه نخستين محور در جهتي قرار مي‌گيرد كه واريانس داده‌ها بيشينه است و دومين محور نيز عمود بر محور اول و در جهتي كه واريانس داده ها بيشينه باشد،در نظر گرفته مي‌شود و به همين ترتيب، محورهاي بعدي عمود بر تمامي محورهاي قبلي به گونه‌اي قرار مي‌گيرند كه واريانس داده‌ها در آن جهت بيشينه باشد]4[.تحلیل مولفه اصلی یکی از روش‌های مرسوم استخراج ویژگی است که در بسیاری از پژوهش‌ها به دلیل سادگی و سرعت بالا در پردازش از آن استفاده می‌شود]26[. تکنیک PCA بهترین روش برای کاهش ابعاد داده به صورت خطی می‌باشد یعنی با حذف ضرایب کم اهمیت بدست آمده از این تبدیل،اطلاعات از دست رفته نسبت به روشهای دیگر کمتر است.
فرض کنید ماتریس ورودی X دارای N_T نمونه و n ویژگی است و N_T نمونه باید در C گروه قرار گیرند، میانگین و کوواریانس داده با توجه به روابط (3-3) و (3-4) محاسبه میشوند [38]:
m_d=1/N_T ∑_(i=1)^c▒∑_(j=1)^(N_i)▒x_(i,j) (3-3) COV=1/N_T ∑_(i=1)^c▒∑_(j=1)^(N_i)▒〖(x_(i,j)-m_d)〖(x_(i,j)-m_d)〗^T 〗 (3-4)
در مرحلهی بعد، مقادیر ویژه و بردارهای ویژه از روی ماتریس کواریانس محاسبه می‌شوند. سپس، تعداد k مقدار ویژه بزرگتر از n مقدار ویژه انتخاب می‌شوند. حال ماتریس ورودی X تحت ماتریس بردار ویژه P با تعداد k ویژگی، به فضای تحلیل مولفه‌اصلی تبدیل می‌شود:
(3-5) Y_ij=〖[P_1,P_2,…,P_k]〗^T X_ij
3-7- روش بیشترین وابستگی و کمترین افزونگی (mRMR19)
در بسیاری از کاربرد‌های شناسایی آماری الگو، انتخاب زیرمجموعه‌ای از مجموعه ویژگی‌ها می‌تواند سبب کاهش خطای دقت طبقه‌بندی گردد. هدف روش بیشترین وابستگی و کمترین افزونگی، انتخاب زیرمجموعه از فضای ویژگی مبتنی بر مفهوم همبستگی و کاهش افزونگی اطلاعات می‌باشد. فرض کنید فضای داده ورودی D، شامل N نمونه و M ویژگی است و c نیز برچسب مربوط به هر گروه باشد. در این حالت، هدف انتخاب بهینه m ویژگی از فضای M بعدی است بطوریکه هر نمونه متعلق به گروه c باشد. از آنجاییکه تعداد زیرمجموعه‌های ممکن 2^M بوده و تعداد زیرمجمو ع‌هایی که ابعادشان کوچکتر از m باشد نیز ∑_(i=1)^m▒(M¦i) می‌باشد جستجوی کامل زیرمجموعه‌های ویژگی بسیار دشوار است. از اینرو، روش‌های جستجوی ترتیبی مانند پیش رو ترتیبی و شناور پیش رو ترتیبی، برای جستجوی فضای کامل زیرمجموعه‌ها در فضای ویژگی پیشنهاد می‌شوند]29[. شرط توصیف بهینه معادل با کمترین خطای دقت طبقه‌بندی درنظر گرفته می‌شود، بطوریکه در طبقه‌بندی بی سرپرست،‌کمترین خطا زمانی رخ می‌دهد که بیشترین وابستگی آماری دادگان در زیر فضای R^m گروه هدف c پیدا شود. از این شیوه به عنوان شرط بیشترین وابستگی یاد می‌شود. یکی از روش‌های رایج برای بررسی مفهوم بیشترین وابستگی، روش بیشترین ارتباط است که مقصود آن بالاترین ارتباط هر ویژگی با گروه هدف c می‌باشد. بطور عام، ارتباط برحسب همبستگی و یا اطلاعات متقابل دو متغیر معرفی می‌شود. اطلاعات متقابل دو متغیر x و y، بر حسب توابع چگالی احتمال بصورت زیر تعریف می‌شود:
I(X,Y)=∑_x▒∑_y▒〖p(X,Y)〖log〗_2 〗 (p(X,Y))/(p(Y)p(X))
در انتخاب ویژگی بر اساس بیشترین ارتباط، بیشترین اطلاعات متقابل I(x_i,c) بین ویژگی‌های منتخب x_i گروه هدف c صورت می‌گیرد که مبین بیشترین وابستگی ویژگی به هدف مربوط می‌باشد. در روش‌های جستجوی متوالی، m بهترین ویژگی انفرادی، یعنی آن‌هایی که بیشترین مقدار وابستگی را دارند به عنوان ویژگی‌های منتخب برگزیده می‌شوند. ولی همواره ترکیبی از بهترین ویژگی‌های منفرد به عنوان یک زیرمجموعه بهینه نیست، به عبارت دیگر m بهترین ویژگی همیشه بهترین m ویژگی نیستند. از اینرو، در کنار بیشترین همبستگی ویژگی‌ها با گروه هدف c، روش هایی جهت کاهش افزونگی وجود دارد که ویژگی هایی با کمترین افزونگی را برمی‌گزیند. لذا روش انتخاب ویژگی با معیار بیشترین وابستگی و کمترین افزونگی، یکی از روش‌هایی است که مبتنی بر سه اصل بیشترین وابستگی، بیشترین ارتباط و کمترین افزونگی بنا شده است. بر اساس اطلاعات متقابل بین دو نمونه، هدف از انتخاب ویژگی با بیشترین وابستگی به هدف گروه c، یافتن یک مجموعه ویژگی S با m عضو است که بطور مشترک بیشترین وابستگی را به هدف مربوطه داشته باشد. از دید ریاضی این مفهوم به شکل زیر بیان می‌شود]31[:
max⁡〖 D(S,c), D=I({x_i,i=1,…,m};c)〗
هنگامی که m برابر 1 باشد، مساله به یافتن ویژگی تبدیل می‌شود که I(x_j,c),(I≤j≤M) را بیشینه کند و زمانی که m بزرگتر از 1 باشد، یک روش جستجوی ترتیبی ساده می‌تواند افزودن یک متغیر در هر لحظه باشد. در حالتی که مجموعه شامل m-1 ویژگی S_(m-1) دردست باشد، m امین ویژگی بصورت ویژگی‌ای که بیشترین افزایش را در I(S_m,c) ایجاد می‌کند، تعریف می‌شود:
I(S_m,c)=∑_(S_m)▒∑_c▒〖p(S_m,c)〖log〗_2 (p(S_m,c))/(p(S_m )p(c))〗
=∑_(S_m)▒∑_(x_m)▒∑_c▒∑_c▒〖p(S_(m-1),x_m,c)〖log〗_2 (p(S_(m-1),x_m,c))/(p(S_(m-1),x_m )p(c))〗
=∑▒〖…∑▒〖p(x_1,…,x_m,c)〗〗 〖log〗_2 (p(x_1,…,x_m,c))/(p(x_1,…,x_m)p(c))
از آنجایی‌که تخمین دقیق از توابع چگالی چند متغیره p(x_1,…,x_m) و p(x_1,…,x_m,c) بدلیل کافی نبودن تعداد نمونه‌ها و دشواری محاسبه ابعاد بالای ماتریس کوواریانس، مشکل است، بنابراین بجای استفاده از بیشترین وابستگی از معیار بیشترین ارتباط استفاده می‌کنیم. این معیار، D(S,c) را با استفاده از میانگین مقادیر اطلاعات متقابل میان ویژگی‌های انفرادی x_i و گروه c تخمین می زند:
max⁡〖 D(S,c), D=1/|S| 〗 ∑_(x_i∈S)▒〖I(x_i,c)〗
ویژگی‌هایی که براساس بیشترین ارتباط انتخاب می‌شوند دارای افزونگی بالایی هستند، یعنی وابستگی میان آن ها زیاد است. هنگامی که دو ویژگی به شدت به هم وابسته باشند،



قیمت: تومان

دسته بندی : پایان نامه ارشد

پاسخ دهید