داده پرت

داده پرت (Outlier) در آمار کاربردی به داده یا داده‌هایی گفته می‌شود که مقدار آن به‌صورت قابل اعتنایی با دیگر داده‌ها و مشاهدات متفاوت باشد. نباید داده‌های پرت را با داده گمشده، اشتباهی و مقادیر ماتریس تکین اشتباه گرفت.

زمانی که پژوهشگر پرسشنامه‌ای را در اختیار نمونه قرار می‌دهد همیشه ممکن است پاسخ‌های بسیار متفاوتی را دریافت کند. پاسخ‌هایی که با دیدگاه دیگر پاسخگویان، بسیار بسیار متفاوت است. به این داده‌ها، داده‌های پرت یا دور افتاده گفته می‌شود، که ممکن است نتایج آزمون را به کلی تغییر دهد. از سوی دیگر یکی از مهم ترین مفروضه‌های اجرای بسیاری از آزمون‌های پارامتریک، نداشتن داده‌های پرت است. برای همین شناسایی و تصمیم‌گیری پیرامون این داده‌ها بسیار اهمیت دارد. در این مقاله به آموزش روش‌های شناسایی و حذف داده‌های پرت خواهیم پرداخت.

معرفی داده پرت

داده پرت یا دورافتاده به آن دسته از داده‌ها گفته می‌شود، که فاصله زیادی با دیگر داده‌های تحقیق داشته‌باشد، در اصل Outlier مقادیری است که نسبت به میانگین کل داده‌ها فاصله زیادی دارد.

برای نمونه در یک پژوهش تجربی در یک نمونه ۲۰۰ نفری از کاربران پارس‌مدیر، پرسشنامه‌ای توزیع شد. بیشتر کاربران پایگاه که به پرسشنامه پاسخ داده‌اند، در بازه سنی ۲۵ الی ۳۵ سال هستند ولی ۷ نفر از پاسخگویان با سن بیش از ۱۰۰ سال ثبت شده‌اند. اگر پس از گردآوری داده‌ها میانگین سنی را بگیرید، با وجود آن ۶ نفر، میانگین بسیار متفاوتی را خواهید داشت. در اصل این هفت نفر به کلی آماره رنج سنی کاربران پایگاه پارس‌مدیر را تغییر می‌دهند. به این هفت کیس و میزان سن آن‌ها داده پرت گفته می‌شود.

وجود Outlier در تحلیل می‌تواند مشکلات بسیار جدی را برای تحلیل ایجاد کند. در ادامه به مشکلات ایجاد شده در تحلیل خواهیم پرداخت:

حساس بودن روش‌های پارامتریک به داده‌های پرت: عدم وجود داده‌های دور افتاده برای بسیاری از آزمون‌های آماری پارامتریک یک پیش فرض مهم است. برای اجرای این دسته از آزمون‌ها باید داده‌های پرت را حذف یا اصلاح نمایید. چرا که این داده‌ها می‌تواند روش اجرای پژوهش را زیر سوال ببرد.

ایجاد خطا در نتایج : داده‌های دور افتاده می‌تواند نتایج بدست آمده را به کلی دچار اشکال کند.

تغییر شکل توزیع متغیرها: داده‌های دور افتاده می‌تواند شکل توزیع نرمال را تغییر دهد. نرمال بودن توزیع یکی از پیش فرض‌های بسیاری از تحلیل‌های آماری است و داده‌های پرت می‌تواند این توزیع را به هم بریزد.

دلایل ایجاد داده‌های پرت

خطای ابزار، پژوهشگر و پاسخگو مهم‌ترین دلایل ایجاد داده‌های پرت هستند:

  • اشتباه در طراحی مقیاس اندازه گیری (خطای اندازه گیری یا خطای ابزار)
  • اشتباه در وارد کردن داده‌ها به نرم افزار (خطای پژوهشگر)
  • اشتباه خود پاسخ دهنده به سوالات

خطای پژوهشگر زمانی رخ می‌دهد که برای مثال پاسخ آزمون شونده به سوال سن عدد ۲۵ بوده است، ولی خود محقق به اشتباه عدد ۲۵۰ را تایپ کرده است. گاهی نیز پاسخگو نمی‌خواهد به سوال پاسخ درست دهد. ممکن است پرسش حساسیت برانگیز بباشد. گاهی نیز پاسخگو بدون آنکه اصلا سوال را خوانده باشد و فقط جواب داده و رفته سوال بعدی یا این که سوال را اشتباه مطالعه کرده است.

روش‌های تشخیص داده پرت

برای شناسایی داده‌های پرت (Outlier Data) می‌توان از دو دسته روش استفاده کرد، یکی از روش‌ها ترسیم نمودارهای آماری است و روش دیگر استفاده از برخی از آزمون‌ها و تفسیر آماره‌ها است.

  • نمودار جعبه‌ای
  • نمودار میله‌ای

در ادامه به آموزش کامل این روش‌ها خواهیم پرداخت.

شناسایی داده‌های پرت با نمودار جعبه‌ای

ترسیم نمودار جعبه‌ای می‌تواند به ما کمک نماید که بفهمیم، آیا ما داده‌های پرت داریم یا خیر؟ و این داده‌های پرت مربوط به کدام یک از کیس‌های تحقیق است؟ برای ترسیم این نمودار می‎توان از چندین روش استفاده نمود :

روش اول: روی بخش Graphs بروید و سپس گزینه Chart Builder را بزنید. شناسایی داده‌های پرت با نمودار جعبه ای

سپس در بخشی که باز می‌شود، باید از قسمت Gallery گزینه Boxplot را که مربوط به ترسیم نمودار جعبه‌ای است را بکشید و به سمت قسمت بالا رها نمایید یا این که دو بار روی آن کلیک نمایید، تا شکل نمودار به کارد وسط انتقال یابد. سپس متغیرهای خود را که می‌خواهید نمودار جعبه‌ای را برای آن ترسیم نمایید وارد تحلیل کنید.

روش دوم: از دستور Legacy Dialogs استفاده کنید و از بین گزینه‌های موجود در این بخش برای ترسیم نمودار (Chart) گزینه Boxplot را انتخاب کنید.
شناسایی داده‌های پرت با نمودار جعبه ای
تفسیر خروجی‌های نمودار جعبه ای

همان طور که از تصویر مشخص است، داده هایی که از توزیع ما بسیار پرت هستند را در قالب یک سری شکل دایره‌ای در نمودار نشان می‌دهد. بالای هر کدام از این دایره‌ها عدد کیس مورد نظر را نیز نوشته است. می‌توانید به کیس‌های مشخص شده در نمودار مراجعه کنید و ببینید چرا جواب‌های آن‌ها پرت است؟ آزمون دهنده اشتباه کرده یا آزمون گیرنده؟

شناسایی داده‌های پرت با نمودار میله‌ای

از طرفی می‌توانید برای تکمیل کار خود نمودار میله‌ای را نیز ترسیم نمایید، که به سادگی نشان می‎دهد که آیا داده‌های پرت دارید یا خیر؟

شناسایی داده‌های پرت با نمودار Q-Q

روش دیگر شناسایی داده‌های پرت، استفاده از نمودار چندک چندک است، که به ما نشان می‌دهد آیا متغیر ما دارای داده‌های دور افتاده است یا خیر؟ برای ترسیم این نمودار باید، ابتدا از منوی Analyze به بخش Descriptive statistics بروید و گزینه Q-Q Plot را بزنید. در گام بعدی باید متغیر مد نظر را باید وارد کادر روبه رو کنید و در نهایت گزینه ۰k را بزنید تا خروجی‌ها ارایه شود .

همچنین مقاله آموزش ترسیم نمودار P-P Plot و Q-Q plot را نیز مطالعه کنید.

شناسایی داده‌های پرت با نمره استاندارد (Z)

ابتدا باید بدانید که نمره استاندارد چیست؟ اگر بخواهید نمرات گروه‌ها را با هم مقایسه کنید، باید باید آن‌ها را به نمره استاندارد تبدیل کنید. چرا که هر کدام از این توزیع‌ها می‌تواند میانگین متفاوتی داشته باشد. برای این کار و محاسبه نمره استاندارد (یا نمره Z)، باید مقادیر را از میانگین گروه کم کنیم و بر انحراف معیار تقسیم کنیم .

نمرات استاندارد می‌تواند مشخص کند، که کدام کیس‌های ما داده دور افتاده دارد. برای اجرای این روش در نرم افزار spss می‎توان از دو مسیر پیش رفت :

روش اول محاسبه نمره استاندارد: باید از منو Analyze گزینه‌ Regression را بزنید. از بخش باز شده، گزینه Linear را انتخاب کنید.

بعد از آن که متغیرهای تحقیق را وارد تحلیل کردید، باید بر روی قسمت save بزنید.

در قسمت save، تیک گزینه standardized را فعال نمایید. سپس Continue را بزنید. در آخرین گام روی OK کلیک کنید.

روش دوم محاسبه نمره استاندارد : باید در بخش Analyze در منو Descritive Statistics گزینه Descritives را بزنید. سپس باید گزینه Save standardized values as variables را فعال کنید و در پایان بر روی Ok کلیک کنید.

پس از اجرای آزمون استاندارد، نمرات استاندارد تمامی کیس‌های تحقیق در یک ستون محاسبه می‌شود. اگر مواردی در ستون باقی مانده استاندارد، بالای ۳ یا زیر ۳- باشد، باید آن‌ها را حذف کرد، چون موارد دور افتاده حساب می‌شوند.

شناسایی داده‌های پرت با فاصله ماهالانوبیس

فاصله ماهالانوبیس روش دیگری برای شناسایی داده‌های پرت است. این روش بیشتر بر روش رگرسیون استفاده می‌شود. نحوه محاسبه فاصله ماهالانوبیس در SPSS بدین شکل است که، ابتدا باید از منو Analyze گزینه‌ Regression را بزنید. از بخش باز شده گزینه Linear را انتخاب کنید.

در گام بعدی متغیر وابسته و متغیرهای پیش بین را وارد تحلیل کنید. سپس وارد بخش Save شوید و تیک Mahalanobis را انتخاب کنید. در پایان گزینه ok را بزنید تا خروجی‌ها نمایش داده شود.

فاصله ماهالانوبیس در SPSS

شناسایی داده‌های پرت با فاصله ماهالانوبیس

در خروجی‌های نرم افزار باید فاصله ماهالانوبیس را پیدا کنید. از ماکسیموم این فاصله می‌توانید مقدار بحرانی آن را مشخص نمایید.

بعد از دیدن مقدار ماکسیموم باید به جدول زیر مراجعه نمایید. بر اساس تعداد متغیرهای پیش بین تحلیل، مشخص شده که مقدار بحرانی ماهالانوبیس چند است. اگر عدد ماکسیموم خروجی، بزرگ تر از مقدار بحرانی بود، یعنی این که ما مقادیر پرت مشکل ساز داریم.

در گام پایانی باید به داده‌های اصلی مراجعه نمایید. نرم‌افزار ستون تازه‌ای به‌نام MAH ایجاد کرده است. این مقادیر را از بزرگ به کوچک مرتب کنید و کیس هایی که مقدار ماهالانوبیس آن‌ها بالا تر از مقدار بحرانی بوده را از تحلیل خود حذف نمایید.

روش تاباچنیک و فیدل

تاباچنیک و فیدل (Fidell & Tabachnic) روش دیگری برای تشخیص داده‌های پرت پیشنهاد کردند. آنها از یک یا چند واحد (نه خیلی زیاد) بیشتر و کمتر از بزرگترین و کوچکترین مقادیر که در توزیع معمولی داده ها قرار دارند به جای مقادیر پرت بالاترین و پایین ترین استفاده کردند. برای نمونه داده‌های زیر را درنظر بگیرید،

۲۴۵ ، ۲۴۰ ، ۲۳۸ ، ۱۶۲ ، ۱۶۱ ، ۱۶۱ ، ۱۶۱ ، ۱۵۸ ، ۱۵۷ ، ۱۵۷ ، ۱۵۵ ، ۱۵۵ ، ۱۵۱ ، ۵۰

مقادیر ۲۳۸، ۲۴۰، و ۲۴۵ از بالا و مقدار ۵۰ از پایین مقادیر پرت از توزیع داده ها می باشند. توسط روش تابچانیک و فیدل می توان از بالا مقدار ۲۳۸ را به ۱۶۳ ، مقدار ۲۴۰ را به ۱۶۴ و ۲۴۴ را به ۱۶۵ و از پایین مقدار ۵۰ را به ۱۵۰  تغییر داد تا این مقادیر نیز در مجموع کل توزیع داده ها قرار گیرند.

این روش کاملا قراردادی است به دیگر سخن در انجام چنین رفتارهایی با داده‌ها باید بصورت منطقی و حساب شده تصمیم گرفت.

ترسیم نمودار Scatterplot برای شناسایی داده‌های پرت

روش دیگر این است که یک نمودار پراکندگی برای دو متغیر تحلیل ترسیم کنید. نکته‌ای که در مورد این نمودار باید رعایت شود این است که، دو متغیر تحلیل باید با مقیاس (Measure) فاصله‌ای (Scale) سنجیده شده باشد. وجود نقطه پراکنده در نمودار، نشان دهنده داده‌های پرت است. برای ترسیم می‌توانید از قسمت Graph گزینه Chart Builder را انتخاب کنید. سپس دکمه OK را بزنید. از قسمت Gallery گزینه Scatter/Dot را به کادر وسط بکشید و سپس متغیرهای تحلیل را در محور‌های X و Y وارد کنید.

روش برخورد با داده‌های پرت

به طور کلی بعد از آن که داده‌های خود را جمع آوری کردید، باید از روش هایی برای شناسایی داده‌های پرت استفاده کنید. بعد از این مرحله وارد تصمیم گیری در مورد داده‌های پرت می‌شوید. دو راهکار اصلی برای برخورد با داده‌های پرت وجود دارد:

در صورتی که امکان اصلاح داده‌ها وجود داشته باشد، می‌توان از این روش استفاده نمود. باید بررسی کنید، چرا داده پرت ایجاد شده است؟ ممکن است در اثر اشتباه تایپی پژوهشگر باشد. برای بررسی این موضوع کافی است از روش زیر عمل نمایید:

در ابتدا در بخش Analyze در منو Descriptive Statistics گزینه Frequencies را بزنید. سپس متغیر مورد نظر را وارد تحلیل نمایید. سپس گزینه Statistics را بزنید. min و max را انتخاب کنید و در پایان OK را بزنید.

روش اصلاح داده پرت

در خروجی‌های نرم افزار می‌توانید مقدار ماکسیموم و مینیموم را مشاهده کنید. مثلا در نظر بگیرید که در وارد کردن داده‌ها ممکن است، خطا از جانب پژوهشگر باشد. به راحتی می‌توانید بر اساس جدول خروجی ببنید که کدام یک از کیس‌ها مقادیر پرت دارند. سپس به پرسشنامه مراجعه نمایید و اگر اشکالی در وارد کردن داده‌ها موجود بود می‌توانید به راحتی اصلاح نمایید.

روش دیگری هم برای بررسی داده‌های دور افتاده وجود دارد و آن این است که، در قسمت Frequencies می‎توانید تیک Skewness را نیز بزنید تا چولگی را در جدول نشان بدهد. مقدار آن مشخص کننده وجود داده‌های دور افتاده است.

روش حذف داده پرت

ممکن است داده‌های پرت در گام پیشین قابل اصلاح نباشد. مثلا به کلی، خود آزمون شوندگان به اشتباه پاسخ داده‌اند. در چنین حالتی باید این داده‌ها را در صورتی که تعداد آن‌ها زیاد باشد، از تحلیل حذف کرد. در این بخش، روش حذف کیس هایی که در آن داده پرت موجود است را آموزش خواهید دید:

برای این آزمون باید به بخش Analyze بروید.

در گام بعدی وارد بخش Descriptive Statistics شوید و گزینه Explore را انتخاب کنید.

پس از وارد کردن داده‌های تحلیل باید در قسمت Statistics گزینه Outilers را فعال نمایید. سپس ok را بزنید.

در خروجی‌های نرم افزار می‌توانید لیستی از داده‌های دور افتاده تحلیل را به همراه شماره کیس آن مشاهده نمایید. این لیست پژوهشگر را برای حذف این مقادیر از تحلیل کمک می‌کند.

خلاصه و جمع‌بندی

نقاط پرت، نقاط داده‌ای هستند که با سایر نقاط داده فاصله دارند. به عبارت دیگر، آنها مقادیر غیرعادی در یک مجموعه داده هستند. نقاط پرت برای بسیاری از تحلیل‌های آماری مشکل‌ساز هستند، زیرا می‌توانند باعث شوند که آزمایش‌ها یافته‌های مهم را از دست بدهند یا نتایج واقعی را تحریف کنند.یافتن نقاط پرت به دانش موضوعی و درک فرآیند جمع آوری داده‌ها بستگی دارد. در حالی که هیچ تعریف ریاضی محکمی وجود ندارد، دستورالعمل‌ها و آزمون‌های آماری وجود دارد که می‌توانید برای یافتن نامزدهای پرت از آن‌ها استفاده کنید.

نقاط پرت مقادیری هستند که به طور قابل توجهی با سایر نقاط داده متفاوت هستند و می‌توانند در روش‌های آماری مشکل ایجاد کنند. صفحه داده خود را برای یافتن موارد پرت مرتب کنید. مرتب‌سازی دیتا یک راه ساده اما موثر برای برجسته کردن مقادیر غیرمعمول است. به سادگی برگه داده خود را برای هر متغیر مرتب کنید و سپس به دنبال مقادیر غیرمعمول بالا یا پایین باشید.

نمودار‌سازی داده‌های خود برای شناسایی موارد پرت راهکار دیگری است. نمودارهای جعبه‌ای، هیستوگرام‌ها و نمودارهای پراکنده می‌توانند نقاط پرت را برجسته کنند. باکس‌پلات‌ها ستاره‌ها یا سایر نمادها را روی نمودار نشان می‌دهند تا به صراحت نشان دهند که چه زمانی مجموعه داده‌ها حاوی مقادیر پرت هستند. نمودار جعبه زیر مجموعه داده نمونه ما را نشان می‌دهد. واضح است که مقدار پرت کاملاً متفاوت از مقدار داده معمولی است. هیستوگرام‌ها نیز بر وجود نقاط پرت تاکید می‌کنند.