فاصله ماهالانوبیس

فاصله ماهالانوبیس (Mahalanobis distance) فاصله یک داده ویژه از توزیع داده‌ها در میان داده‌های گردآوری شده یک نمونه آماری است. این روش بوسیله چاندار ماهالانوبیس به سال ۱۹۳۶ ارائه گردید و برای تشخیص داده‌های پرت کاربرد بسیاری دارد.

روش آماری برآورد این فاصله دشوار است و برای پژوهشگران مدیریت و علوم اجتماعی کاربرد چندانی ندارد. بویژه آنکه زمانی که حجم داده‌ها زیاد باشد امکان برآورد دستی بسیار دشوارتر نیز خواهد شد. بنابراین در این آموش کوشش بر آن است تا به بیان نقش و شیوه برآورد آن در نرم‌افزار SPSS پرداخته شود. در پایان این آموزش پژوهشگران قادر خواهند بود تا داده‌های پرت را با برآورد فاصله ماهالانوبیس در نرم‌افزار SPSS شناسایی کنند.

برآورد فاصله ماهالانوبیس در نرم‌افزار SPSS

برای شروع آزمون رگرسیون خطی را اجرا کنید.

از منوی Analyze گزینه Regression فرمان Linear را اجرا کنید تا دیالوگ رگرسیون خطی پدیدار شود.

متغیرهای مستقل و وابسته را به کادرهای مربوط وارد کنید.

روی دکمه Save مانند شکل کلیک کنید.

در دیالوگ جدید گزینه Mahalanobis را تیک بزنید.

در پایان دکمه Continue و پس از آن OK را کلیک کنید.

فاصله ماهالانوبیس در SPSS

شناسایی داده‌های پرت با فاصله ماهالانوبیس

در خروجی رگرسیون جدولی به Residuals Statistics اضافه خواهد شد. در این جدول Mahalanobis را پیدا کنید چنانچه بیشینه (ماکسیموم) بالای آن از تعداد سازه‌های پیش‌بین بیشتر باشد نشان از وجود داده‌های پرت می‌باشد.

اگر به فایل داده برگردید مشاهده خواهید کرد یک فیلد جدید به‌نام MAH_1 اضافه شده است. اکنون باید معناداری فاصله‌های برآورده شده را آزمون کنید. برای این کار از تابع CDF.CHISQ استفاده می‌شود. این تابع دارای دو آرگومان است. آرگومان اول نام متغیر موردنظر و آرگومان دوم تعداد متغیرهای پیش‌بین است. برای نمونه اگر سه سازه پیش‌بین دارید از تابع زیر استفاده کنید:

۱ – CDF.CHISQ(MAH_1,3)

از منوی Transform و سپس Compute Variable کلیک کنید. در دیالوگی که باز می‌شود تابع بالا را وارد کنید و نامی برای سازه‌ای که می‌خواهید مقدار معناداری در آن درج شود انتخاب کنید. با کلیک روی دکمه OK یک فیلد جدید دربرگیرنده مقادیر معناداری اضافه خواهد شد. هر رکوردی که معناداری آن کمتر از سطح خطا باشد به‌عنوان داده پرت شناسایی می‌شود. می‌توانید روی فیلد معناداری کلیک راست کنید و گزینه Ascending را انتخاب کنید تا داده‌ها براساس مقادیر از کوچک به بزرگ مرتب شود. به این ترتیب بهتر می‌توان داده‌های پرت را شناسایی کرد.

خلاصه و جمع‌بندی

فاصله ماهالانوبیس روش دیگری برای شناسایی داده‌های پرت است. این روش بیشتر بر روش رگرسیون استفاده می‌شود. برای برآورد آن نخست باید از منو Analyze گزینه‌ Regression را انتخاب کنید. از بخش باز شده گزینه Linear را انتخاب کنید.

در گام بعدی متغیر وابسته و متغیرهای پیش بین را وارد تحلیل کنید. سپس وارد بخش Save شوید و تیک Mahalanobis را انتخاب کنید. در پایان گزینه ok را بزنید تا خروجی‌ها نمایش داده شود. در خروجی‌های نرم افزار باید فاصله ماهالانوبیس را پیدا کنید. از ماکسیموم این فاصله می‌توانید مقدار بحرانی آن را مشخص نمایید. پس از دیدن مقدار ماکسیموم باید به جدول زیر مراجعه نمایید. بر اساس تعداد متغیرهای پیش بین تحلیل، مشخص شده که مقدار بحرانی ماهالانوبیس چند است. اگر عدد ماکسیموم خروجی، بزرگ تر از مقدار بحرانی بود، یعنی این که ما مقادیر پرت مشکل ساز داریم.

در گام پایانی باید به داده‌های اصلی مراجعه نمایید. نرم‌افزار ستون تازه‌ای به‌نام MAH ایجاد کرده است. این مقادیر را از بزرگ به کوچک مرتب کنید و کیس هایی که مقدار ماهالانوبیس آن‌ها بالا تر از مقدار بحرانی بوده را از تحلیل خود حذف نمایید.

3.7 3 رای ها
امتیازدهی به مقاله