داده‌های گمشده

داده‌های گمشده (Missing data) شامل خانه‌هایی در یک یک فایل داده است که مقدار یا ارزشی برای متغیر مورد بررسی برای آن منظور نشده است. این مسئله می‌تواند نتایج پژوهش را به شدت دستخوش تغییر کند بنابراین باید مورد توجه پژوهشگران قرار گیرد. نظر به اهمیت موضوع در این آموزش شیوه برخورد با داده‌های گمشده تشریح خواهد شد.

تعریف داده گمشده

داده گمشده به حالتی گفته می‌شود که مقدار مورد انتظار برای یک متغیر خاص در یک مشاهده (پاسخ‌نامه، فرد یا ردیف داده) ثبت نشده یا در دسترس نیست. این فقدان ممکن است ناشی از موارد زیر باشد:

  • عدم پاسخ‌دهی فرد
  • خطای ثبت داده
  • حذف ناخواسته در فرایند ورود
  • حذف ناخواسته در انتقال داده

داده‌های گمشده نباید با داده‌های پرت (Outlier) اشتباه گرفته شوند. این پدیده زمانی رخ می‌دهد که پاسخ‌دهنده، به‌صورت عمدی یا غیرعمدی، به یک یا چند پرسش پاسخ ندهد. داده‌های گمشده به‌ویژه در پژوهش‌های حوزه علوم اجتماعی که بر پایه پرسش‌نامه و پیمایش اجرا می‌شوند، رایج هستند.

شیوه برخورد با داده‌های گمشده

در پژوهش‌های معتبر، یک قاعده سرانگشتی اما پذیرفته‌شده این است که: اگر بیش از ۲۰٪ داده‌های یک ردیف (مثلاً یک پاسخ‌دهنده) مفقود باشد، آن ردیف حذف شود.

اگر داده‌های گمشده اندک باشد می‌توان از روش‌های زیر استفاده کرد:

  • جایگزینی با میانگین فردی (Mean substitution per case)
  • جایگزینی با میانگین گویه‌ای (Mean substitution per item)
  • جایگزینی با میانگین خوشه یا گروه (در داده‌های پیمایشی با خوشه‌بندی)

جایگزینی با روش‌های پیشرفته:

  • برآورد چندگانه یا تخمین چندگانه (Multiple Imputation)
  • الگوریتم انتظار-بیشینه‌سازی (Expectation Maximization)

این روش‌ در نرم‌افزارهایی مثل SPSS، AMOS، R و Mplus در دسترس هستند و دقت بسیار بالایی دارند.

حذف داده‌های گمشده

داده‌های ناقص که در آن بیش از ۸۰٪ از گویه‌ها بدون پاسخ باقی مانده‌اند، می‌توانند باعث تحریف نتایج تحلیل‌های آماری به‌ویژه در تحلیل عاملی یا مدل‌سازی معادلات ساختاری شوند (آلیسون، ۲۰۰۲).

بر اساس توصیه‌های روش‌شناسان، هنگامی که مقدار داده‌ی گمشده در سطح مورد (ردیف یا پاسخ‌دهنده) از آستانه ۲۰٪ فراتر رود، حذف آن مورد قابل توجیه است؛ چرا که برآورد مقدار واقعی پاسخ‌ها برای چنین داده‌هایی دارای خطای بالا و اعتبار پایین خواهد بود (هیر و همکاران، ۲۰۲۰).

چگونه در پژوهش خود گزارش دهیم؟

در گام پیش‌پردازش داده‌ها، بررسی اولیه نشان داد که برخی از پاسخ‌دهندگان به بخش قابل توجهی از پرسش‌نامه پاسخ نداده‌اند. به‌طور مشخص، چند نمونه مشاهده شد که به‌طور کامل فقط به یکی از ردیف‌ها یا بُعدهای پرسش‌نامه پاسخ داده بودند و سایر بخش‌ها را رها کرده بودند. بنابراین ردیف‌هایی که به کمتر از ۲۰٪ گویه‌ها پاسخ داده بودند، حذف شدند تا از ورود خطای سیستماتیک به نتایج پژوهش جلوگیری گردد.

شناسایی داده‌های گم‌شده در SPSS

شناسایی داده‌های گم‌شده در نرم‌افزار SPSS با استفاده از دستور Replace Missing Values از منوی Transform قابل انجام است.

پس از انتخاب  کادری مانند زیر نمایان خواهد شد:

داده‌های گم‌شده در SPSS

شناسایی داده‌های گم‌شده در SPSS

تمامی متغیرهای مورد نظر خود را به کادر New Variables منتقل کنید.

پیش از این کار از کشوئی Method نوع پوشش نقاط خالی و فاقد داده را انتخاب کنید. موارد زیر در دسترس است:

  • گزینه series mean: پرکردن جاهای خالی براساس میانگین داده‌های آن فیلد پر می‌کند.
  • گزینه Mean of nearby points: جای خالی را براساس میانگین داده‌های اطراف آن خانه خالی پر می‌کند.
  • گزینه Median of nearby points: جای خالی را براساس میانه داده‌های اطراف آن خانه خالی پر می‌کند.
  • گزینه Linear interpolation: جاهای خالی را براساس معادلات خطی داده‌ها پر می‌کند.
  • گزینه Linear trend at point: جاهای خالی را براساس روندنمای خطی داده‌ها پر می‌کند.

پیشنهاد می‌شود برای ستون‌های مربوط به متغیرهای طیف لیکرت از گزینه series mean و برای اطلاعات آمار توصیفی و داده‌های اسمی و ترتیبی از گزینه Median of nearby points استفاده کنید.

چند نکته کلیدی

استفاده از گزینه Replace Missing Values نکات مربوط به خود را دارد. برای نمونه فرض کنید متغیری مانند Q1 را برای اسکن داده‌های گم‌شده انتخاب کرده باشید در این صورت خود برنامه متغیری با نامی مانند Q1_1 درست می‌کند. پس از اسکن داده‌های گم‌شده و تکمیل آن براساس پوشش نقاط خالی که انتخاب کرده‌اید یک فیلد جدید با نام Q1_1 در انتهای فایل داده قبلی ایجاد و نتایج را ذخیره می‌کند.

اگر می‌خواهید چنین نشود و اصلاحات در همان فیلد قبلی صورت گیرد (و معمولاً هم چنین است) خودتان نام متغیر را به همان نام قبلی تغییر دهید و دکمه  را که اکنون فعال شده است را فشار دهید.

اگر از کشوئی Method یکی از دو گزینه زیر را انتخاب کنید باید در قسمت Number مشخص کنید منظورتان از Nearby (همان داده‌های اطراف) چند داده است. همانطور که بیان شد گزینه Mean of nearby points جای خالی را براساس میانگین داده‌های اطراف آن خانه خالی پر می‌کند. گزینه Median of nearby points نیز جای خالی را براساس میانه داده‌های اطراف آن خانه خالی پر می‌کند.

داده‌های گمشده در حداقل مربعات جزئی

داده‌های گمشده در نرم‌افزار Smart PLS با نام «ارزش‌های گمشده» یا Missing values نمایش داده می‌شود. اگر فایل داده‌ای که فراخوانی شده است دارای مقادیر گمشده باشد در زمانی که الگوریتم حداقل مربعات جزئی اجرا می‌شود یک زبانه جدید به نام ارزش‌های گمشده به آن اضافه می‌شود.

راهکارهای مواجهه با داده‌های گمشده در حداقل مربعات جزئی عبارتند از:

  • جانهی میانگین [Mean replacement]
  • حذف موردی [Casewise Deletion]
  •  حذف زوجی [Pairwise Deletion]

جانهی (Imputation) در آمار، فرایند جایگزین‌کردن داده‌های گم‌شده با مقدارهای جای‌گزین است. جایگزین کردن یک نقطه داده گم‌شده، به‌عنوان «جانهی یکه»، و یک مولفه یک نقطه داده به‌عنوان «جانهی موردی» شناخته می‌شود.

در روش جانهی میانگین، از میانگین سایر داده‌های مربوط به آن گویه در فایل داده به جای داده گمشده استفاده می‌شود. به‌دیگر سخن مقادیر خالی هر ستون با میانگین سایر داده‌های آن ستون جایگزین می‌شود. مزیت این روش آن است که حجم نمونه و میانگین داده‌های هر ستون ثابت باقی می‌ماند. با این وجود واریانس داده‌ها تغییر می‌کند و بر همین اساس ضریب مسیر سازه‌ها نیز تغییر خواهد کرد.

حذف موردی (Casewise Deletion) راهکار دیگری است که نرم‌افزار Smart PLS  برای حذف داده‌های گمشده در هر معرف مورد استفاده در مدل را پیشنهاد می‌دهد. زمانیکه از این روش استفاده می‌شود دو موضوع نیاز به توجه بیشتری دارند:

نخست اطمینان از اینکه به‌صورت سیستماتیک گروه ویژه‌ای از پاسخ‌گویان حذف نشده‌اند. برای نمونه پژوهشگران بازاریابی به‌صورت متناوب مشاهده می‌کنند که پاسخ‌دهندگان ثروتمند در پاسخ به پرسش‌های پیرامون میزان درآمدشان سر باز می‌زنند. استفاده از حذف مورد به صورت سیستماتیک، این گروه از پاسخگویان را نادیده می‌گیرد و بنابراین احتمالا موجب اریبی در نتایج می‌شود.

دو دیگر آنکه استفاده از این روش می‌تواند به‌صورتی چشمگیر تعداد مشاهدات در مجموعه داده‌ها را کاهش دهد. بنابراین کنترل دقیق تعداد مشاهده‌های مورداستفاده در برآورد مدل نهایی هنگامیکه از این روش استفاده می‌شود بسیار مهم است.

سخن پایانی

داده‌های گمشده همواره یکی از چالش‌های مهم در تحلیل‌های آماری، به‌ویژه در مطالعات مبتنی بر پیمایش هستند. اگرچه روش‌های پیشرفته‌ای برای برآورد و جایگزینی این داده‌ها وجود دارد، اما آنچه اهمیت دارد، انتخاب راهبردی متناسب با هدف پژوهش و ویژگی‌های نمونه است. بهره‌گیری از میانگین زیرگروه‌های جمعیت‌شناختی یا معدل آیتم‌های یک سازه، می‌تواند به حفظ انسجام درونی داده‌ها و کاهش تحریف در نتایج کمک کند. با وجود تنوع روش‌های جایگزینی، در زمینه مدل‌سازی حداقل مربعات جزئی (PLS) همچنان نیاز به مطالعات بیشتر برای ارزیابی دقت و برازندگی این رویکردها وجود دارد. از این رو، پژوهشگران باید با دقت، آگاهی و شفافیت، روش انتخابی خود برای مدیریت داده‌های گمشده را مستند کنند.

فهرست منابع

حبیبی، آرش؛ سرآبادانی، مونا. (۱۴۰۱). آموزش کاربردی SPSS. تهران: نارون.

حبیبی، آرش؛ جلال‌نیا، راحله. (۱۴۰۱). کتاب حداقل مربعات جزئی. تهران: نارون.

Allison, P. D. (2002). Missing Data. Sage Publications.
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2019). Multivariate Data Analysis (8th ed.). Cengage Learning.