حجم نمونه در رگرسیون

تعیین حجم نمونه در رگرسیون

برآورد و تخمین نمونه مناسب برای حل یک مدل رگرسیون قابل اطمینان بسیار ضروری است. در مباحث جامعه و نمونه بیشتر از فرمول کوکران یا جدول مورگان برای تخمین حجم نمونه استفاده می‌شود. اما باید توجه داشت مسائل تحلیل مسیر و رگرسیون اقتضائات خاص خودش را دارد. برای تعیین حجم نمونه در رگرسیون قواعد سرانگشتی زیادی وجود دارد. در بسیاری از تحقیقات ۱۰ و ۱۵ نفر در ازای هر متغیر پیش‌بین استفاده می‌شود. بنابراین بر اساس این دو قاعده اگر شما ۵ متغیر پیش‌بین دارید، حداقل حجم نمونه بسته به قاعده مورد استفاده ۵۰ یا ۷۵ نفر خواهد بود. این قواعد خیلی فراگیر هستند امّا آنها مسئله را خیلی ساده می‌کنند. در حقیقت حجم نمونه موردنیاز به اندازه اثر و مقدار توان آماری بستگی دارد.

طبیعتاً هر چه حجم نمونه بیشتر باشد بهتر است. دلیل بسیار ساده است. برآورد R (ضریب تشخیص) در رگرسیون به تعداد پیش‌بین‌ها (k) و حجم نمونه (N) وابسته است. در حقیقت مقدار مورد انتظار R از داده‌های تصادفی برابر با k/(N-1) است. ازاین‌رو داده‌های تصادفی در حجم نمونه‌های کوچک به نظر می‌توانند یک اثر قوی نشان دهند. برای مثال برای ۶ متغیر پیش‌بین و ۲۱ آزمودنی R=6(21-1) =0.3 (بر اساس ملاک کوهن یک اندازه اثر متوسط). واضح است که برای داده‌های تصادفی ما انتظار داریم مقدار R برابر صفر باشد (فقدان اثر). برای درست بودن این ما به حجم نمونه‌های بزرگ نیاز داریم (برای همان مثال قبلی اگر ما به‌جای ۲۱ نفر ۱۰۰ آزمودنی داشتیم، مقدار R مورد انتظار در داده‌های تصادفی ۰/۰۶ خواهد بود که مقدار قابل‌قبول‌تری است. پس از تعیین حجم نمونه موردنظر باید از روش های نمونه گیری آماری مناسب برای دسترسی به افراد استفاده شود.

روش برآورد نمونه در تکنیک رگرسیون

گرین (۱۹۹۱) دو قاعده سرانگشتی برای حداقل حجم نمونه قابل‌پذیرش پیشنهاد کرده است. قاعده اول بر آزمون برازش کلی مدل رگرسیون شما (یعنی آزمون R2) مبتنی است و قاعده دوم بر آزمون پیش‌بین‌های منفرد موجود در مدل (یعنی آزمون ضرایب رگرسیون b مدل) مبتنی است. گرین فرمول زیر را برای حجم نمونه در رگرسیون را پیشنهاد کرده است:

N ≥ ۸k + 50

که k تعداد متغیرهای پیش‌بین است. بنابراین اگر ۵ متغیر پیش‌بین (مستقل) وجود داشته باشد، حداقل حجم نمونه ۵۰+۴۰=۹۰ است.

اگر بخواهید پیش‌بین‌های منفرد را آزمون کنید قاعده دوم حداقل حجم نمونه ۱۰۴+k را پیشنهاد می‌کند که k تعداد متغیرهای پیش‌بین است. برای ۵ متغیر پیش‌بین حداقل حجم نمونه موردنیاز ۱۰۴+۵=۱۰۹ است. البته در بیشتر موارد ما به برازش کلی و نقش پیش‌بین‌های منفرد علاقه‌مند هستیم. در این موقعیت گرین توصیه می‌کند که هر دو حداقل حجم نمونه را محاسبه کنید و هر کدام که بیشتر است را به عنوان حداقل حجم نمونه در نظر بگیرید (در مثال ۵ متغیر پیش‌بین، ما ۱۰۹ نفر را انتخاب می‌کنیم چون بیشتر از ۹۰ است).

دانلود اصل مقاله گرین برای محاسبه حجم نمونه در رگرسیون