حجم نمونه در رگرسیون

حجم نمونه در رگرسیون و تحلیل مسیر براساس استناد به افراد صاحب‌نظر، تعداد متغیرها و روش‌های آماری مانند فرمول کوکران قابل محاسبه است. برآورد و تخمین حجم نمونه در رگرسیون و تحلیل مسیر به میزان اندازه اثر و توان آماری بستگی دارد که قدرت پیش‌بینی مدل را بهبود می‌بخشد.

در مباحث جامعه و نمونه بیشتر از فرمول کوکران یا جدول مورگان برای تخمین حجم نمونه استفاده می‌شود. اما باید توجه داشت مسائل تحلیل مسیر و رگرسیون اقتضائات خاص خودش را دارد. برای تعیین حجم نمونه در رگرسیون قواعد سرانگشتی زیادی وجود دارد. در بسیاری از پژوهش‌ها ۱۰ و ۱۵ نفر در ازای هر متغیر پیش‌بین استفاده می‌شود. بنابراین بر اساس این دو قاعده اگر شما ۵ متغیر پیش‌بین دارید، حداقل حجم نمونه بسته به قاعده مورد استفاده ۵۰ یا ۷۵ نفر خواهد بود. این قواعد خیلی فراگیر هستند امّا آنها مسئله را خیلی ساده می‌کنند. در حقیقت حجم نمونه موردنیاز به اندازه اثر و مقدار توان آماری بستگی دارد.

برآورد حجم نمونه در رگرسیون با روش گرین

گرین (۱۹۹۱) دو قاعده سرانگشتی برای حداقل حجم نمونه قابل‌پذیرش پیشنهاد کرده است. قاعده اول بر آزمون برازش کلی مدل رگرسیون شما (یعنی آزمون R2) مبتنی است و قاعده دوم بر آزمون پیش‌بین‌های منفرد موجود در مدل (یعنی آزمون ضرایب رگرسیون b مدل) مبتنی است.

طبیعتاً هر چه حجم نمونه بیشتر باشد بهتر است. دلیل بسیار ساده است. برآورد R (ضریب تشخیص) در رگرسیون به تعداد پیش‌بین‌ها (k) و حجم نمونه (N) وابسته است. در حقیقت مقدار مورد انتظار R از داده‌های تصادفی برابر با k/(N-1) است. ازاین‌رو داده‌های تصادفی در حجم نمونه‌های کوچک به نظر می‌توانند یک اثر قوی نشان دهند. برای مثال برای ۶ متغیر پیش‌بین و ۲۱ آزمودنی R=6(21-1) =0.3 (بر اساس ملاک کوهن یک اندازه اثر متوسط).

واضح است که برای داده‌های تصادفی ما انتظار داریم مقدار R برابر صفر باشد (فقدان اثر). برای درست بودن این ما به حجم نمونه‌های بزرگ نیاز داریم (برای همان مثال قبلی اگر ما به‌جای ۲۱ نفر ۱۰۰ آزمودنی داشتیم، مقدار R مورد انتظار در داده‌های تصادفی ۰/۰۶ خواهد بود که مقدار قابل‌قبول‌تری است. پس از تعیین حجم نمونه موردنظر باید از روش‌های نمونه‌گیری آماری مناسب برای دسترسی به افراد استفاده شود.

گرین فرمول تاباچنیک و فیدل را برای حجم نمونه در رگرسیون را پیشنهاد کرد:

N ≥ ۸k + 50

که k تعداد متغیرهای پیش‌بین است. بنابراین اگر ۵ متغیر پیش‌بین (مستقل) وجود داشته باشد، حداقل حجم نمونه ۵۰+۴۰=۹۰ است.

اگر بخواهید پیش‌بین‌های منفرد را آزمون کنید قاعده دوم حداقل حجم نمونه ۱۰۴+k را پیشنهاد می‌کند که k تعداد متغیرهای پیش‌بین است. برای ۵ متغیر پیش‌بین حداقل حجم نمونه موردنیاز ۱۰۴+۵=۱۰۹ است. البته در بیشتر موارد ما به برازش کلی و نقش پیش‌بین‌های منفرد علاقه‌مند هستیم. در این موقعیت گرین توصیه می‌کند که هر دو حداقل حجم نمونه را محاسبه کنید و هر کدام که بیشتر است را به عنوان حداقل حجم نمونه در نظر بگیرید (در مثال ۵ متغیر پیش‌بین، ما ۱۰۹ نفر را انتخاب می‌کنیم چون بیشتر از ۹۰ است).

برآورد حجم نمونه در رگرسیون با روش تاباچنیک و فیدل

فرمول تاباچنیک و فیدل (Tabachnick and Fidell) روشی آماری برای محاسبه حجم نمونه در پژوهش‌های رگرسیونی براساس تعداد متغیرهای پیش‌بین است. در یک پژوهش رگرسیونی با قرار دادن تعداد متغیرهای پیش‌بین می‌توان حجم نمونه را محاسبه کرد. براساس فرمول تاباچنیک و فیدل برای نمونه‌گیری حداقل حجم نمونه در مطالعات همبستگی از فرمول  N ≥ ۵۰ + ۸M برآورد می­‌شود.

N ≥ ۵۰ + ۸M

در این فرمول N حجم نمونه و M تعداد متغیرهای پیش‌­بین (مستقل) است. اگر در یک پژوهش ۵ متغیر پیش‌بین وجود داشته باشد حجم نمونه باید بیشتر از ۹۰ نفر باشد. این فرمول برای پژوهشی که با رگرسیون انجام می‌شود کاربرد دارد.

خلاصه و جمع‌بندی

برای برآور حجم نمونه در روش‌های رگرسیونی بیشتر از فرمول کوکران و جدول مورگان استفاده می‌شود. گاهی نیز پژوهشگران از قواعد سرانگشتی مانند قاعده ده برابری استفاده می‌کنند. هیچ یک از این روش‌های اشتباه نیست اما استفاده از روش تباچنیک و فیدل نیز می‌تواند راهگشا باشد.

دانلود اصل مقاله گرین برای محاسبه حجم نمونه در رگرسیون