
حجم نمونه در رگرسیون و تحلیل مسیر براساس استناد به افراد صاحبنظر، تعداد متغیرها و روشهای آماری مانند فرمول کوکران قابل محاسبه است. برآورد و تخمین حجم نمونه در رگرسیون و تحلیل مسیر به میزان اندازه اثر و توان آماری بستگی دارد که قدرت پیشبینی مدل را بهبود میبخشد.
در مباحث جامعه و نمونه بیشتر از فرمول کوکران یا جدول مورگان برای تخمین حجم نمونه استفاده میشود. اما باید توجه داشت مسائل تحلیل مسیر و رگرسیون اقتضائات خاص خودش را دارد. برای تعیین حجم نمونه در رگرسیون قواعد سرانگشتی زیادی وجود دارد. در بسیاری از پژوهشها ۱۰ و ۱۵ نفر در ازای هر متغیر پیشبین استفاده میشود. بنابراین بر اساس این دو قاعده اگر شما ۵ متغیر پیشبین دارید، حداقل حجم نمونه بسته به قاعده مورد استفاده ۵۰ یا ۷۵ نفر خواهد بود. این قواعد خیلی فراگیر هستند امّا آنها مسئله را خیلی ساده میکنند. در حقیقت حجم نمونه موردنیاز به اندازه اثر و مقدار توان آماری بستگی دارد.
برآورد حجم نمونه در رگرسیون با روش گرین
گرین (۱۹۹۱) دو قاعده سرانگشتی برای حداقل حجم نمونه قابلپذیرش پیشنهاد کرده است. قاعده اول بر آزمون برازش کلی مدل رگرسیون شما (یعنی آزمون R2) مبتنی است و قاعده دوم بر آزمون پیشبینهای منفرد موجود در مدل (یعنی آزمون ضرایب رگرسیون b مدل) مبتنی است.
طبیعتاً هر چه حجم نمونه بیشتر باشد بهتر است. دلیل بسیار ساده است. برآورد R (ضریب تشخیص) در رگرسیون به تعداد پیشبینها (k) و حجم نمونه (N) وابسته است. در حقیقت مقدار مورد انتظار R از دادههای تصادفی برابر با k/(N-1) است. ازاینرو دادههای تصادفی در حجم نمونههای کوچک به نظر میتوانند یک اثر قوی نشان دهند. برای مثال برای ۶ متغیر پیشبین و ۲۱ آزمودنی R=6(21-1) =0.3 (بر اساس ملاک کوهن یک اندازه اثر متوسط).
واضح است که برای دادههای تصادفی ما انتظار داریم مقدار R برابر صفر باشد (فقدان اثر). برای درست بودن این ما به حجم نمونههای بزرگ نیاز داریم (برای همان مثال قبلی اگر ما بهجای ۲۱ نفر ۱۰۰ آزمودنی داشتیم، مقدار R مورد انتظار در دادههای تصادفی ۰/۰۶ خواهد بود که مقدار قابلقبولتری است. پس از تعیین حجم نمونه موردنظر باید از روشهای نمونهگیری آماری مناسب برای دسترسی به افراد استفاده شود.
گرین فرمول تاباچنیک و فیدل را برای حجم نمونه در رگرسیون را پیشنهاد کرد:
N ≥ ۸k + 50
که k تعداد متغیرهای پیشبین است. بنابراین اگر ۵ متغیر پیشبین (مستقل) وجود داشته باشد، حداقل حجم نمونه ۵۰+۴۰=۹۰ است.
اگر بخواهید پیشبینهای منفرد را آزمون کنید قاعده دوم حداقل حجم نمونه ۱۰۴+k را پیشنهاد میکند که k تعداد متغیرهای پیشبین است. برای ۵ متغیر پیشبین حداقل حجم نمونه موردنیاز ۱۰۴+۵=۱۰۹ است. البته در بیشتر موارد ما به برازش کلی و نقش پیشبینهای منفرد علاقهمند هستیم. در این موقعیت گرین توصیه میکند که هر دو حداقل حجم نمونه را محاسبه کنید و هر کدام که بیشتر است را به عنوان حداقل حجم نمونه در نظر بگیرید (در مثال ۵ متغیر پیشبین، ما ۱۰۹ نفر را انتخاب میکنیم چون بیشتر از ۹۰ است).
برآورد حجم نمونه در رگرسیون با روش تاباچنیک و فیدل
فرمول تاباچنیک و فیدل (Tabachnick and Fidell) روشی آماری برای محاسبه حجم نمونه در پژوهشهای رگرسیونی براساس تعداد متغیرهای پیشبین است. در یک پژوهش رگرسیونی با قرار دادن تعداد متغیرهای پیشبین میتوان حجم نمونه را محاسبه کرد. براساس فرمول تاباچنیک و فیدل برای نمونهگیری حداقل حجم نمونه در مطالعات همبستگی از فرمول N ≥ ۵۰ + ۸M برآورد میشود.
N ≥ ۵۰ + ۸M
در این فرمول N حجم نمونه و M تعداد متغیرهای پیشبین (مستقل) است. اگر در یک پژوهش ۵ متغیر پیشبین وجود داشته باشد حجم نمونه باید بیشتر از ۹۰ نفر باشد. این فرمول برای پژوهشی که با رگرسیون انجام میشود کاربرد دارد.
سخن پایانی
برای برآور حجم نمونه در روشهای رگرسیونی بیشتر از فرمول کوکران و جدول مورگان استفاده میشود. گاهی نیز پژوهشگران از قواعد سرانگشتی مانند قاعده ده برابری استفاده میکنند. هیچ یک از این روشهای اشتباه نیست اما استفاده از روش تباچنیک و فیدل نیز میتواند راهگشا باشد.