بازنمونه‌گیری (Re-sampling)

بازنمونه‌گیری (Re-sampling) روشی آماری است که در آن برای کاهش اریبی برآورد از میان نمونه‌های موجود تعدادی نمونه جدید انتخاب می‌شود. این روش زمانی اهمیت حیاتی پیدا می‌کند که داده‌ها محدود، پرنویز یا نامتوازن باشند و تصمیم‌گیری بدون رویکردی علمی می‌تواند به نتایج نادرست بینجامد. نظر به اهمیت موضوع در این نوشتار، بازنمونه‌گیری مفهوم‌سازی و تعریف خواهد شد.

فهرست مطالب

مبانی نظری و تعریف بازنمونه‌گیری
کارکردهای بازنمونه‌گیری
خطا در برآورد
روش‌های بازنمونه‌گیری
سخن پایانی

مبانی نظری و تعریف بازنمونه‌گیری

بازنمونه‌گیری ریشه در نظریه‌های بنیادی آمار محاسباتی دارد؛ حوزه‌ای که تلاش می‌کند با اتکا به قدرت محاسباتی، محدودیت‌های نمونه‌های کوچک یا نامطمئن را کاهش دهد. در این رویکرد، به‌جای اتکا به فرمول‌های پیچیده و فرضیات سخت‌گیرانه، از خود داده‌ها برای برآورد عدم‌قطعیت و واریانس استفاده می‌شود. این روش با ظهور رایانه‌ها و امکان اجرای میلیون‌ها تکرار نمونه‌گیری، جایگاه ویژه‌ای در پژوهش‌های کاربردی پیدا کرده است.

به زبان ساده اگر از یک جامعه به حجم N نمونه‌ای به حجم n را انتخاب کرده باشید از میان همان نمونه n تعداد جدیدی به عنوان نمونه انتخاب می‌شوند.

در ادبیات علمی، بازنمونه‌گیری به مجموعه‌ای از تکنیک‌ها گفته می‌شود که داده‌های موجود را بارها استخراج، تقسیم یا بازترکیب کرده و نتایج آماری را بر اساس توزیع تجربی حاصل از این نمونه‌های ساخته‌شده تحلیل می‌کنند.

به‌طور معمول، روش‌هایی مانند Bootstrap، Jackknife و Cross-Validation از اصلی‌ترین تکنیک‌های این خانواده محسوب می‌شوند. مفهوم‌سازی این روش بر این فرض استوار است که داده‌های موجود حامل الگوهای کافی برای شبیه‌سازی رفتار جامعه آماری هستند. بنابراین، با تکرار فرآیند نمونه‌گیری و محاسبه تخمین‌ها می‌توان به درک عمیق‌تری از نوسانات آماری دست یافت.

کارکردهای بازنمونه‌گیری

اهمیت این رویکرد زمانی برجسته می‌شود که پژوهشگر با محدودیت داده یا عدم قطعیت بالا مواجه است. بازنمونه‌گیری کمک می‌کند تخمین‌های آماری از حالت تئوریک فاصله گرفته و بر مبنای رفتار واقعی داده‌ها شکل گیرند. ضرورت استفاده از این روش در تحلیل‌های امروزی ناشی از موارد زیر است:

افزایش دقت برآورد پارامترهای آماری
امکان اندازه‌گیری عدم‌قطعیت بدون نیاز به فرض توزیع مشخص
کمک به جلوگیری از بیش‌برازش در مدل‌های یادگیری ماشین
کاهش اتکا به نمونه‌های بزرگ و هزینه‌بر
بهبود پایایی و روایی تحلیل‌های تجربی

به‌کارگیری این روش باعث می‌شود پژوهشگر بر پایه داده‌های واقعی تصمیم بگیرد و به تصویری واقع‌گرایانه‌تر از تغییرپذیری و رفتار پنهان داده‌ها دست یابد. بنابراین، بازنمونه‌گیری در بسیاری از تحلیل‌ها نه یک انتخاب، بلکه ضرورتی علمی است.

خطا در برآورد

از آنجایی که به جای استفاده از جامعه آماری، نمونه آماری به کار گرفته شده است، برآورد پارامتر جامعه با خطا همراه است. این خطا از دو دیدگاه بررسی می‌شود. «اُریبی» (Bias) و «خطای نمونه‌گیری» (Sampling Error).

اُریبی: این خطا به علت تمایل نمونه به یک سمت از جامعه آماری است. این میزان خطا نشان می‌دهد که به طور متوسط برآوردگر با مقدار واقعی چقدر تفاوت دارد.
خطای نمونه‌گیری: از آنجایی که نمونه به صورت تصادفی از جامعه آماری انتخاب شده است، با انتخاب نمونه دیگر نیز مقدار برای پارامتر جامعه با مقدار دیگری برآورد می‌شود. خطای نمونه‌گیری نشان می‌دهد که واریانس این برآوردگر چقدر است. یعنی اگر چندین بار نمونه‌گیری انجام شود، به طور متوسط پراکندگی این برآوردها چقدر خواهد بود.

در نتیجه باید شیوه نمونه‌گیری به شکلی باشد که این دو خطا در آن کمترین حالت خود را داشته باشند. بنابراین شیوه‌های نمونه‌گیری متنوعی مانند «نمونه‌گیری تصادفی ساده» (Simple Random Sampling)، «نمونه‌گیری سیستماتیک» (Systematic Random Sampling)، «نمونه‌گیری طبقه‌ای» (Stratified Random Sampling) و «نمونه‌گیری خوشه‌ای» (Clustering Sampling) بوجود آمده‌اند تا الگویی صحیح برای انتخاب اعضای نمونه آماری ارائه دهند.

روش‌های بازنمونه‌گیری

با استفاده از نمونه آماری، برآورد پارامتر جامعه امکان پذیر است. ولی این برآورد براساس یک نمونه تصادفی حاصل شده است و دقت آن اندازه‌گیری نشده. یک روش برای مشخص کردن دقت برآوردگر، بازنمونه‌گیری و برآورد پارامتر است.

سری تیلور
روش جک‌نایف
روش بوت‌استرپینگ

سری تیلور: اسکینر و رائو روش خطی سازی سری تیلور را پیش نهاد دادند. برای براورد واریانس اینگونه براوردگرها، روشهای مختلفی از جمله خطی سازی سری تیلور پیش نهاد شده است. استفاده از این روش مستلزم محاسبهی مشتقهای جزئی بوده و این محاسبات با افزایش تعداد چارچوبها پیچیدهتر می‌شود.

روش جک‌نایف: از یک نمونه با حجم n، چندین نمونه با استفاده از حذف یک به یک عناصر تولید شده و برآوردیابی انجام می‌شود. میانگین برآوردگرهای تولید شده می‌تواند به عنوان برآوردگر جدید معرفی شده و خطای آن محاسبه شود.

روش بوت‌استرپ: از یک نمونه با حجم n چندین نمونه با جایگذاری، تهیه می‌شود. از این نمونه‌ها به عنوان مجموعه «داده آموزشی» (Learning Data) استفاده شده و برآورد پارامتر جامعه انجام می‌شود. از مابقی اعضایی که در باز‌نمونه‌گیری به کار نرفته‌اند به عنوان مجموعه «داده‌های آزمایشی» (Test Data) استفاده می‌شود.

به این ترتیب چندین برآوردگر براساس هر نمونه تولید شده در روش بازنمونه‌گیری حاصل می‌شود و می‌توان واریانس یا دقت این برآوردگرها را محاسبه کرد. در حقیقت بازنمونه‌گیری روشی مقرون به صرفه با استفاده از یک نمونه، برای محاسبه دقت برآوردهای حاصل شده است. روش‌های بازنمونه‌گیری ساده بوده و احتیاج به محاسبات طولانی ندارند.

سخن پایانی

بازنمونه‌گیری به‌عنوان یکی از ابزارهای کلیدی در آمار مدرن، امکان تحلیل داده‌ها را حتی در شرایط محدودیت اطلاعات فراهم می‌کند. این روش با تکیه بر اصول محاسباتی و تکرارپذیری، پژوهشگران را قادر می‌سازد تا تصویری دقیق‌تر و واقع‌بینانه‌تر از عدم‌قطعیت و تغییرپذیری داده‌ها ترسیم کنند. از آنجا که بسیاری از پژوهش‌ها با چالش حجم کم داده، توزیع نامشخص یا نیاز به ارزیابی مدل‌ها مواجه‌اند، استفاده از بازنمونه‌گیری به‌صورت گسترده رو به افزایش است. به‌کارگیری صحیح این روش می‌تواند کیفیت تحلیل‌ها و استنتاج‌های آماری را ارتقا دهد و بستری مطمئن برای تصمیم‌گیری فراهم آورد. در نهایت، بازنمونه‌گیری نه صرفاً یک تکنیک آماری، بلکه رویکردی هوشمندانه برای بهره‌گیری مؤثرتر از داده‌ها در پژوهش‌های علمی و کاربردی به‌شمار می‌آید.

منبع: حبیبی، آرش. کتاب حداقل مربعات جزئی. تهران: نارون‌دانش.