بازنمونهگیری (Re-sampling) روشی آماری است که در آن برای کاهش اریبی برآورد از میان نمونههای موجود تعدادی نمونه جدید انتخاب میشود. این روش زمانی اهمیت حیاتی پیدا میکند که دادهها محدود، پرنویز یا نامتوازن باشند و تصمیمگیری بدون رویکردی علمی میتواند به نتایج نادرست بینجامد. نظر به اهمیت موضوع در این نوشتار، بازنمونهگیری مفهومسازی و تعریف خواهد شد.
مبانی نظری و تعریف بازنمونهگیری
بازنمونهگیری ریشه در نظریههای بنیادی آمار محاسباتی دارد؛ حوزهای که تلاش میکند با اتکا به قدرت محاسباتی، محدودیتهای نمونههای کوچک یا نامطمئن را کاهش دهد. در این رویکرد، بهجای اتکا به فرمولهای پیچیده و فرضیات سختگیرانه، از خود دادهها برای برآورد عدمقطعیت و واریانس استفاده میشود. این روش با ظهور رایانهها و امکان اجرای میلیونها تکرار نمونهگیری، جایگاه ویژهای در پژوهشهای کاربردی پیدا کرده است.
به زبان ساده اگر از یک جامعه به حجم N نمونهای به حجم n را انتخاب کرده باشید از میان همان نمونه n تعداد جدیدی به عنوان نمونه انتخاب میشوند.
در ادبیات علمی، بازنمونهگیری به مجموعهای از تکنیکها گفته میشود که دادههای موجود را بارها استخراج، تقسیم یا بازترکیب کرده و نتایج آماری را بر اساس توزیع تجربی حاصل از این نمونههای ساختهشده تحلیل میکنند.
بهطور معمول، روشهایی مانند Bootstrap، Jackknife و Cross-Validation از اصلیترین تکنیکهای این خانواده محسوب میشوند. مفهومسازی این روش بر این فرض استوار است که دادههای موجود حامل الگوهای کافی برای شبیهسازی رفتار جامعه آماری هستند. بنابراین، با تکرار فرآیند نمونهگیری و محاسبه تخمینها میتوان به درک عمیقتری از نوسانات آماری دست یافت.
کارکردهای بازنمونهگیری
اهمیت این رویکرد زمانی برجسته میشود که پژوهشگر با محدودیت داده یا عدم قطعیت بالا مواجه است. بازنمونهگیری کمک میکند تخمینهای آماری از حالت تئوریک فاصله گرفته و بر مبنای رفتار واقعی دادهها شکل گیرند. ضرورت استفاده از این روش در تحلیلهای امروزی ناشی از موارد زیر است:
- افزایش دقت برآورد پارامترهای آماری
- امکان اندازهگیری عدمقطعیت بدون نیاز به فرض توزیع مشخص
- کمک به جلوگیری از بیشبرازش در مدلهای یادگیری ماشین
- کاهش اتکا به نمونههای بزرگ و هزینهبر
- بهبود پایایی و روایی تحلیلهای تجربی
بهکارگیری این روش باعث میشود پژوهشگر بر پایه دادههای واقعی تصمیم بگیرد و به تصویری واقعگرایانهتر از تغییرپذیری و رفتار پنهان دادهها دست یابد. بنابراین، بازنمونهگیری در بسیاری از تحلیلها نه یک انتخاب، بلکه ضرورتی علمی است.
خطا در برآورد
از آنجایی که به جای استفاده از جامعه آماری، نمونه آماری به کار گرفته شده است، برآورد پارامتر جامعه با خطا همراه است. این خطا از دو دیدگاه بررسی میشود. «اُریبی» (Bias) و «خطای نمونهگیری» (Sampling Error).
- اُریبی: این خطا به علت تمایل نمونه به یک سمت از جامعه آماری است. این میزان خطا نشان میدهد که به طور متوسط برآوردگر با مقدار واقعی چقدر تفاوت دارد.
- خطای نمونهگیری: از آنجایی که نمونه به صورت تصادفی از جامعه آماری انتخاب شده است، با انتخاب نمونه دیگر نیز مقدار برای پارامتر جامعه با مقدار دیگری برآورد میشود. خطای نمونهگیری نشان میدهد که واریانس این برآوردگر چقدر است. یعنی اگر چندین بار نمونهگیری انجام شود، به طور متوسط پراکندگی این برآوردها چقدر خواهد بود.
در نتیجه باید شیوه نمونهگیری به شکلی باشد که این دو خطا در آن کمترین حالت خود را داشته باشند. بنابراین شیوههای نمونهگیری متنوعی مانند «نمونهگیری تصادفی ساده» (Simple Random Sampling)، «نمونهگیری سیستماتیک» (Systematic Random Sampling)، «نمونهگیری طبقهای» (Stratified Random Sampling) و «نمونهگیری خوشهای» (Clustering Sampling) بوجود آمدهاند تا الگویی صحیح برای انتخاب اعضای نمونه آماری ارائه دهند.
روشهای بازنمونهگیری
با استفاده از نمونه آماری، برآورد پارامتر جامعه امکان پذیر است. ولی این برآورد براساس یک نمونه تصادفی حاصل شده است و دقت آن اندازهگیری نشده. یک روش برای مشخص کردن دقت برآوردگر، بازنمونهگیری و برآورد پارامتر است.
- سری تیلور
- روش جکنایف
- روش بوتاسترپینگ
سری تیلور: اسکینر و رائو روش خطی سازی سری تیلور را پیش نهاد دادند. برای براورد واریانس اینگونه براوردگرها، روشهای مختلفی از جمله خطی سازی سری تیلور پیش نهاد شده است. استفاده از این روش مستلزم محاسبهی مشتقهای جزئی بوده و این محاسبات با افزایش تعداد چارچوبها پیچیدهتر میشود.
روش جکنایف: از یک نمونه با حجم n، چندین نمونه با استفاده از حذف یک به یک عناصر تولید شده و برآوردیابی انجام میشود. میانگین برآوردگرهای تولید شده میتواند به عنوان برآوردگر جدید معرفی شده و خطای آن محاسبه شود.
روش بوتاسترپ: از یک نمونه با حجم n چندین نمونه با جایگذاری، تهیه میشود. از این نمونهها به عنوان مجموعه «داده آموزشی» (Learning Data) استفاده شده و برآورد پارامتر جامعه انجام میشود. از مابقی اعضایی که در بازنمونهگیری به کار نرفتهاند به عنوان مجموعه «دادههای آزمایشی» (Test Data) استفاده میشود.
به این ترتیب چندین برآوردگر براساس هر نمونه تولید شده در روش بازنمونهگیری حاصل میشود و میتوان واریانس یا دقت این برآوردگرها را محاسبه کرد. در حقیقت بازنمونهگیری روشی مقرون به صرفه با استفاده از یک نمونه، برای محاسبه دقت برآوردهای حاصل شده است. روشهای بازنمونهگیری ساده بوده و احتیاج به محاسبات طولانی ندارند.
سخن پایانی
بازنمونهگیری بهعنوان یکی از ابزارهای کلیدی در آمار مدرن، امکان تحلیل دادهها را حتی در شرایط محدودیت اطلاعات فراهم میکند. این روش با تکیه بر اصول محاسباتی و تکرارپذیری، پژوهشگران را قادر میسازد تا تصویری دقیقتر و واقعبینانهتر از عدمقطعیت و تغییرپذیری دادهها ترسیم کنند. از آنجا که بسیاری از پژوهشها با چالش حجم کم داده، توزیع نامشخص یا نیاز به ارزیابی مدلها مواجهاند، استفاده از بازنمونهگیری بهصورت گسترده رو به افزایش است. بهکارگیری صحیح این روش میتواند کیفیت تحلیلها و استنتاجهای آماری را ارتقا دهد و بستری مطمئن برای تصمیمگیری فراهم آورد. در نهایت، بازنمونهگیری نه صرفاً یک تکنیک آماری، بلکه رویکردی هوشمندانه برای بهرهگیری مؤثرتر از دادهها در پژوهشهای علمی و کاربردی بهشمار میآید.
منبع: حبیبی، آرش. کتاب حداقل مربعات جزئی. تهران: ناروندانش.