خوشه‌بندی داده‌ها

روش کریسپ CRISP الگوی فرایندمحور داده‌کاوی است که راهکاری کاربردی و نظام‌مند برای خوشه‌بندی داده‌ها ارائه می‌کند. کریسپ سرواژه عبارت Cross-industry standard process for data mining می‌باشد. خوشه‌بندی را می‌توان به عنوان مهمترین مسئله در یادگیری بدون نظارت در نظر گرفت. خوشه‌بندی با یافتن یک ساختار درون یک مجموعه از داده‌های بدون برچسب درگیر است. خوشه‌ Cluster به مجموعه‌ای از داده‌ها گفته می‌شود که به هم شباهت داشته باشند.

در خوشه‌بندی سعی می‌شود تا داده ها به خوشه‌هایی تقسیم شوند که شباهت بین داده‌های درون هر خوشه حداکثر و شباهت بین داده‌های درون خوشه‌های متفاوت حداقل شود. در طبقه‌بندی هر داده به یک طبقه (کلاس) از پیشین مشخص شده تخصیص می‌یابد ولی در خوشه‌بندی هیچ اطلاعی از کلاس های موجود درون داده‌ها وجود ندارد و به عبارتی خود خوشه‌ها نیز از داده‌ها استخراج می‌شوند. در شکل زیر تفاوت بین خوشه‌بندی و طبقه‌بندی بهتر نشان داده شده است. خوشه بندی از مباحث اساسی در داده کاوی است. در این مقاله کوشش شده است تا روش کریسپ CRISP به عنوان یک الگوی استاندارد داده‌کاوی تشریح شود.

انواع روش‌های خوشه بندی داده‌ها

روش‌های خوشه‌بندی را می‌توان از چندین جنبه تقسیم‌بندی کرد:

در روش خوشه‌بندی انحصاری پس از خوشه‌بندی هر داده دقیقأ به یک خوشه تعلق می‌گیرد مانند روش خوشه‌بندی کامینز K-Means . ولی در خوشه‌بندی با همپوشی پس از خوشه‌بندی به هر داده یک درجه تعلق بازاء هر خوشه نسبت داده می‌شود. به عبارتی یک داده می‌تواند با نسبتهای متفاوتی به چندین خوشه تعلق داشته باشد. نمونه‌ای از آن خوشه‌بندی فازی است.

در روش خوشه بندی سلسله مراتبی، به خوشه‌های نهایی بر اساس میزان عمومیت آنها ساختاری سلسله‌ مراتبی نسبت داده می‌شود. مانند روش Single Link. ولی در خوشه‌بندی مسطح تمامی خوشه‌های نهایی دارای یک میزان عمومیت هستند مانند K-Means. به ساختار سلسله مراتبی حاصل از روشهای خوشه‌بندی سلسله مراتبی دندوگرام (Dendogram) گفته می‌شود. با توجه با اینکه روش‌های خوشه‌بندی سلسله مراتبی اطلاعات بیشتر و دقیق‌تری تولید می‌کنند برای تحلیل داده‌های با جزئیات پیشنهاد می‌شوند ولی از طرفی چون پیچیدگی محاسباتی بالایی دارند برای مجموعه داده‌های بزرگ روش‌های خوشه‌بندی مسطح پیشنهاد می‌شوند.

روش‌شناسی کریسپ CRISP

یکی از الگوهای خوشه‌بندی داده‌ها، روش کریسپ CRISP است که الگوریتم آن در زیر ارائه شده است:

الگوریتم اجرایی روش کریسپ CRISP

الگوریتم اجرایی روش کریسپ CRISP

روش کریسپ CRISP مخفف CRoss Industry Standard Process for Data Mining فرایندهای استاندارد صنعت متقابل برای داده کاوی است. در واقع روش‌های تحلیل متفاوتی برای اجرای پروژه‌های داده کاوی وجود دارد. روش تحلیل CRISP یا «فرایندهای استاندارد صنعت متقابل برای داده کاوی» یکی از روش‌های منطف و پرکاربرد در این زمینه است.

روش‌های خوشه‌بندی نمی‌توانند تمام نیاز یک مسئله را به‌طور موازی و همزمان برطرف کنند. در داده‌های بزرگ به دلیل وجود مشکل پیچیدگی زمانی، الگوریتم قابل اجرا برای هر داده‌ای نیست. همچنین در داده‌هایی که دارای ویژگی‌های زیادی هستند امکان بروز نتایج با تفسیرهای مختلف وجود دارد.

مراحل روش کریسپ CRISP

کریسپ یک مدل فرایندی است که در شش مرحله برای سازماندهی کردن نتایج استفاده می‌کند.

فهم تجاری: این مرحله شامل گردآوری الزامات و مصاحبه با مدیران ارشد و خبرگان برای تعیین اهدافی بالاتر از کار با داده‌ها می‌شود.

درک داده: مرحله درک داده شامل نگاه نزدیک‌تر به دردسترس بودن داده برای داده کاوی می‌شود. این مرحله شامل گردآوری داده‌های اولیه، توصیف داده، کشف داده، و تغییر کیفیت داده می‌شود.

آماده سازی داده: آماده سازی داده یکی از مهم ترین و اغلب زمان برترین جوانب پروژه‌های داده کاوی است و شامل انتخاب داده ، پاک سازی داده، ساختاربندی داده جدید، و ادغام داده  می‌شود.

مدل سازی: داده‌ای که زمان صرف کرده برای مهیا شدن , آماده است تا الگوریتم‌های داده کاوی را بیاورد، و نتایج شروع می‌کند به نشان دادن راه حل هایی برای مشکل تجاری مطرح شده. تکنیک‌های انتخاب مدل سازی، ایجاد یک طراحی آزمون ، ساختن مدل‌ها ، و ارزیابی مدل این مرحله را  می‌سازد.

ارزیابی: در این مرحله، ارزیابی نتایج، فرایند بازبینی، و تعیین مراحل بعدی انجام شده است.

توسعه: توسعه فرایند استفاده از ادراکات جدید برای ایجاد بهبود در سازمان است.

محدودیت‌ها و بحث

روش کریسپ CRISP فرآیند استاندارد صنعتی متقاطع برای داده‌کاوی یا به صورت مصطلح کریسپ، یک مدل فرآیندی استاندارد باز است که رویکردهای عمومی متخصصان داده‌کاوی را تشریح می‌کند، این روش‌شناسی پرکاربردترین مدل تحلیلی می‌باشد. کریسپ یک مدل فرآیند داده‌کاوی است که راهبردهای معمولی که توسط داده‌کاوان خبره برای غلبه بر مشکلات داده‌کاوی استفاده می‌شود را شرح می‌دهد. این متدولوژی در سال ۲۰۱۵ میلادی توسط شرکت آی‌بی‌ام به نام روش متحد شده راهبردهای تحلیلی برای داده‌کاوی یا آسوم ASUM تغییر نام داد.

متأسفانه چندین مسئاله در خصوص روش‌های خوشه‌بندی مطرح است که هنوز به شکل کامل پاسخ داده نشده‌اند. و همچنان تلاش‌های بسیاری به منظور حل آنها انجام می‌گیرد. روش‌های خوشه‌بندی قادر نیستند تمامی نیازهای مسائل را به طور هم‌زمان برآورده‌کنند. به دلیل پیچیدگی‌ محاسباتی زیاد در برخورد با مجموعه داده‌های بزرگ با تعداد داده ‌زیاد و تعداد ویژگی‌های زیاد برای هر داده عملی نیستند. به دلیل وابستگی‌ شدید به تعریف معیار شباهت بین داده‌ها در مسائلی که تعریف معیار شباهت مشکل باشد نتایج مطلوبی تولید نمی‌کنند. در نهایت برای نتایج آنها می‌توان تفسیرهای مختلفی بیان کرد.

منبع : خوشه‌بندی داده‌ها نوشته آرش حبیبی کتاب آموزش SPSS