داده‌کاوی (دیتا ماینینگ)

داده‌کاوی (Data mining) فرایند کشف الگوهای یک سری بزرگ از داده‌ها است که می‌تواند به شناخت و درک بهتری از داده‌ها منجر شود. این رویکرد، ابزاری تحلیلی برای پیش‌بینی، بخش‌بندی، طبقه‌بندی و پشتیبانی از تصمیم‌گیری مبتنی بر داده جایگاهی راهبردی دارد. در این مقاله مفاهیم پایه، مراحل اجرای داده‌کاوی، مهم‌ترین فنون تحلیلی و کاربردهای آن در مسائل مدیریتی بررسی خواهد شد.

تعریف داده‌کاوی

داده‌کاوی فرایندی نظام‌مند برای کشف الگوها، روابط و دانش پنهان در مجموعه‌داده‌های بزرگ با بهره‌گیری از روش‌های آماری و یادگیری ماشین است. از سیستم‌های پایگاه داده، یادگیری ماشینی، الگوریتم ژنتیک، شبکه‌های عصبی مصنوعی و آمار برای این منظور استفاده می‌شود.

داده‌کاوی فرایندی است که امکان استخراج اطلاعات معنادار از این پشته داده را فراهم می‌سازد. داده‌کاوی روشی است که به کشف دانش مبتنی بر شناسائی خودکار الگوها و رابطه‌ها می‌پردازد. یعنی به جای آنکه مدل سازی کنیم، مدل‌های موجود را کشف نمائیم.

داده‌کاوی یا دیتا ماینینگ یکی از روش‌هایی است که به وسیله آن الگوهای مفید در داده‌ها با حداقل دخالت کاربران شناخته می‌شوند. اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می‌دهند تا براساس آنها تصمیمات مهم و حیاتی در سازمان‌ها اتخاذ شوند.

تاریخچه داده‌کاوی (دیتا ماینینگ)

تاریخچه داده‌کاوی به سال‌ها پیش باز می‌گردد. نخست در اوایل دهه ۳۰ میلادی از کشف دانش از پایگاه داده‌ها صحبت شد. پس از آن با پدید آمدن پایگاه‌های داده رابطه‌ای این حوزه رشد کرد. پژوهشگران و صاحبان صنایع نیز به آن توجه بیشتری کردند. با رشد داده‌ها و عدم پاسخگویی مناسب و صحیح علم آمار، دیتاماینینگ پا به عرصه ظهور گذاشت.

در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیت‌های «تحلیل داده» (Data Analytics) استفاده می‌کردند.

اصطلاح «داده‌کاوی» در حدود سال ۱۹۹۰ در جامعه پایگاه‌داده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسب‌تر برای فرآیند داده‌کاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.

اکنون روش‌های گوناگونی برای خوشه‌بندی داده‌ها مورد استفاده قرار می‌گیرد و کاربرد بسیاری در مدیریت دارد. روش کریسپ و خوشه‌بندی کی‌میانگین، ابزاری ساده و کارآمد برای کشف ساختارهای نهفته در داده‌های چندمتغیره فراهم می‌سازد.

گام‌های داده‌کاوی (دیتاماینینگ)

در بسیاری موارد از خوشه‌بندی به عنوان اولین گام فرایندهای داده‌کاوی یاد می‌شود. خوشه‌بندی قبل از سایر فرایند‌ها برای شناسایی گروهی از عناصر مشابه استفاده می‌شود. هدف از خوشه بندی تقسیم داده‌های موجود به چندین گروه است. بطوریکه داده‌های گروه‌های مختلف باید حداکثر تفاوت ممکن را به هم داشته باشند. داده‌های موجود در یک گروه باید بسیار به هم شبیه باشند. روش‌های متعددی برای خوشه‌بندی داده‌ها وجود دارد.

ابعاد داده‌کاوی

ابعاد داده‌کاوی (آمار، پایگاه داده و یادگیری ماشینی)

علاوه بر پیشرفت ابزارهای مدیریت داده، افزایش قابلیت دسترسی به داده و کاهش نرخ نگهداری داده نقش ایفا می‌کند. در طول چند سال گذشته افزایش سریع جمع آوری و نگه داری حجم اطلاعات وجود داشته‌است. با پیشنهادهای برخی از ناظران مبنی بر آنکه کمیت داده‌های دنیا به طور تخمینی هر ساله دوبرابر می‌گردد. در همین زمان هزینه ذخیره سازی داده‌ها بطور قابل توجهی از دلار برای هر مگابایت به پنی برای مگابایت کاهش پیدا کرده‌است. مطابقا قدرت محاسبه‌ها در هر ۱۸ – ۲۴ ماه به دوبرابر ارتقاء پیدا کرده‌است این در حالی است که هزینه قدرت محاسبه رو به کاهش است.

داده‌کاوی به طور معمول در دو حوزه خصوصی و عمومی افزایش پیدا کرده‌است. سازمان‌ها از این شیوه به عنوان ابزاری برای بازدید اطلاعات مشتریان کاهش تقلب و اتلاف و کمک به تحقیقات پزشکی استفاده می‌کنند. با اینهمه ازدیاد داده‌کاوی به طبع بعضی از پیاده سازی و پیامد اشتباه را هم دارد.اینها شامل نگرانی‌هایی در مورد کیفیت داده‌ای که تحلیل می‌گردد، توانایی کار گروهی پایگاههای داده و نرم‌افزارها بین ارگان‌ها و تخطی‌های بالقوه به حریم شخصی می‌باشد. همچنین ملاحظاتی در مورد محدودیت‌هایی در داده‌کاوی در ارگان‌ها که کارشان تاثیر بر امنیت دارد، نادیده گرفته می‌شود.

دیتاماینینگ در مدیریت

دیتا ماینینگ یکی از موضوعات پرکاربرد و در حال رشد در عرصه مدیریت، حسابداری و اقتصاد است. به مدد سیستم‌های فناوری اطلاعات و نرم‌افزارهای مبتنی بر پایگاه داده، اکنون سازمان‌ها توان ذخیره حجم انبوهی از داده‌ها را پیدا کرده‌اند.

در داده‌کاوی از تحلیل اکتشافی داده‌ها استفاده می‌شود. در آن بر کشف اطلاعات نهفته و ناشناخته از درون انبوهی از داده‌ها تاکید می‌شود. وجود حجمی انبوه از داده‌ها پیش‌فرض داده‌کاوی است. هر چه حجم داده‌ها بیشتر و روابط میان آنها پیچیده تر باشد داده‌کاوی اهمیت بیشتری پیدا می‌کند.

داده‌کاوی فصل مشترک آمار، پایگاه داده و یادگیری ماشینی است. دیتاماینینگ مجموعه‌ای از فنون است که به شخص امکان می‌دهد تا ورای داده پردازی معمولی حرکت کند و به استخراج اطلاعاتی که در انبوه داده‌ها مخفی و یا پنهان است کمک می‌کند.

انگیزه برای گسترش دیتاماینینگ بطور عمده از دنیای تجارت در دهه ۱۹۹۰ پدید آمد. مثلا داده‌کاوی در حوزه بازاریابی، بدلیل پیوستگی غیرقابل انتظاری که بین پروفایل یک مشتری و الگوی خرید او ایجاد میکند اهمیتی خاص دارد. تاریخچه دیتاماینینگ نشان می‌دهد این حوزه از دانش با رشد بالایی مواجه بوده است. همچنین به سرعت در حوزه‌های مختلفی از علوم وارد شده است.

کاربردهای داده‌کاوی

کاربردهای اساسی داده‌کاوی عبارتند از:

آموزش داده‌کاوی با نرم‌افزار وکا

از مهمترین کاربردهای داده کاوی تحلیل و بررسی داده‌های صنایعی است که تمرکز بسیار زیادی روی مصرف‌کننده یا مشتریان دارند. تمامی صنایع دنیا می‌توانند از داده کاوی برای پیش‌بینی رفتار بازار و مصرف‌کننده و همچنین تاثیر سیاست‌گذاری‌های گوناگون بر بهبود عملکرد خود کمک بگیرند. صنایع مهندسی، پزشکی، محیط زیست، حمل و نقل و … همه و همه می‌توانند با استفاده از تکنیک‌های متنوع داده کاوی‌ همچون استفاده از درخت تصمیم‌گیری، شبکه‌ی عصبی، تحلیل هوش مصنوعی و دسته‌بندی الگوها از مزایای این روش علمی بهره‌مند شوند.

در حقیقت سازمان هایی که از داده کاوی برای تحلیل رقبا و بازار استفاده می‌کنند قادر به پیش بینی ترندهای روز خواهند بود. از این رو در برنامه‌های آینده شرکت هم جهت با خواسته عموم پیش رفته و قبل از سایر رقبا توجه مشتریان را به خود جلب می‌کنند. این مسئله در زمینه‌های دیگر مانند علمی و سلامت، سیاسی و حتی در اقتصاد هم صدق می‌کند. داده‌ها در مسائلی مانند بررسی الگوهای شیوع ویروس‌ها و اثرگذاری داروها، مشاهده بازخورد مردم در مقابل اقدامات سیاستمداران و حتی در تصمیمات بازار بورس نیز بسیار کاربرد دارند.

محدودیت‌های داده‌کاوی

در حالیکه محصولات داده‌کاوی ابزارهای قدرتمندی می‌باشند، اما در نوع کاربردی کافی نیستند.برای کسب موفقیت، داده‌کاوی نیازمند تحلیل گران حرفه‌ای و متخصصان ماهری می‌باشد که بتوانند ترکیب خروجی بوجود آمده را تحلیل و تفسیر نمایند.

در نتیجه محدودیتهای داده‌کاوی مربوط به داده اولیه یا افراد است تا اینکه مربوط به تکنولوژی باشد. اگرچه داده‌کاوی به الگوهای مشخص و روابط آنها کمک می‌کند، اما برای کاربر اهمیت و ارزش این الگوها را بیان نمی‌کند. تصمیماتی از این قبیل بر عهده خود کاربر است.

برای نمونه در ارزیابی صحت داده‌کاوی، برنامه کاربردی در تشخیص مظنونان تروریست طراحی شده که ممکن است این مدل به کمک اطلاعات موجود در مورد تروریستهای شناخته شده، آزمایش شود.

با این‌همه در حالیکه ممکن است اطلاعات شخص بطور معین دوباره تصدیق گردد، که این مورد به این منظور نیست که برنامه مظنونی را که رفتارش به طور خاص از مدل اصلی منحرف شده را تشخیص بدهد. تشخیص رابطه بین رفتارها و یا متغیرها یکی دیگر از محدودیتهای داده‌کاوی می‌باشد که لزوماًروابط اتفاقی را تشخیص نمی‌دهد.

سخن پایانی

داده‌کاوی به مجموعه‌ای از روش‌های تحلیلی اطلاق می‌شود که برای کشف الگوهای پنهان و معنادار در پایگاه‌های داده بزرگ و پیچیده به‌کار می‌روند و نقشی بنیادین در فرایند کشف دانش ایفا می‌کنند. این حوزه میان‌رشته‌ای با تکیه بر ابزارها، روش‌ها و چارچوب‌های نظری گوناگون، امکان تبدیل داده‌های انبوه به اطلاعات قابل استفاده را فراهم می‌سازد، هرچند اجرای آن اغلب مستلزم هزینه‌های محاسباتی قابل توجه است. گسترش حجم داده‌ها در سازمان‌ها و جوامع اطلاعاتی سبب شده است داده‌کاوی به یکی از عرصه‌های مهم و آینده‌دار پژوهش و کاربرد بدل شود و در حوزه‌هایی مانند تحلیل بازار، تشخیص بیماری، کشف تقلب و پیش‌بینی روندها مورد استفاده قرار گیرد.

منبع: حبیبی، آرش؛ سرآبادانی، مونا. (۱۴۰۱). آموزش کاربردی SPSS. تهران: نارون.