دادهکاوی (Data mining) فرایند کشف الگوهای یک سری بزرگ از دادهها است که میتواند به شناخت و درک بهتری از دادهها منجر شود. این رویکرد، ابزاری تحلیلی برای پیشبینی، بخشبندی، طبقهبندی و پشتیبانی از تصمیمگیری مبتنی بر داده جایگاهی راهبردی دارد. در این مقاله مفاهیم پایه، مراحل اجرای دادهکاوی، مهمترین فنون تحلیلی و کاربردهای آن در مسائل مدیریتی بررسی خواهد شد.
تعریف دادهکاوی
دادهکاوی فرایندی نظاممند برای کشف الگوها، روابط و دانش پنهان در مجموعهدادههای بزرگ با بهرهگیری از روشهای آماری و یادگیری ماشین است. از سیستمهای پایگاه داده، یادگیری ماشینی، الگوریتم ژنتیک، شبکههای عصبی مصنوعی و آمار برای این منظور استفاده میشود.
دادهکاوی فرایندی است که امکان استخراج اطلاعات معنادار از این پشته داده را فراهم میسازد. دادهکاوی روشی است که به کشف دانش مبتنی بر شناسائی خودکار الگوها و رابطهها میپردازد. یعنی به جای آنکه مدل سازی کنیم، مدلهای موجود را کشف نمائیم.
دادهکاوی یا دیتا ماینینگ یکی از روشهایی است که به وسیله آن الگوهای مفید در دادهها با حداقل دخالت کاربران شناخته میشوند. اطلاعاتی را در اختیار کاربران و تحلیل گران قرار میدهند تا براساس آنها تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند.
تاریخچه دادهکاوی (دیتا ماینینگ)
تاریخچه دادهکاوی به سالها پیش باز میگردد. نخست در اوایل دهه ۳۰ میلادی از کشف دانش از پایگاه دادهها صحبت شد. پس از آن با پدید آمدن پایگاههای داده رابطهای این حوزه رشد کرد. پژوهشگران و صاحبان صنایع نیز به آن توجه بیشتری کردند. با رشد دادهها و عدم پاسخگویی مناسب و صحیح علم آمار، دیتاماینینگ پا به عرصه ظهور گذاشت.
در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیتهای «تحلیل داده» (Data Analytics) استفاده میکردند.
اصطلاح «دادهکاوی» در حدود سال ۱۹۹۰ در جامعه پایگاهداده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسبتر برای فرآیند دادهکاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.
اکنون روشهای گوناگونی برای خوشهبندی دادهها مورد استفاده قرار میگیرد و کاربرد بسیاری در مدیریت دارد. روش کریسپ و خوشهبندی کیمیانگین، ابزاری ساده و کارآمد برای کشف ساختارهای نهفته در دادههای چندمتغیره فراهم میسازد.
گامهای دادهکاوی (دیتاماینینگ)
در بسیاری موارد از خوشهبندی به عنوان اولین گام فرایندهای دادهکاوی یاد میشود. خوشهبندی قبل از سایر فرایندها برای شناسایی گروهی از عناصر مشابه استفاده میشود. هدف از خوشه بندی تقسیم دادههای موجود به چندین گروه است. بطوریکه دادههای گروههای مختلف باید حداکثر تفاوت ممکن را به هم داشته باشند. دادههای موجود در یک گروه باید بسیار به هم شبیه باشند. روشهای متعددی برای خوشهبندی دادهها وجود دارد.

ابعاد دادهکاوی (آمار، پایگاه داده و یادگیری ماشینی)
علاوه بر پیشرفت ابزارهای مدیریت داده، افزایش قابلیت دسترسی به داده و کاهش نرخ نگهداری داده نقش ایفا میکند. در طول چند سال گذشته افزایش سریع جمع آوری و نگه داری حجم اطلاعات وجود داشتهاست. با پیشنهادهای برخی از ناظران مبنی بر آنکه کمیت دادههای دنیا به طور تخمینی هر ساله دوبرابر میگردد. در همین زمان هزینه ذخیره سازی دادهها بطور قابل توجهی از دلار برای هر مگابایت به پنی برای مگابایت کاهش پیدا کردهاست. مطابقا قدرت محاسبهها در هر ۱۸ – ۲۴ ماه به دوبرابر ارتقاء پیدا کردهاست این در حالی است که هزینه قدرت محاسبه رو به کاهش است.
دادهکاوی به طور معمول در دو حوزه خصوصی و عمومی افزایش پیدا کردهاست. سازمانها از این شیوه به عنوان ابزاری برای بازدید اطلاعات مشتریان کاهش تقلب و اتلاف و کمک به تحقیقات پزشکی استفاده میکنند. با اینهمه ازدیاد دادهکاوی به طبع بعضی از پیاده سازی و پیامد اشتباه را هم دارد.اینها شامل نگرانیهایی در مورد کیفیت دادهای که تحلیل میگردد، توانایی کار گروهی پایگاههای داده و نرمافزارها بین ارگانها و تخطیهای بالقوه به حریم شخصی میباشد. همچنین ملاحظاتی در مورد محدودیتهایی در دادهکاوی در ارگانها که کارشان تاثیر بر امنیت دارد، نادیده گرفته میشود.
دیتاماینینگ در مدیریت
دیتا ماینینگ یکی از موضوعات پرکاربرد و در حال رشد در عرصه مدیریت، حسابداری و اقتصاد است. به مدد سیستمهای فناوری اطلاعات و نرمافزارهای مبتنی بر پایگاه داده، اکنون سازمانها توان ذخیره حجم انبوهی از دادهها را پیدا کردهاند.
در دادهکاوی از تحلیل اکتشافی دادهها استفاده میشود. در آن بر کشف اطلاعات نهفته و ناشناخته از درون انبوهی از دادهها تاکید میشود. وجود حجمی انبوه از دادهها پیشفرض دادهکاوی است. هر چه حجم دادهها بیشتر و روابط میان آنها پیچیده تر باشد دادهکاوی اهمیت بیشتری پیدا میکند.
دادهکاوی فصل مشترک آمار، پایگاه داده و یادگیری ماشینی است. دیتاماینینگ مجموعهای از فنون است که به شخص امکان میدهد تا ورای داده پردازی معمولی حرکت کند و به استخراج اطلاعاتی که در انبوه دادهها مخفی و یا پنهان است کمک میکند.
انگیزه برای گسترش دیتاماینینگ بطور عمده از دنیای تجارت در دهه ۱۹۹۰ پدید آمد. مثلا دادهکاوی در حوزه بازاریابی، بدلیل پیوستگی غیرقابل انتظاری که بین پروفایل یک مشتری و الگوی خرید او ایجاد میکند اهمیتی خاص دارد. تاریخچه دیتاماینینگ نشان میدهد این حوزه از دانش با رشد بالایی مواجه بوده است. همچنین به سرعت در حوزههای مختلفی از علوم وارد شده است.
کاربردهای دادهکاوی
کاربردهای اساسی دادهکاوی عبارتند از:
آموزش دادهکاوی با نرمافزار وکا
از مهمترین کاربردهای داده کاوی تحلیل و بررسی دادههای صنایعی است که تمرکز بسیار زیادی روی مصرفکننده یا مشتریان دارند. تمامی صنایع دنیا میتوانند از داده کاوی برای پیشبینی رفتار بازار و مصرفکننده و همچنین تاثیر سیاستگذاریهای گوناگون بر بهبود عملکرد خود کمک بگیرند. صنایع مهندسی، پزشکی، محیط زیست، حمل و نقل و … همه و همه میتوانند با استفاده از تکنیکهای متنوع داده کاوی همچون استفاده از درخت تصمیمگیری، شبکهی عصبی، تحلیل هوش مصنوعی و دستهبندی الگوها از مزایای این روش علمی بهرهمند شوند.
در حقیقت سازمان هایی که از داده کاوی برای تحلیل رقبا و بازار استفاده میکنند قادر به پیش بینی ترندهای روز خواهند بود. از این رو در برنامههای آینده شرکت هم جهت با خواسته عموم پیش رفته و قبل از سایر رقبا توجه مشتریان را به خود جلب میکنند. این مسئله در زمینههای دیگر مانند علمی و سلامت، سیاسی و حتی در اقتصاد هم صدق میکند. دادهها در مسائلی مانند بررسی الگوهای شیوع ویروسها و اثرگذاری داروها، مشاهده بازخورد مردم در مقابل اقدامات سیاستمداران و حتی در تصمیمات بازار بورس نیز بسیار کاربرد دارند.
محدودیتهای دادهکاوی
در حالیکه محصولات دادهکاوی ابزارهای قدرتمندی میباشند، اما در نوع کاربردی کافی نیستند.برای کسب موفقیت، دادهکاوی نیازمند تحلیل گران حرفهای و متخصصان ماهری میباشد که بتوانند ترکیب خروجی بوجود آمده را تحلیل و تفسیر نمایند.
در نتیجه محدودیتهای دادهکاوی مربوط به داده اولیه یا افراد است تا اینکه مربوط به تکنولوژی باشد. اگرچه دادهکاوی به الگوهای مشخص و روابط آنها کمک میکند، اما برای کاربر اهمیت و ارزش این الگوها را بیان نمیکند. تصمیماتی از این قبیل بر عهده خود کاربر است.
برای نمونه در ارزیابی صحت دادهکاوی، برنامه کاربردی در تشخیص مظنونان تروریست طراحی شده که ممکن است این مدل به کمک اطلاعات موجود در مورد تروریستهای شناخته شده، آزمایش شود.
با اینهمه در حالیکه ممکن است اطلاعات شخص بطور معین دوباره تصدیق گردد، که این مورد به این منظور نیست که برنامه مظنونی را که رفتارش به طور خاص از مدل اصلی منحرف شده را تشخیص بدهد. تشخیص رابطه بین رفتارها و یا متغیرها یکی دیگر از محدودیتهای دادهکاوی میباشد که لزوماًروابط اتفاقی را تشخیص نمیدهد.
سخن پایانی
دادهکاوی به مجموعهای از روشهای تحلیلی اطلاق میشود که برای کشف الگوهای پنهان و معنادار در پایگاههای داده بزرگ و پیچیده بهکار میروند و نقشی بنیادین در فرایند کشف دانش ایفا میکنند. این حوزه میانرشتهای با تکیه بر ابزارها، روشها و چارچوبهای نظری گوناگون، امکان تبدیل دادههای انبوه به اطلاعات قابل استفاده را فراهم میسازد، هرچند اجرای آن اغلب مستلزم هزینههای محاسباتی قابل توجه است. گسترش حجم دادهها در سازمانها و جوامع اطلاعاتی سبب شده است دادهکاوی به یکی از عرصههای مهم و آیندهدار پژوهش و کاربرد بدل شود و در حوزههایی مانند تحلیل بازار، تشخیص بیماری، کشف تقلب و پیشبینی روندها مورد استفاده قرار گیرد.
منبع: حبیبی، آرش؛ سرآبادانی، مونا. (۱۴۰۱). آموزش کاربردی SPSS. تهران: نارون.