دادهکاوی (دیتا ماینینگ)
دادهکاوی (Data mining) فرایند کشف الگوهای یک سری بزرگ از دادهها است که میتواند به شناخت و درک بهتری از دادهها منجر شود. از سیستمهای پایگاه داده، یادگیری ماشینی، الگوریتم ژنتیک، شبکههای عصبی مصنوعی و آمار برای این منظور استفاده میشود. دادهکاوی یکی از موضوعات پرکاربرد و در حال رشد در عرصه مدیریت، حسابداری و اقتصاد است. به مدد سیستمهای فناوری اطلاعات و نرمافزارهای مبتنی بر پایگاه داده، اکنون سازمانها توان ذخیره حجم انبوهی از دادهها را پیدا کردهاند. دادهکاوی فرایندی است که امکان استخراج اطلاعات معنادار از این پشته داده را فراهم میسازد. دادهکاوی روشی است که به کشف دانش مبتنی بر شناسائی خودکار الگوها و رابطهها میپردازد. یعنی به جای آنکه مدل سازی کنیم، مدلهای موجود را کشف نمائیم.
دادهکاوی یا دیتا ماینینگ یکی از روشهایی است که به وسیله آن الگوهای مفید در دادهها با حداقل دخالت کاربران شناخته میشوند. اطلاعاتی را در اختیار کاربران و تحلیل گران قرار میدهند تا براساس آنها تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند. در دادهکاوی از تحلیل اکتشافی دادهها استفاده میشود. در آن بر کشف اطلاعات نهفته و ناشناخته از درون انبوهی از دادهها تاکید میشود. وجود حجمی انبوه از دادهها پیشفرض دادهکاوی است. هر چه حجم دادهها بیشتر و روابط میان آنها پیچیده تر باشد دادهکاوی اهمیت بیشتری پیدا میکند.
تاریخچه دادهکاوی (دیتا ماینینگ)
تاریخچه دادهکاوی به سالها پیش باز میگردد. نخست در اوایل دهه ۳۰ میلادی از کشف دانش از پایگاه دادهها صحبت شد. پس از آن با پدید آمدن پایگاههای داده رابطهای این حوزه رشد کرد. پژوهشگران و صاحبان صنایع نیز به آن توجه بیشتری کردند. با رشد دادهها و عدم پاسخگویی مناسب و صحیح علم آمار، دیتاماینینگ پا به عرصه ظهرو گذاشت. در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیتهای «تحلیل داده» (Data Analytics) استفاده میکردند. اصطلاح «دادهکاوی» در حدود سال ۱۹۹۰ در جامعه پایگاهداده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسبتر برای فرآیند دادهکاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.
دادهکاوی فصل مشترک آمار، پایگاه داده و یادگیری ماشینی است. دیتاماینینگ مجموعهای از فنون است که به شخص امکان میدهد تا ورای داده پردازی معمولی حرکت کند و به استخراج اطلاعاتی که در انبوه دادهها مخفی و یا پنهان است کمک میکند. انگیزه برای گسترش دیتاماینینگ بطور عمده از دنیای تجارت در دهه ۱۹۹۰ پدید آمد. مثلا دادهکاوی در حوزه بازاریابی، بدلیل پیوستگی غیرقابل انتظاری که بین پروفایل یک مشتری و الگوی خرید او ایجاد میکند اهمیتی خاص دارد. تاریخچه دیتاماینینگ نشان میدهد این حوزه از دانش با رشد بالایی مواجه بوده است. همچنین به سرعت در حوزههای مختلفی از علوم وارد شده است.
گامهای دادهکاوی (دیتاماینینگ)
در بسیاری موارد از خوشهبندی به عنوان اولین گام فرایندهای دادهکاوی یاد میشود. خوشهبندی قبل از سایر فرایندها برای شناسایی گروهی از عناصر مشابه استفاده میشود. هدف از خوشه بندی تقسیم دادههای موجود به چندین گروه است. بطوریکه دادههای گروههای مختلف باید حداکثر تفاوت ممکن را به هم داشته باشند. دادههای موجود در یک گروه باید بسیار به هم شبیه باشند. روشهای متعددی برای خوشهبندی دادهها وجود دارد.
علاوه بر پیشرفت ابزارهای مدیریت داده، افزایش قابلیت دسترسی به داده و کاهش نرخ نگهداری داده نقش ایفا میکند. در طول چند سال گذشته افزایش سریع جمع آوری و نگه داری حجم اطلاعات وجود داشتهاست. با پیشنهادهای برخی از ناظران مبنی بر آنکه کمیت دادههای دنیا به طور تخمینی هر ساله دوبرابر میگردد. در همین زمان هزینه ذخیره سازی دادهها بطور قابل توجهی از دلار برای هر مگابایت به پنی برای مگابایت کاهش پیدا کردهاست. مطابقا قدرت محاسبهها در هر ۱۸ – ۲۴ ماه به دوبرابر ارتقاء پیدا کردهاست این در حالی است که هزینه قدرت محاسبه رو به کاهش است.
دادهکاوی به طور معمول در دو حوزه خصوصی و عمومی افزایش پیدا کردهاست. سازمانها از این شیوه به عنوان ابزاری برای بازدید اطلاعات مشتریان کاهش تقلب و اتلاف و کمک به تحقیقات پزشکی استفاده میکنند. با اینهمه ازدیاد دادهکاوی به طبع بعضی از پیاده سازی و پیامد اشتباه را هم دارد.اینها شامل نگرانیهایی در مورد کیفیت دادهای که تحلیل میگردد، توانایی کار گروهی پایگاههای داده و نرمافزارها بین ارگانها و تخطیهای بالقوه به حریم شخصی میباشد. همچنین ملاحظاتی در مورد محدودیتهایی در دادهکاوی در ارگانها که کارشان تاثیر بر امنیت دارد، نادیده گرفته میشود.
کاربردهای دادهکاوی
کاربردهای اساسی دادهکاوی عبارتند از:
هوش تجاری : انباره داده و دادهکاوی
ارزش حیات مشتری و شناسایی مشتریان سودآور
آموزش دادهکاوی با نرمافزار وکا
از مهمترین کاربردهای داده کاوی تحلیل و بررسی دادههای صنایعی است که تمرکز بسیار زیادی روی مصرفکننده یا مشتریان دارند. تمامی صنایع دنیا میتوانند از داده کاوی برای پیشبینی رفتار بازار و مصرفکننده و همچنین تاثیر سیاستگذاریهای گوناگون بر بهبود عملکرد خود کمک بگیرند. صنایع مهندسی، پزشکی، محیط زیست، حمل و نقل و … همه و همه میتوانند با استفاده از تکنیکهای متنوع داده کاوی همچون استفاده از درخت تصمیمگیری، شبکهی عصبی، تحلیل هوش مصنوعی و دستهبندی الگوها از مزایای این روش علمی بهرهمند شوند.
در حقیقت سازمان هایی که از داده کاوی برای تحلیل رقبا و بازار استفاده میکنند قادر به پیش بینی ترندهای روز خواهند بود. از این رو در برنامههای آینده شرکت هم جهت با خواسته عموم پیش رفته و قبل از سایر رقبا توجه مشتریان را به خود جلب میکنند. این مساله در زمینههای دیگر مانند علمی و سلامت، سیاسی و حتی در اقتصاد هم صدق میکند. دادهها در مسائلی مانند بررسی الگوهای شیوع ویروسها و اثرگذاری داروها، مشاهده بازخورد مردم در مقابل اقدامات سیاستمداران و حتی در تصمیمات بازار بورس نیز بسیار کاربرد دارند.
محدودیتهای دادهکاوی
در حالیکه محصولات دادهکاوی ابزارهای قدرتمندی میباشند، اما در نوع کاربردی کافی نیستند.برای کسب موفقیت، دادهکاوی نیازمند تحلیل گران حرفهای و متخصصان ماهری میباشد که بتوانند ترکیب خروجی بوجود آمده را تحلیل و تفسیر نمایند.در نتیجه محدودیتهای دادهکاوی مربوط به داده اولیه یا افراد است تا اینکه مربوط به تکنولوژی باشد. اگرچه دادهکاوی به الگوهای مشخص و روابط آنها کمک میکند، اما برای کاربر اهمیت و ارزش این الگوها را بیان نمیکند.تصمیماتی از این قبیل بر عهده خود کاربر است.
برای نمونه در ارزیابی صحت دادهکاوی، برنامه کاربردی در تشخیص مظنونان تروریست طراحی شده که ممکن است این مدل به کمک اطلاعات موجود در مورد تروریستهای شناخته شده، آزمایش شود.با اینهمه در حالیکه ممکن است اطلاعات شخص بطور معین دوباره تصدیق گردد، که این مورد به این منظور نیست که برنامه مظنونی را که رفتارش به طور خاص از مدل اصلی منحرف شده را تشخیص بدهد. تشخیص رابطه بین رفتارها و یا متغیرها یکی دیگر از محدودیتهای دادهکاوی میباشد که لزوماًروابط اتفاقی را تشخیص نمیدهد.
خلاصه و جمعبندی
به مجموعهای از روشهای قابل اعمال بر پایگاه دادههای بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان دادهها، دادهکاوی گفته میشود. روشهای دیتا ماینینگ تقریبا همیشه به لحاظ محاسباتی پر هزینه هستند. علم میانرشتهای دیتا ماینینگ، پیرامون ابزارها، متدولوژیها و تئوریهایی است که برای آشکارسازی الگوهای موجود در دادهها مورد استفاده قرار میگیرند و گامی اساسی در راستای کشف دانش محسوب میشود. دلایل گوناگونی پیرامون چرایی مبدل شدن دادهکاوی به چنین حوزه مهمی از مطالعات وجود دارد. برخی از این موارد در ادامه بیان شدهاند.
با رشد و افزایش توجهات به دادهکاوی، پرسش «چرا دادهکاوی؟» همواره مطرح میشود. در پاسخ به این پرسش باید گفت، دیتا ماینینگ دارای کاربردهای زیادی است. بدین ترتیب، زمینهای جوان و آیندهدار برای نسل کنونی محسوب میشود. این زمینه توانسته توجهات زیادی را به صنایع و جوامع اطلاعاتی جلب کند. با وجود گستره وسیع دادهها، نیاز حتمی به تبدیل چنین دادههایی به اطلاعات و دانش وجود دارد. بنابراین، بشر از اطلاعات و دانش برای گستره وسیعی از کاربردها، از تحلیل بازار گرفته تا تشخیص بیماریها، کشف کلاهبرداری و پیشبینی قیمت سهام استفاده میکند. در مجموع باید گفت، ضربالمثل انگلیسی «نیاز، مادر همه ابداعات بشر است»، پاسخی کوتاه و گویا به این پرسش است.
منبع: حبیبی، آرش؛ سرآبادانی، مونا. (۱۴۰۱). آموزش کاربردی SPSS. تهران: نارون.
روش تحقیق | ۱۱ فروردین ۹۳