داده کاوی یا دیتا ماینینگ

داده کاوی یا دیتا ماینینگ چیست؟

داده کاوی Data mining فرایند کشف الگوهای یک سری بزرگ از داده‌ها است که می‌تواند به شناخت و درک بهتری از داده‌ها منجر شود. از سیستم‌های پایگاه داده، یادگیری ماشینی، الگوریتم ژنتیک، شبکه‌های عصبی مصنوعی و آمار برای این منظور استفاده می‌شود. داده‌کاوی یکی از موضوعات پرکاربرد و در حال رشد در عرصه مدیریت، حسابداری و اقتصاد است. به مدد سیستم‌های فناوری اطلاعات و نرم‌افزارهای مبتنی بر پایگاه داده، اکنون سازمان‌ها توان ذخیره حجم انبوهی از داده‌ها را پیدا کرده‌اند. داده‌کاوی فرایندی است که امکان استخراج اطلاعات معنادار از این پشته داده را فراهم می‌سازد. داده‌کاوی روشی است که به کشف دانش مبتنی بر شناسائی خودکار الگوها و رابطه‌ها می‌پردازد. یعنی به جای آنکه مدل سازی کنیم، مدل‌های موجود را کشف نمائیم.

داده کاوی یا دیتا ماینینگ یکی از روشهایی است که به وسیله آن الگوهای مفید در داده‌ها با حداقل دخالت کاربران شناخته می‌شوند. اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می‌دهند تا براساس آنها تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند. در داده کاوی از تحلیل اکتشافی داده‌ها استفاده می‌شود. در آن بر کشف اطلاعات نهفته و ناشناخته از درون انبوهی از داده‌ها تاکید می‌شود. وجود حجمی انبوه از داده‌ها پیش‌فرض داده‌کاوی است. هر چه حجم داده‌ها بیشتر و روابط میان آنها پیچیده تر باشد داده‌کاوی اهمیت بیشتری پیدا می‌کند.

تاریخچه داده‌کاوی

تاریخچه داده‌کاوی به سال‌ها پیش باز می گردد. نخست در اوایل دهه ۳۰ میلادی از کشف دانش از پایگاه داده ها صحبت شد. پس از آن با پدید آمدن پایگاه‌های داده رابطه‌ای این حوزه رشد کرد. پژوهشگران و صاحبان صنایع نیز به آن توجه بیشتری کردند. با رشد داده‌ها و عدم پاسخگویی مناسب و صحیح علم آمار، دیتاماینینگ پا به عرصه ظهرو گذاشت. در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات «صید داده» (Data Fishing) و «لایروبی داده» (Data Dredging) برای ارجاع به فعالیت‌های «تحلیل داده» (Data Analytics) استفاده می‌کردند. اصطلاح «داده‌کاوی» در حدود سال ۱۹۹۰ در جامعه پایگاه‌داده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسب‌تر برای فرآیند داده‌کاوی، «کشف دانش از داده» (Knowledge Discovery From Data) است.

ابعاد داده‌کاوی

ابعاد داده‌کاوی (آمار، پایگاه داده و یادگیری ماشینی)

داده کاوی فصل مشترک آمار، پایگاه داده و یادگیری ماشینی است. دیتاماینینگ مجموعه‌ای از فنون است که به شخص امکان میدهد تا ورای داده پردازی معمولی حرکت کند و به استخراج اطلاعاتی که در انبوه داده ها مخفی و یا پنهان است کمک می کند. انگیزه برای گسترش دیتاماینینگ بطور عمده از دنیای تجارت در دهه ۱۹۹۰ پدید آمد. مثلا داده کاوی در حوزه بازاریابی، بدلیل پیوستگی غیرقابل انتظاری که بین پروفایل یک مشتری و الگوی خرید او ایجاد میکند اهمیتی خاص دارد. تاریخچه دیتاماینینگ نشان می‌دهد این حوزه از دانش با رشد بالایی مواجه بوده است. همچنین به سرعت در حوزه‌های مختلفی از علوم وارد شده است.

گام های داده کاوی یا دیتاماینینگ

در بسیاری موارد از خوشه‌بندی به عنوان اولین گام فرایندهای داده کاوی یاد می‌شود. خوشه‌بندی قبل از سایر فرایند‌ها برای شناسایی گروهی از عناصر مشابه استفاده می‌شود. هدف از خوشه بندی تقسیم داده‌های موجود به چندین گروه است. بطوریکه داده‌های گروه‌های مختلف باید حداکثر تفاوت ممکن را به هم داشته باشند. داده‌های موجود در یک گروه باید بسیار به هم شبیه باشند. روش‌های متعددی برای خوشه‌بندی داده‌ها وجود دارد.

علاوه بر پیشرفت ابزارهای مدیریت داده، افزایش قابلیت دسترسی به داده و کاهش نرخ نگهداری داده نقش ایفا می‌کند. در طول چند سال گذشته افزایش سریع جمع آوری و نگه داری حجم اطلاعات وجود داشته‌است. با پیشنهادهای برخی از ناظران مبنی بر آنکه کمیت داده‌های دنیا به طور تخمینی هر ساله دوبرابر می‌گردد. در همین زمان هزینه ذخیره سازی داده‌ها بطور قابل توجهی از دلار برای هر مگابایت به پنی برای مگابایت کاهش پیدا کرده‌است. مطابقا قدرت محاسبه‌ها در هر ۱۸ – ۲۴ ماه به دوبرابر ارتقاء پیدا کرده‌است این در حالی است که هزینه قدرت محاسبه رو به کاهش است.

داده کاوی به طور معمول در دو حوزه خصوصی و عمومی افزایش پیدا کرده‌است. سازمان‌ها از این شیوه به عنوان ابزاری برای بازدید اطلاعات مشتریان کاهش تقلب و اتلاف و کمک به تحقیقات پزشکی استفاده می‌کنند. با اینهمه ازدیاد داده کاوی به طبع بعضی از پیاده سازی و پیامد اشتباه را هم دارد.اینها شامل نگرانی‌هایی در مورد کیفیت داده‌ای که تحلیل می‌گردد، توانایی کار گروهی پایگاههای داده و نرم‌افزارها بین ارگانها و تخطی‌های بالقوه به حریم شخصی می‌باشد. همچنین ملاحظاتی در مورد محدودیت‌هایی در داده کاوی در ارگان‌ها که کارشان تاثیر بر امنیت دارد، نادیده گرفته می‌شود.

کاربردهای اساسی داده کاوی

هوش تجاری : انباره داده و داده کاوی

ارزش حیات مشتری و شناسایی مشتریان سودآور

آموزش داده کاوی با نرم افزار وکا

محدودیت‌های داده کاوی

در حالیکه محصولات داده کاوی ابزارهای قدرتمندی می‌باشند، اما در نوع کاربردی کافی نیستند.برای کسب موفقیت، داده کاوی نیازمند تحلیل گران حرفه‌ای و متخصصان ماهری می‌باشد که بتوانند ترکیب خروجی بوجود آمده را تحلیل و تفسیر نمایند.در نتیجه محدودیتهای داده کاوی مربوط به داده اولیه یا افراد است تا اینکه مربوط به تکنولوژی باشد. اگرچه داده کاوی به الگوهای مشخص و روابط آنها کمک می‌کند، اما برای کاربر اهمیت و ارزش این الگوها را بیان نمی‌کند.تصمیماتی از این قبیل بر عهده خود کاربر است.

برای نمونه در ارزیابی صحت داده کاوی، برنامه کاربردی در تشخیص مظنونان تروریست طراحی شده که ممکن است این مدل به کمک اطلاعات موجود در مورد تروریستهای شناخته شده، آزمایش شود.با اینهمه در حالیکه ممکن است اطلاعات شخص بطور معین دوباره تصدیق گردد، که این مورد به این منظور نیست که برنامه مظنونی را که رفتارش به طور خاص از مدل اصلی منحرف شده را تشخیص بدهد. تشخیص رابطه بین رفتارها و یا متغیرها یکی دیگر از محدودیتهای داده کاوی می‌باشد که لزوماًروابط اتفاقی را تشخیص نمی‌دهد.

خلاصه و جمع‌بندی

به مجموعه‌ای از روش‌های قابل اعمال بر پایگاه داده‌های بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان داده‌ها، داده‌کاوی گفته می‌شود. روش‌های داده‌کاوی تقریبا همیشه به لحاظ محاسباتی پر هزینه هستند. علم میان‌رشته‌ای داده‌کاوی، پیرامون ابزارها، متدولوژی‌ها و تئوری‌هایی است که برای آشکارسازی الگوهای موجود در داده‌ها مورد استفاده قرار می‌گیرند و گامی اساسی در راستای کشف دانش محسوب می‌شود. دلایل گوناگونی پیرامون چرایی مبدل شدن داده‌کاوی به چنین حوزه مهمی از مطالعات وجود دارد. برخی از این موارد در ادامه بیان شده‌اند.

با رشد و افزایش توجهات به داده‌کاوی، پرسش «چرا داده‌کاوی؟» همواره مطرح می‌شود. در پاسخ به این پرسش باید گفت، داده‌کاوی دارای کاربردهای زیادی است. بدین ترتیب، زمینه‌ای جوان و آینده‌دار برای نسل کنونی محسوب می‌شود. این زمینه توانسته توجهات زیادی را به صنایع و جوامع اطلاعاتی جلب کند. با وجود گستره وسیع داده‌ها، نیاز حتمی به تبدیل چنین داده‌هایی به اطلاعات و دانش وجود دارد. بنابراین، بشر از اطلاعات و دانش برای گستره وسیعی از کاربردها، از تحلیل بازار گرفته تا تشخیص بیماری‌ها، کشف کلاهبرداری و پیش‌بینی قیمت سهام استفاده می‌کند. در مجموع باید گفت، ضر‌ب‌المثل انگلیسی «نیاز، مادر همه ابداعات بشر است»، پاسخی کوتاه و گویا به پرسش مطرح شده است. در ادامه، برخی از استفاده‌های داده‌کاوی مورد بررسی قرار گرفته‌اند.

منبع : داده کاوی یا دیتا ماینینگ نوشته آرش حبیبی کتاب آموزش SPSS