انباره داده

انباره داده (data warehouse) سیستمی کامپیوتری است که برای گزارشگیری و تحلیل دادهها استفاده شده و هسته مرکزی هوش تجاری میباشد. با رشد استفاده از سیستم پردازش تراکنش TPS در سازمان نیاز به سیستمی برای گزارشگیری الزامی گردید.
بهویژه با بوجود آمدن جزایر فناوری، امکان تهیه گزارشات ترکیبی از اطلاعات سیستمهای مختلف و انجام پرس و جوها را مشکل و یا غیرممکن مینمود. منظور از جزایر فناوری سیستمهایی است که بصورت جدا از هم فعالیت میکردند. به این ترتیب حرکت به سمت ستفاده از سیستم اطلاعات مدیریت و سیستم گزارشگیری مدیریت آغاز شد. اما مشکل آنجا بود که این سیستمها به شدت به TPSها وابسته بودند و دادههاشان اغلب یکی بود. از اینرو مدل جدیدی از تفکر به انباره تحلیلی داده ایجاد شد.
انبارهسازی داده فرآیندی است که طی آن دادههای جدا از هم موجود در منابع متعدد دادهای در سازمان که با ابزار و فرمتهای مختلف ذخیرهسازی شدهاند. این دادهها بهصورت یکپارچه و در یک قالب گردهم جمعآوری میگردند. از ویژگیهای انباره تحلیلی داده که باعث برتری آن نسبت به پایگاههای داده شده است، استفاده از مدلهای چند بعدی داده است. این ویژگی مخزن داده، ضمن تسریع در روند تهیه گزارشات، امکان تهیه گزارشات سطح بالا، راهبردی و چندبعدی را برای سازمان فراهم مینماید. میتوان از انباره تحلیلی داده با این ویژگیها در دادهکاوی (Data Mining) نیز استفاده نمود. در ایم مقاله انباره داده تشریح و مفهومسازی میشود.
اهمیت انباره داده و مزایای آن برای سازمان
انبارههای تحلیلی داده در اواخر دهه ۱۹۸۰ و اوایل دهد ۱۹۹۰ بعنوان نوع متمایزی از پایگاههای داده مطرح شدند. کثرت منابع دادهای در سازمانها منجر به استفاده از ابزارها، روشها و قالبهای مختلف در ذخیرهسازی دادهها شده است. این امر سازماندهی دادههای مختلف به منظور تولید اطلاعات و دانش را، دچار مشکل اساسی کرده است. ناهمگونی و تکرار در ذخیرهسازی اطلاعات، یکپارچهنبودن اطلاعات، عدم وجود تاریخچه دادهای و نبود دادههای خلاصهبندی شده از جمله مشکلات پایگاههای داده سازمان میباشند. بالا بودن حجم اطلاعات در سازمانهای بزرگ که منجر به توسعه سیستمهای اطلاعاتی متعدد و جزیرهای شده است. بنابراین شرکتها به دنبال راهکاری برای حل این مشکلات بودهاند. انباره داده میتواند این مشکلات را تا حد زیادی رفع نماید. مزایای کلی استفاده از انباره تحلیلی داده عبارتند از:
- بهرهمندی از یک منبع یکپارچه و منسجم از دادهها
- ارتقای سطح کیفی تصمیمات راهبردی براساس گزارشهای یکپارچه
- ایجاد مزیت رقابتی پایدار برای سازمان و افزایش شانس موفقیت در رقابتهای تجاری
- ارتقای سطح کارایی و اثربخشی فعالیتهای سطوح تاکتیکی و راهبردی سازمان
- برقراری ارتباط قویتر با سایر اجزای موجود در زنجیره تامین سازمان از جمله مشتریان و فروشندگان
علاوه بر انباره تحلیلی داده، سیستمهای هوشمندی کسبوکار نیز یکی از مهمترین فناوریهای نوین اطلاعاتی هستند. هوش تجاری در استفاده از دادهها به منظور تولید اطلاعات و دانش مورد استفاده قرار میگیرد. از این دانش جهت ارتقای سطح کیفیت تصمیم استفاده میشود.
انواع انباره داده
انبارههای تحلیلی داده به چهارگروه اصلی تقسیم بندی شدند:
پایگاههای داده رابطهای برونخطی : در سادهترین سطح، یک انبارهداده با کپی کردن اطلاعات یک پایگاهداده رابطهای به یک سرور برونخطی ایجاد میشود. بدین ترتیب، بار گزارشگیری بر روی کارائی سیستم رابطهای اثر منفی نخواهد داشت.
انبارههای داده برونخطی : در این حالت انبارهداده در یک دوره زمانی ثابت (بصورت روزانه، هفتگی یا ماهانه) از روی سیستمهای رابطهای منبع بهروز شده و دادههای مربوطه بر روی یک ساختمان داده گزارش گرا ذخیره میشوند.
انبارههای داده بلادرنگ : این نوع انبارههای داده بر اساس یک تراکنش یا رویداد عمل میکنند. بدین ترتیب که هربار که سیستم رابطهای تراکنشی (مثل عملیات سفارش یا رزرو) را صورت میدهد، انبارهداده به روز میگردد.
انبارههای داده مجتمع : در این حالت انباره داده فعالیتها یا تراکنشهایی را ایجاد میکند که جهت استفاده روزانه سازمان به سیستمهای رابطهای برگردانده میشوند.
طبق تعریفی که در سال ۱۹۹۲ توسط Bill Inmon برای انباره تحلیلی داده آورده شده است : یک انباره تحلیلی داده مجموعهای موضوع گرا، یکپارچه، متغیر با زمان و بدون تغییرحالت ناگهانی از داده هاست که در فرآیند تصمیمگیری مدیریت را یاری میکند. این چهار خاصیت اصلی، انباره داده را از دیگر مخازن نگهداری دادهها متمایز میکند.
دلایل نیاز سازمانها به انباره داده
امروزه اکتسابات و ادغامات سبب تولید سیستمهای کامپیوتری گوناگونی در شرکتهای بزرگ شدهاند. به عنوان مثال، بانکهای بزرگ، غالبا چند نوع سیستم برای انجام کارهای مشابه دارند. خودکارسازی تمام قسمتهای یک تجارت به صورت ادغام نشده و یکپارچه نشده با تعداد مختلفی سیستم که هرکدام گوشهای از کار را دربر میگیرند، اجرا میشود. انعطاف پذیری در زمینه بازار سبب به وجود آمدن محصولات بسیاری شده است، و در واقع تولید انبوه بهتنهایی مد نظر نمیباشد، بلکه سفارشگیری انبوه و سپس بازاریابی هدف واقعی است. روند کار به سوی جمعآوری و استفاده از اطلاعات میباشد. به خصوص دانش در رابطه با مشتریان، محصولات، بازار و رقیبان، و به طور کلی دادههای موجود درون سیستمهای عملیاتی کم هزینهترین راه جمعآوری دانش در مورد مشتریان میباشد.
بنابراین دلایل استفاده از انباره داده را میتوان در موارد زیر خلاصه نمود:
- مشکلات محیطهای قدیمی
- سطح عملیاتی مختلف
- نمایش دادهای مختلف
- اطلاعات ذخیره شده ناسازگار و ناهمگن و دو بار ذخیره شده
- یکپارچه نبودن اطلاعات در سیستمها
- کمبود تاریخچه داده ای
- نبود داده خلاصه بندی شده
نیاز مدیران امروز به انباره داده عبارت است از:
- از دید اطلاعاتی بتوانند تصویر واضح و کاملی نسبت به کار و تجارت خود داشته باشند.
- دادههای یکپارچه در سطح کارکردی داشته باشند.
- تاریخچه دادهای مختصر و با جزئیات کافی داشته باشند.
- نهایتا برای رفع مشکلات مذکور و بر آوردن نیازهای مدیران در تصمیم گیریها ایده انباره داده مطرح گردید.
فرآیند پیادهسازی این پروژه در یک سازمان
معماری انباره تحلیلی داده از سه لایه تشکیل شده است. برای پیادهسازی یک انباره داده باید هریک از این لایهها به درستی پیادهسازی شوند.
در اولین لایه این معماری، سرویس دهنده انباره تحلیلی دادهای است که یک سیستم پایگاه داده رابطهای میباشد. این لایه دادههای مورد نیاز خود را از دادههای عملیاتی و منا بع خارجی و فایلهای مسطح و غیره برای ایجاد انباره داده استخراج میکند.
در لایه میانی یک سرویس دهنده پردازش تحلیلی برخط میباشد که بوسیله آن میتوان مکعبهای چند بعدی ساخت. پردازش تحلیلی برخط یک ابزار قدرتمند، سریع و مناسب برای گزارشگیری میباشد.
در آخرین لایه ما ابزارهای گزارشگیری و تحلیل و دادهکاوی را داریم.
اخذ داده از منابع مربوطه (پایگاه داده منبع) انجام میگردد. این مرحله بخش استخراج اطلاعات (Extract) از سری عملیات ETL است. برای انجام عملیات اخذ داده، باید منبع اخذ داده، نحوه اخذ داده، فرمت دادههای اخذ شده و مقاطع زمانی اخذ دادهها، همچنین نحوه دسترسی به این دادهها معلوم و مشخص باشد. بهرهگیری از انبارههای تحلیلی داده دارای مزایای بسیاری است. از جمله مزیتهای آن عبارتند از:
- بالابردن امکان دسترسی کاربران به حجم زیادی از دادهها
- امکان ارائه گزارشهای خاص سیستمهای تصمیم یار
- تقویت برنامههای کاربردی تجاری مثل مدیریت ارتباط با مشتری
- بهتر کردن کیفیت تصمیم گیری
- افزایش شانس موفقیت در رقابتهای تجاری
- رقراری ارتباط قویتر با مشتریان
- بهتر کردن سطح عملیاتی
- بهتر کردن رابطه فروشندگان و مشتریان
امروزه موسسات غالبا دارای دو نوع بانک اطلاعاتی مستقل هستند. یکی از این بانکها حاوی دادههای عملیاتی و بانک دیگر انباره داده میباشد که حاوی دادههای مبتنی برتصمیمگیری است.
بررسی و پاکسازی دادهها
این مرحله بخش تغییر شکل (Transform) از عملیات ETL است. بررسی و پاکسازی دادههای استخراج شده جهت ورود به انباره تحلیلی داده در این مرحله انجام میگیرد. پس از بررسی جداول موجود، فیلدهای موجود در جداول و محتویات فیلدهای مذکور، کلیه مشکلات دادهای در قالب لیستی ارائه میگردند. سپس عملیات پاکسازی برای آنها انجام میگیرد. این عملیات غالبا در زمره یکی از موارد زیر هستند:
- حذف مقادیر null
- هم مقدار سازی فیلدهای مشابه از نظر معنا
- ایجاد فیلدهای کمی جدید قابل بدست آمدن از روی دادههای جدول و مورد نیاز
- یکی کردن دادهها از منابع مختلف
- خلاصه سازی سطرهای هم معنی و عامل ایجاد افزونگی
- ایجاد کلید جانشین برای جداول
- تبدیل چند ستون به چند سطر یا بالعکس Pivoting
- تقسیم یک ستون جدول به چند ستون
طراحی انباره تحلیلی داده موضوعی
کاربران مختلف با نیازهای متفاوتی وجود دارند که میتوانند از دادههای درون انباره استفاده کنند. برآوردن نیازهای تمام کاربران به وسیله یک سیستم مرکزی همیشه امکان پذیر نیست. از طرفی یک سیستم مرکزی، متمرکز بر روی داده و سیستم میباشد. کاربر نهایی ممکن است که بخواهد کنترل بیشتری روی محیط اطلاعاتی خود داشته باشد. راه حل این مشکلات مرکز دادهای است، که به آن انباره دادهای سازمانی نیز گفته میشود. مرکزداده ای، انباره داده خاصی است که دادههای مورد نیاز برای یک بخش از سازمان یا کاربرهای مرتبط به آن را جمع آوری میکند. طراحی مراکز دادهای مربوطه بنا به دو شکل میباشد:
طرح ستارهای: عمومیترین نمونه برای مدلسازی مدل چند بعدی، طرح ستاره است. در این طرح انباره داده شامل یک جدول بزرگ مرکزی به نام جدول حقایق و یک سری جدول کوچکتر به نام جدول بعد یا جدول بعد که وابسته به جدول حقایق هستند میباشد.
طرح دانه برفی: این طرح، تغییریافته طرح ستارهای است بطوریکه بعضی از جداول بعد، نرمال شدهاند. تفاوت اصلی بین طرح ستارهای و طرح دانه برفی این است که جدول بعد در طرح دانهبرفی به فرم نرمال نگهداری میشود تا میزان افزونگی کاهش پیدا کند.
طرح منظومه حقایق: هنگامی که نیاز به چندین جدول حقایق وجود دارد که دارای جداول بعدهای مشترک هستند، طرحی ایجاد میشود که به آن طرح کهکشان یا منــظومه حقایق میگویند. یک طرح منظومه حقایق به جداول ابعاد اجازه میدهد که بین جداول حقایق مشترک باشند.
سخن پایانی
عملیات پردازش تحلیلی برخط بر انبارهدادههای موضوعی اعمال میگردد. بسیاری فکر میکنند که دادهکاوی و OLAP دو چیز مشابه هستند در این بخش سعی میکنیم این مسئله را بررسی کنیم و همانطور که خواهیم دید این دو ابزارهای کاملا متفاوت میباشند که میتوانند همدیگر را تکمیل کنند. OLAP جزیی از تکنیکهای تصمیمگیری میباشد.
سیستمهای سنتی گزارشگیری و پایگاه دادهای آنچه را که در پایگاه داده بود توضیح میدادند حال آنکه در OLAP هدف بررسی دلیل صحت یک فرضیه است.بدین معنی که کاربر فرضیهای در مورد دادهها و روابط بین آنها ارائه میکند و سپس به وسیله ابزار OLAP با انجام چند Query صحت آن فرضیه را بررسی میکند. اما این روش برای هنگامی که دادهها بسیار حجیم بوده و تعداد پارامترها زیاد باشد نمیتواند مفید باشد چون حدس روابط بین دادهها کار سخت و بررسی صحت آن بسیار زمانبر خواهد بود.
تفاوت دادهکاوی با OLAP در این است که دادهکاوی برخلاف OLAP برای بررسی صحت یک الگوی فرضی استفاده نمی شود بلکه خود سعی میکند این الگوها را کشف کند. درنتیجه دادهکاوی و OLAP میتوانند همدیگر را تکمیل کنند و تحلیل گر میتواند به وسیله ابزار OLAP یک سری اطلاعات کسب کند که در مرحله دادهکاوی میتواند مفید باشد و همچنین الگوها و روابط کشف شده در مرحله دادهکاوی میتواند درست نباشد که با اعمال تغییرات در آنها میتوان به وسیله OLAP بیشتر بررسی شوند.
منبع: اقتباس از مقاله معرفی هوشمندی کسبوکار و انباره داده تحلیلی نوشته انوشیروان اخوان

نگارنده: پشتیبانی پارسمدیر | مدیریت فناوری اطلاعات | 08 آذر 93