انباره داده

انباره داده data warehouse چیست؟

انباره داده data warehouse سیستمی کامپیوتری است که برای گزارش‌گیری و تحلیل داده‌ها استفاده شده و هسته مرکزی هوش تجاری می‌باشد. با رشد استفاده از سیستم پردازش تراکنش TPS در سازمان نیاز به سیستمی برای گزارش‌گیری الزامی گردید. به‌ویژه با بوجود آمدن جزایر فناوری، امکان تهیه گزارشات ترکیبی از اطلاعات سیستم‌های مختلف و انجام پرس و جوها را مشکل و یا غیرممکن می‌نمود. منظور از جزایر فناوری سیستم‌هایی است که بصورت جدا از هم فعالیت می‌کردند. به این ترتیب حرکت به سمت ستفاده از سیستم اطلاعات مدیریت و سیستم گزارش‌گیری مدیریت آغاز شد. اما مشکل آنجا بود که این سیستم‌ها به شدت به TPSها وابسته بودند و داده‌هاشان اغلب یکی بود. از این‌رو مدل جدیدی از تفکر به انباره تحلیلی ‌داده ایجاد شد.

انباره‌سازی داده فرآیندی است که طی آن داده‌های جدا از هم موجود در منابع متعدد داده‌ای در سازمان که با ابزار و فرمت‌های مختلف ذخیره‌سازی شده‌اند. این داده‌ها به‌صورت یکپارچه و در یک قالب گردهم جمع‌آوری می‌گردند. از ویژگی‌های انباره تحلیلی داده که باعث برتری آن نسبت به پایگاه‌های داده شده است، استفاده از مدل‌های چند بعدی داده است. این ویژگی مخزن داده، ضمن تسریع در روند تهیه گزارشات، امکان تهیه گزارشات سطح بالا، راهبردی و چندبعدی را برای سازمان فراهم می‌نماید. می‌توان از انباره تحلیلی داده با این ویژگی‌ها در داده‌کاوی (Data Mining) نیز استفاده نمود. در ایم مقاله انباره داده تشریح و مفهوم‌سازی می‌شود.

اهمیت انباره داده و مزایای آن برای سازمان

انباره‌های‌ تحلیلی داده در اواخر دهه ۱۹۸۰ و اوایل دهد ۱۹۹۰ بعنوان نوع متمایزی از پایگاه‌های داده مطرح شدند. کثرت منابع داده‌ای در سازمان‌ها‌ منجر به استفاده از ابزارها، روش‌ها و قالب‌های مختلف در ذخیره‌سازی داده‌ها شده است. این امر سازمان‌دهی داده‌های مختلف به منظور تولید اطلاعات و دانش را، دچار مشکل اساسی کرده است. ناهمگونی و تکرار در ذخیره‌سازی اطلاعات، یکپارچه‌نبودن اطلاعات، عدم وجود تاریخچه داده‌ای و نبود داده‌های خلاصه‌بندی شده از جمله مشکلات پایگاه‌های داده سازمان می‌باشند. بالا بودن حجم اطلاعات در سازمان‌های بزرگ که منجر به توسعه سیستم‌های اطلاعاتی متعدد و جزیره‌ای شده است. بنابراین شرکت‌ها به دنبال راهکاری برای حل این مشکلات بوده‌اند. انباره داده می‌تواند این مشکلات را تا حد زیادی رفع نماید. مزایای کلی استفاده از انباره تحلیلی داده عبارتند از:

  • بهره‌مندی از یک منبع یکپارچه و منسجم از داده‌ها
  • ارتقای سطح کیفی تصمیمات راهبردی براساس گزارش‌های یکپارچه
  • ایجاد مزیت رقابتی پایدار برای سازمان و افزایش شانس موفقیت در رقابت‌های تجاری
  • ارتقای سطح کارایی و اثربخشی فعالیت‌های سطوح تاکتیکی و راهبردی سازمان
  • برقراری ارتباط قویتر با سایر اجزای موجود در زنجیره تامین سازمان از جمله مشتریان و فروشندگان

علاوه بر انباره تحلیلی داده، سیستم‌های هوشمندی کسب و کار نیز یکی از مهمترین فناوری‌های نوین اطلاعاتی هستند. هوش تجاری در استفاده از داده‌ها به منظور تولید اطلاعات و دانش مورد استفاده قرار می‌گیرد. از این دانش جهت ارتقای سطح کیفیت تصمیم استفاده می‌شود.

انواع انباره داده

انباره‌های تحلیلی داده به چهارگروه اصلی تقسیم بندی شدند:

پایگاه‌های داده رابطه‌ای برون‌خطی : در ساده‌ترین سطح، یک انباره‌داده با کپی کردن اطلاعات یک پایگاه‌داده رابطه‌ای به یک سرور برون‌خطی ایجاد می‌شود. بدین ترتیب، بار گزارش‌گیری بر روی کارائی سیستم رابطه‌ای اثر منفی نخواهد داشت.

انباره‌های داده برون‌خطی : در این حالت انباره‌داده در یک دوره زمانی ثابت (بصورت روزانه، هفتگی یا ماهانه) از روی سیستم‌های رابطه‌ای منبع به‌روز شده و داده‌های مربوطه بر روی یک ساختمان داده گزارش گرا ذخیره می‌شوند.

انباره‌های داده بلادرنگ : این نوع انباره‌های داده بر اساس یک تراکنش یا رویداد عمل می‌کنند. بدین ترتیب که هربار که سیستم رابطه‌ای تراکنشی (مثل عملیات سفارش یا رزرو) را صورت می‌دهد، انباره‌داده به روز می‌گردد.

انباره‌های داده مجتمع : در این حالت انباره داده فعالیت‌ها یا تراکنش‌هایی را ایجاد می‌کند که جهت استفاده روزانه سازمان به سیستم‌های رابطه‌ای برگردانده می‌شوند.

طبق تعریفی که در سال ۱۹۹۲ توسط Bill Inmon برای انباره تحلیلی داده آورده شده است : یک انباره تحلیلی داده مجموعه‌ای موضوع گرا ، یکپارچه ، متغیر با زمان و بدون تغییرحالت ناگهانی از داده هاست که در فرآیند تصمیم گیری مدیریت را یاری می کند. این چهار خاصیت اصلی، انباره داده را از دیگر مخازن نگهداری داده ها متمایز می کند.

دلایل نیاز سازمان‌ها به انباره داده

امروزه اکتسابات و ادغامات سبب تولید سیستم‎های کامپیوتری گوناگونی در شرکتهای بزرگ شده‎اند. به عنوان مثال، بانکهای بزرگ، غالبا چند نوع سیستم برای انجام کارهای مشابه دارند. خودکارسازی تمام قسمتهای یک تجارت به صورت ادغام نشده و یکپارچه نشده با تعداد مختلفی سیستم که هرکدام گوشه‎ای از کار را دربر می‎گیرند، اجرا می‎شود. انعطاف پذیری در زمینه بازار سبب به وجود آمدن محصولات بسیاری شده است، و در واقع تولید انبوه به‎تنهایی مد نظر نمی‎باشد، بلکه سفارش‌گیری انبوه و سپس بازاریابی هدف واقعی است. روند کار به سوی جمع‎آوری و استفاده از اطلاعات می‎باشد. به خصوص دانش در رابطه با مشتریان، محصولات، بازار و رقیبان، و به طور کلی داده‎های موجود درون سیستم‎های عملیاتی کم هزینه‎ترین راه جمع‎‎آوری دانش در مورد مشتریان می‎باشد.

بنابراین دلایل استفاده از انباره داده را می توان در موارد زیر خلاصه نمود:

  • مشکلات محیط‌های قدیمی
  • سطح عملیاتی مختلف
  • نمایش داده ای مختلف
  • اطلاعات ذخیره شده ناسازگار و ناهمگن و دو بار ذخیره شده
  • یکپارچه نبودن اطلاعات در سیستم‌ها
  • کمبود تاریخچه داده ای
  • نبود داده خلاصه بندی شده

نیاز مدیران امروز به انباره داده عبارت است از:

  • از دید اطلاعاتی بتوانند تصویر واضح و کاملی نسبت به کار و تجارت خود داشته باشند.
  • داده های یکپارچه در سطح کارکردی داشته باشند.
  • تاریخچه داده ای مختصر و با جزئیات کافی داشته باشند.
  • نهایتا برای رفع مشکلات مذکور و بر آوردن نیازهای مدیران در تصمیم گیریها ایده انباره داده مطرح گردید.

فرآیند پیاده‌سازی این پروژه در یک سازمان

معماری انباره تحلیلی داده از سه لایه تشکیل شده است. برای پیاده‌سازی یک انباره داده باید هریک از این لایه‌ها به درستی پیاده‌سازی شوند.

در اولین لایه این معماری، سرویس دهنده انباره تحلیلی داده‌ای است که یک سیستم پایگاه داده رابطه‌ای می باشد. این لایه داده های مورد نیاز خود را از داده های عملیاتی و منا بع خارجی و فایلهای مسطح و غیره برای ایجاد انباره داده استخراج می کند.

در لایه میانی یک سرویس دهنده پردازش تحلیلی برخط می‌باشد که بوسیله آن می‌توان مکعب های چند بعدی ساخت. پردازش تحلیلی برخط یک ابزار قدرتمند، سریع و مناسب برای گزارشگیری می‌باشد.

در آخرین لایه ما ابزارهای گزارش گیری و تحلیل و داده کاوی را داریم.

اخذ داده از منابع مربوطه (پایگاه داده منبع) انجام می‌گردد. این مرحله بخش استخراج اطلاعات (Extract) از سری عملیات ETL است. برای انجام عملیات اخذ داده، باید منبع اخذ داده، نحوه اخذ داده، فرمت داده‌های اخذ شده و مقاطع زمانی اخذ داده‌ها، همچنین نحوه دسترسی به این داده‌ها معلوم و مشخص باشد. بهره‌گیری از انباره‌های تحلیلی داده دارای مزایای بسیاری است. از جمله مزیت‌های آن عبارتند از:

  • بالابردن امکان دسترسی کاربران به حجم زیادی از داده‌ها
  • امکان ارائه گزارش‌های خاص سیستم‌های تصمیم یار
  • تقویت برنامه‌های کاربردی تجاری مثل مدیریت ارتباط با مشتری
  • بهتر کردن کیفیت تصمیم گیری
  • افزایش شانس موفقیت در رقابت‌های تجاری
  • رقراری ارتباط قویتر با مشتریان
  • بهتر کردن سطح عملیاتی
  • بهتر کردن رابطه فروشندگان و مشتریان

امروزه موسسات غالبا دارای دو نوع بانک اطلاعاتی مستقل هستند. یکی از این بانک‌ها حاوی داده های عملیاتی و بانک دیگر انباره داده می باشد که حاوی داده‌های مبتنی برتصمیم‌گیری است.

بررسی و پاکسازی داده ها

این مرحله بخش تغییر شکل (Transform) از عملیات ETL است. بررسی و پاکسازی داده های استخراج شده جهت ورود به انباره تحلیلی داده در این مرحله انجام می‌گیرد. پس از بررسی جداول موجود، فیلدهای موجود در جداول و محتویات فیلدهای مذکور، کلیه مشکلات داده‌ای در قالب لیستی ارائه می‌گردند. سپس عملیات پاکسازی برای آنها انجام می‌گیرد. این عملیات غالبا در زمره یکی از موارد زیر هستند:

  • حذف مقادیر null
  • هم مقدار سازی فیلدهای مشابه از نظر معنا
  • ایجاد فیلدهای کمی جدید قابل بدست آمدن از روی داده‌های جدول و مورد نیاز
  • یکی کردن داده‌ها از منابع مختلف
  • خلاصه سازی سطرهای هم معنی و عامل ایجاد افزونگی
  • ایجاد کلید جانشین برای جداول
  • تبدیل چند ستون به چند سطر یا بالعکس Pivoting
  • تقسیم یک ستون جدول به چند ستون

طراحی انباره تحلیلی داده موضوعی

کاربران مختلف با نیازهای متفاوتی وجود دارند که می‌توانند از داده‌های درون انباره استفاده کنند. برآوردن نیازهای تمام کاربران به وسیله یک سیستم مرکزی همیشه امکان پذیر نیست. از طرفی یک سیستم مرکزی، متمرکز بر روی داده و سیستم می‌باشد. کاربر نهایی ممکن است که بخواهد کنترل بیشتری روی محیط اطلاعاتی خود داشته باشد. راه حل این مشکلات مرکز داده ای است، که به آن انباره داده‌ای سازمانی نیز گفته می‌شود. مرکز‌داده ای، انباره داده خاصی است که داده‌های مورد نیاز برای یک بخش از سازمان یا کاربرهای مرتبط به آن را جمع آوری می‌کند. طراحی مراکز داده‌ای مربوطه بنا به دو شکل می‌باشد:

طرح ستاره‌ای: عمومی‌ترین نمونه برای مدلسازی مدل چند بعدی، طرح ستاره است. در این طرح انباره داده شامل یک جدول بزرگ مرکزی به نام جدول حقایق و یک سری جدول کوچکتر به نام جدول بعد یا جدول بعد که وابسته به جدول حقایق هستند می‌باشد.

طرح دانه برفی: این طرح، تغییریافته طرح ستاره‌ای است بطوریکه بعضی از جداول بعد، نرمال شده‌اند. تفاوت اصلی بین طرح ستاره‌ای و طرح دانه برفی این است که جدول بعد در طرح دانه‌برفی به فرم نرمال نگهداری می‌شود تا میزان افزونگی کاهش پیدا کند.

طرح منظومه حقایق: هنگامی که نیاز به چندین جدول حقایق وجود دارد که دارای جداول بعدهای مشترک هستند، طرحی ایجاد می‌شود که به آن طرح کهکشان یا منــظومه حقایق می‌گویند. یک طرح منظومه حقایق به جداول ابعاد اجازه می‌دهد که بین جداول حقایق مشترک باشند.

خلاصه و جمع‌بندی

عملیات پردازش تحلیلی برخط بر انباره‌داده‌های موضوعی اعمال می‌گردد. بسیاری فکر می کنند که داده کاوی و OLAP دو چیز مشابه هستند در این بخش سعی می کنیم این مسئله را بررسی کنیم و همانطور که خواهیم دید این دو ابزار های کاملا متفاوت می باشند که می توانند همدیگر را تکمیل کنند. OLAP جزیی از تکنیک‌های تصمیم گیری می باشد. سیستم های سنتی گزارش گیری و پایگاه داده ای آنچه را که در پایگاه داده بود توضیح می دادند حال آنکه در OLAP هدف بررسی دلیل صحت یک فرضیه است.بدین معنی که کاربر فرضیه ای در مورد داده ها و روابط بین آنها ارائه می کند و سپس به وسیله ابزار OLAP با انجام چند Query صحت آن فرضیه را بررسی می کند.

اما این روش برای هنگامی که داده ها بسیار حجیم بوده و تعداد پارامترها زیاد باشد نمیتواند مفید باشد چون حدس روابط بین داده ها کار سخت و بررسی صحت آن بسیار زمانبر خواهد بود. تفاوت داده کاوی با OLAP در این است که داده کاوی برخلاف OLAP برای بررسی صحت یک الگوی فرضی استفاده نمی شود بلکه خود سعی می کند این الگوها را کشف کند. درنتیجه داده کاوی و OLAP می توانند همدیگر را تکمیل کنند و تحلیل گر می تواند به وسیله ابزار OLAP یک سری اطلاعات کسب کند که در مرحله داده کاوی می تواند مفید باشد و همچنین الگوها و روابط کشف شده در مرحله داده کاوی می تواند درست نباشد که با اعمال تغییرات در آنها می توان به وسیله OLAP بیشتر بررسی شوند.

منبع: اقتباس از مقاله معرفی هوشمندی کسب و کار و انباره داده تحلیلی نوشته انوشیروان اخوان