پایگاه داده تحلیلی (Data Warehouse) چیست؟
DWH يک سيستم کامپيوتري از اطلاعات است که به گونهاي مناسب براي انجام عمليات گزارشگيري و تحليلي دادهها بر اساس زمان، طراحي شده است. اين سيستم اغلب به صورت جداگانهاي از سيستمهاي عملياتي روزانه قرار ميگيرد. Bill Inmon که از او به عنوان پدر DWH ياد مي شود آن را به اين ترتيب تعريف ميکند:
" DWH متشکل از يک پايگاه داده و تعدادي جز (component) متصل است با ويژگي هاي زیر:
- موضوعگرا (Subject Oriented): پايگاهداده به گونهاي سازماندهي شده است که تمامي اطلاعاتي که به یک موضوع يا موجوديت خاص مربوط هستند با يکديگر مرتبط هستند.
- متغير با زمان: تغييرات ايجاد شده در پايگاهداده اوليه در آن اعمال ميشوند.
- Non-volatile: دادههاي اطلاعاتي هرگز حذف نشده، با دادههاي جديد جايگزين نميشوند.
- يکپارچه: اطلاعات موجود در پايگاهداده از سراسر سازمان جمعآوري شدهاند و با هم سازگاري دارند".
هدف اصلي DWH ايجاد بستري مناسب براي توليد اطلاعاتي است که به Knowledg worker هاي سازمان (مديران، عوامل اجرايي و تحليلگران) براي اتخاذ تصميمهاي درست کمک ميکند. براي اين منظور از DWH در تهيه گزارشها، اطلاعات تحليلي، تعامل بلادرنگ با سيستمهاي عملياتي و Profiling استفاده ميشود.
با DWH ميتوان در سازمان سيستم تصميميار (Decision support) ايجاد کرد. اطلاعاتي که در DWH نگهداري ميشود از آنچه در پايگاههاي داده نگهداري ميشود (که شامل اطلاعات جزيي و روزمره است) به مراتب مهمتر و ارزشمندتر است. در DWH تمامي اطلاعات موجود در سازمان از ابتدا تاکنون به صورت يکپارچه و سازماندهي شده نگهداري ميشود. در اين مخزن اطلاعاتي، اطلاعات از تمامي منابع اطلاعاتي و در يک بازه زماني طولاني جمعآوري ميشوند و به اين دليل حجم اطلاعات بسيار زياد است.
در DWH نياز به سازماندهي مناسب اطلاعات و استفاده از روشهاي مناسب دسترسي به اطلاعات وجود دارد. DWH با طراحي متفاوت خود به صورت چندبعدي (Multi dimensional) قادر است تمامي این موارد را در نظر بگيرد. براي مثال در اطلاعات نگهداري شده براي فروش، زمان فروش، ناحيه فروش، فروشنده و محصول به فروش رفته به عنوان ابعاد مختلف در نظر گرفته ميشوند. اغلب اين بعدها حالت سلسله مراتبي (Hierarchical) دارند. مثلا ممکن است زمان فروش شامل تاريخ و ساعت فروش محصول باشد. طراحي مدل داده چند بعدي با استفاده از تکنيکهاي مرسوم در محيطهاي OLTP مانند ERD و نرمالسازي مناسب نيست. زيرا آنچه در DWH مهم است ايجاد امکان پرسوجو و بارگذاري سريع اطلاعات است.
در بيشتر DWH از star schema براي ايجاد مدل داده چندبعدي استفاده ميشود. در اين مدل، پايگاهداده شامل يک جدول fact و تعدادي جدول مجزا براي ابعاد است. در جدول fact رکورد اطلاعاتي شامل تعدادي اشارهگر (کليد خارجي) به جداول ابعاد و مقادير مربوط به معيارهاي عددي است. Attribute ها به همراه کليدها در جداول ابعاد قرار ميگيرند.
برخي از سازمانها تمايل دارند DWH به صورت سراسري طراحي شود به طوريکه تمامي اطلاعات موجود در سازمان در آن قرار گيرند. طراحي و استفاده از DWH به اين صورت کاري پيچيده و زمانبر است. به همين علت در بسياري از سازمان ها از Data Mart استفاده ميشود.