ETL چیست؟
طي فرآيند ETL دادهها از منابع اطلاعاتي مورد نياز موجود در سازمان يا خارج از آن مانند، پايگاههاي داده، فايلهاي متني، سيستمهاي قديمي و صفحات گسترده (Spread Sheets) استخراج شده و تبديل به اطلاعاتي سازگار با فرمت معين ميشوند و سپس در يک مخزن اطلاعاتي که در اغلب اوقات يک DWH است، قرار داده ميشوند. براي انجام ETLنياز به تخصصهاي مختلفي چون تجزيه و تحليل تجاري، طراحي پايگاه داده و برنامهنويسي وجود دارد.
پيش از انجام فرآيند ETLابتدا بايد منابع اطلاعاتي که قرار است دادههاي آنها به DWHمنتقل شوند، شناسايي شوند، مقصد آنها در DWHمشخص شوند و تبديلاتي که بايد بر آنها انجام شود تا واردDWH شوند، تعيين شوند. نحوه نگاشت اطلاعات به صورت اوليه، بايد در مرحله جمعآوري نيازها و مدلسازي اطلاعات انجام شود. اطلاعات جزيي تر مربوط به نحوه نگاشت داده ها از منابع اطلاعاتي اوليه به DWHدر مرحله طراحي و پيادهسازي ETLمشخص ميشود.
· شناسايي منابع اطلاعاتي:پايگاههاي داده mainframe مانند:VSAM ،DB2 ،IBMS Adabas و ISAM پايگاههاي داده client-server مانندInformix و Oracle پايگاههاي اطلاعاتي PC مانند Access، صفحات گسترده مانند Excelنمونههايي از مهمترين انواع منابع اطلاعاتي را تشکيل ميدهند. در برخي سيستمها شناسايي منابع اطلاعاتي به سادگي مکانيابي سرورهاي پايگاهداده سيستم است. در برخي سيستمهاي پيچيدهتر، براي شناسايي اين منابع بايد اعمالي نظير تعريف دقيق فيلدهاي اطلاعاتي و تعريف ارزشهاي اطلاعاتي مربوط به اين فيلدها انجام شود.
· تعِيين مقصد دادهها: براي تمامي اطلاعات موجود در منابع اطلاعاتي شناسايي شده بايد مکاني در DWHدر نظر گرفته شود. داده هاي اطلاعاتي در قسمتهاي مختلفDWH قرار ميگيرند.
· نگاشت دادههاي اطلاعاتي از مبدأ به مقصد: نحوه نگاشت دادهها از مبدأ به مقصد و تغييراتي که بايد بر دادههاي اوليه اعمال شود تا به فرمت مناسب براي DWHدرآيند بايد تعيين شوند. اين تغييرات موارد زير شامل ميشود:
o خلاصه سازي اطلاعات.
o تغيير اطلاعات.
o کدگشايي اطلاعات کد شده.
o ايجاد تغييرات لازم براي هماهنگ سازي دادههاي اطلاعاتي مشابه که در چند منبع اطلاعاتي مختلف وجود دارند.
اطلاعات مربوط به نحوه نگاشت اطلاعات در نقشه اطلاعات (Data Map) نگهداري مي شود.
يک سيستم ETLداراي چهار بخش اصلي است:
استخراج (Extraction)
تبديل (Transformation)
بارگذاري (Loading)
Meta Data
فرایند ETL، یک پروسه محسوب می شود. به این معنی که به صورت پیوسته و مداوم در سیستم باید انجام شود. به ازای داده هایی عملیاتی که در طول زمان در سازمان به وجود می آید این فرایند نیز انجام می شود. آنچه که در استقرار یک هوش تجاری در سازمان مهم است ایجاد مهماری و ساختاری مناسب است به طوری که این در طول اجرای عملیات مختلف، ETL با سازگاری با آن فرایند به سرعت انجام پذیرد. پس ساختار مورد استفاده برای ETL قبل از انجام آن از اهمیت بالایی برخوردار است. فرایند ETL به دلیل اینکه روی حجم بالایی از اطلاعات انجام می شود و معملا همراه با یکپارچه کردن داده ها همراه است می بایست در طول دوره های مختلف انجام شود. در این دوره ها و به هنگام آغاز فرایند ETL به دلیل بالا رفتن حجم ترافیک شبکه و پردازش سرورهای پایگاه داده ممکن است در انجام فرایندهای دیگر تجاری BI اختلال ایجاد شود که می بایست در طراحی هوش تجاری مورد توجه قرار گیرد.