مقدمه ای بر داده های حجیم (big data)
big data یکی از اصطلاحاتی است که این روزها در حوزه تحلیل داده ها زیاد شنیده می شود. در این پست قصد داریم به تبیین معنای آن بپردازیم. big data یا داده های کلان که برخی از متخصصین آن را کلان داده ها نیز ترجمه کرده اند، حجم عظیمی از داده های ساخت یافته و همچنین بدون ساختار است که در فعالیتهای عادی یک کسب وکار به صورت فراوان وجود دارد.
تاریخچه big data
گرچه واژه big data یا داده های کلان نسبتا جدید است عمل جمع آوری مقادیر عظیم داده ها یا اطلاعات برای تحلیل های احتمالی قدمت زیادی دارد. گرچه به نظر می رسد منظور از داده های کلان فقط مقادیر عظیم داده باشد ولی big data به داده هایی اشاره دارد که علاوه بر مقدار، سرعت و تنوع فوق العاده زیادی دارد. این مفهوم در اوایل دهه ۲۰۰۰ میلادی پدیدار شد یعنی زمانی که Doug Laney تعریف فعلی big data را با سه مشخصه زیر ارائه کرد:
Volume – مقدار
مقدار داده ها به این واقعیت اشاره دارد که در حال تولید مقدار زیادی از این داده ها هستیم و این مقدار تولید با گذشت زمان زیادتر هم می شود. برای مثال گوشی های هوشمند دربردارنده تعدادی سنسور هستند. این سنسورها داده هایی را تولید می کنند که می توان از آنها در تحلیل استفاده کرد، به عنوان نمونه می توان سنسور GPS موبایل را مثال زد. با افزایش تعداد، پیچیدگی و استفاده از گوشیهای هوشمند مقدار داده هایی هم که تولید می کنند بیشتر می شود. سازمان ها داده ها را از منابع متعددی شامل تراکنشهای کاری، رسانه های اجتماعی و اطلاعاتی از سنسورها یا داده های ماشین به ماشین (M2M) جمع آوری می کنند. در گذشته ذخیره سازی مسئله ساز بود ولی فناوریهای جدید مانند هدوپ (Hadoop) این مشکل را حل کرده اند.
Velocity – سرعت
سرعت به این معنی است که در داده های کلان، داده ها به سرعت تغییر می کنند. مثلا اطلاعات موقعیت کاربر که از گوشی هوشمند او بدست می آید به سرعت تغییر می کند. وضعیتی را در نظر بگیرید که می خواهید پیشنهاد خاصی را در خیابان خاصی به کاربر بدهید، اطلاعات موقعیت در عرض چند دقیقه یا ثانیه قدیمی و بلا استفاده می شود اگر نتوانید در موقعیت درست پیشنهاد را به مشتری بدهید نتوانسته اید از داده هایتان استفاده کنید. احتمالا حالا بهتر معنی سرعت در big data و اهمیت آن را متوجه شدید. داده ها با سرعت پیش بینی نشده تولید می شوند و باید به صورت زمانبندی شده از آن استفاده کرد. حجم زیاد داده های حاصل از تگ های RFID و سنسورهای اندازه گیری هوشمند نشان می دهد که با سیلی از داده ها سروکار داریم و باید به صورت مناسبی آنها را پردازش و استفاده کنیم.
Variety – تنوع
در داده های کلان، داده ها به فرمتهای مختلف و گوناگون وجود دارند. مثلا داده های ساخت یافته، داده های عددی، اسناد متنی بدون ساختار، ایمیل، ویدیو، داده های صوتی و تراکنشهای مالی در این داده ها جای دارند.
بعضی از منابع علاوه بر سه مورد فوق می توان سه بعد دیگر را برای big data در نظر گرفته اند:
Variability – تغییر پذیری
علاوه بر سرعت و تنوع در حال افزایش داده ها، جزیان های داده ها می تواند بسیار ناپایدار و دارای پیکهای (اوج) دوره ای باشد. مدیریت بار داده های روزانه، فصلی و یکباره مشکل است. این مشکل وقتی بیشتر خودش را نشان می دهد که داده های غیرساخت یافته هم داشته باشیم.
Complexity – پیچیدگی
ذر عصر فعلی داده ها از منابع مختلفی می آیند، چنین وضعیتی پیوند، تطبیق، پاکسازی و تبدیل داده ها را سخت می کند. با این وجود، اتصال داده ها و تعیین سلسله مراتب و پیوند دادها ضروری است و گرنه داده ها به سرعت از دسترس خارج می شوند.
Value – ارزش
بهترین چیزی که درباره ارزش در داده های کلان می توان گفت این است که هرچه در تحلیل داده های big data بهتر عمل کنیم. ارزش بیشتری بدست می آوریم. برای این که ارزش مناسبی از big data کسب کنیم باید توان محاسباتی کافی، قابلیتها و مهارتهای تحلیل داده مناسب را داشته باشیم.
Value – ارزش
مقدار داده هایی که در سطح جهانی ایجاد و ذخیره می شود غیرقابل درک است، بنابراین پتانسیل بالایی در استفاده از قدرت big data وجود دارد تا بینش کلیدی از اطلاعات کسب و کار بدست آید. هنوز درصد بسیار کمی از داده ها تحلیل می شود. با این توصیف سازمانها چگونه می توانند از داده های خامی که روزانه به سازمان وارد می شود استفاده کنند؟
چرا big data این قدر اهمیت دارد؟
اهمیت big data یا داده های کلان به این نیست که چه مقدار داده در اختیار داریم بلکه این مهم است که با این داده ها چه می کنیم. شما می توانید داده ها را از هر منبعی گرفته و تحلیل کنید تا بر چالشهایی مانند کاهش هزینه ها، افزایش سرعت، توسعه محصول جدید، ارائه پیشنهادهای بهینه به مشتریان و تصمیم گیری هوشمند غلبه کنید. وقتی که big data با تحلیلهای قدرتمند همراه شود کارهای بزرگی مانند موارد زیر قابل انجام می شود:
- تعیین ریشه های اصلی مشکلات و ضایعات به صورت بلافاصله و بلادرنگ.
- تشخیص رفتارهای کلاهبردارانه قبل از این که بر کسب وکار و سازمان شما تاثیری بگذارد.
- محاسبه مجدد ریسک کل پورتفولیوها در چند دقیقه.
- تولید کوپن تخفیف برای مشتری در کنار دستگاه POS بر مبنای عادات خرید مشتری.
big data چه تغییراتی ایجاد می کند؟
big data شیوه ای که کار افراد با یکدیگر را در سازمانها تغییر می دهد. داده های کلان فرهنگی را ایجاد می کند که رهبران کسب وکار و IT باید نیروهای خود را با هم متحد کنند تا از همه داده هایی که در اختیار دارند ارزش کسب کرد و مزیت رقابتی کسب کنند. بینشی که از big data بدست می آید باعث می شود همه کارکنان توان اتخاذ تصمیمات بهتر را داشته باشند، با مشتری تعامل عمبقتری داشته باشیم، عملیات را به صورت بهینه انجام دهیم، از تهدیدها و کلاهبرداریها جلوگیری کنیم و روی منابع جدید درآمدی سرمایه گذاری کنیم.
قبل از این که درک کنیم big data چگونه به کسب وکار ما کمک می کند باید درک کنیم big data از چه منابعی وارد می شود. منبع big data از یکی از سه دسته زیر بدست می آید:
داده های جریانی
این دسته شامل داده هایی می شود که از وسایل متصل به وب به سیستم های IT سازمان می رسند. این داده ها را می توان به محض دریافت تحلیل کرد و برای این که کدام داده ها را نگه داری کنیم و چه داده هایی را برای تحلیل بعدی نگهداری کنیم تصمیم گیری کنیم.
داده های رسانه های اجتماعی
داده های موجود در تعاملات اجتماعی مجموعه جذابی از اطلاعات برای کارکردهای بازاریابی، فروش و پشتیبانی است. این داده ها معمولا به فرم فاقد ساختار یا نیمه ساخت یافته وجود دارند بنابراین مصرف و تحلیل این دادها چالشهای خالصی دارد.
منابع داده در دسترس عموم
مقادیر عظیم داده ها که به صورت متن باز در اختیار همه وجود دارد مانند داده های مرکز آمار، داده های پورتال Open Data اتحادیه اروپا.