هرآن چیزکه نیاز است درباره داده کاوی بدانیم
امروزه حجم زیادی از داده ها در اطرافمان قابل مشاهده هستند. بسیاری از مدیران کسب و کار به سمت استخدام نیروهای متخصص در تجزیه و تحلیل داده ها رفته اند. از طرفی طرفداران حریم خصوصی نگران اطلاعات شخصی و کنترل بر آنها هستند و کارآفرینان به راه های جدید جمع آوری داده ها، کنترل و تبدیل آن به پول فکر می کنند. همه ما می دانیم داده ها پرقدرت و پر ارزشند، اما چگونه؟
در این مقاله تلاش شده تا نشان داده شود که داده کاوی چگونه کار می کند و چرا شما باید در مقابل آن محتاط باشید. زیرا وقتی ما به نحوه استفاده از داده ها فکر می کنیم، این موضوع بسیار مهم هست که با قدرت عملکرد آن نیز آشنایی داشته باشیم. بدون داده کاوی وقتی شما چیزی درباره خود به کسی بگویید، او تنها همان چیزهایی را درباره شما می داند که شما به او گفتید. اما با داده کاوی، او علاوه بر چیزهایی که شما به او گفته اید، به چیزهایی که فکر می کنید و به آنها تمایل دارید نیز اشراف پیدا می کند. در واقع داده کاوی، به شرکت ها و دولت ها این امکان را می دهد تا بر اساس اطلاعاتی که از شما می گیرند، افکار شما را نیز برای خود آشکار سازند.
برای اغلب ما داده کاوی چیزی شبیه اینست: خروارها داده جمع آوری شده، که یک سری افراد مانند جادوگران با ابزارهای جادویی خود می توانند از میان آنها چیزهای شگفت انگیزی استخراج کنند. اما چگونه؟ چه چیزهایی آنها می توانند بفهمند؟ حقیقت اینست: علی رغم این واقعیت که، الگوریتم ها و تکنیک های خاص داده کاوی کاملاً پیچیده می باشند – آنها همانند جعبه سیاه هستند جز برای متخصصین آمار یا علوم کامپیوتر – ولی کاربردها و قابلیت های آنها کاملاً شهودی و قابل درک هستند.
در اکثر موارد، داده کاوی در مجموعه داده های بسیار بزرگ و حجیم، اطلاعاتی را به ما می دهد که در مجموعه داده های کوچک به آسانی قابل مشاهده هستند. بطور مثال داده کاوی می تواند به ما بگوید “این مورد مانند سایر موردهای دیگر نیست!” یا می تواند انواع دسته ها را به ما نشان دهد و بعد هریک از موارد را در یکی از دسته های از پیش تعریف شده قرار دهد. اما باید توجه کرد روابطی که در بین 5 عدد بسیار ساده می باشند در میان 5 میلیارد عدد به هیچ وجه ساده نیستند.
این روزها، همه جا پر از داده هست. ما آنها را از جاهای مختلف گردآوری می کنیم، و بعد می توانیم آنها را خلاصه کنیم. تقریباً هر تراکنش یا تعاملی مقادیری داده ایجاد کرده که کسی در جایی آنها را جمع آوری و ثبت می کند. این موضوع به خصوص در اینترنت کاملاً درست است. اما سیستم های محاسباتی و رقومی سازی که همه جا حضور دارند بطور فزاینده ای باعث شدند این موضوع در سایر ابعاد زندگیمان غیر از کامپیوتر نیز درست باشد. مقیاس و ابعاد این داده ها فراتر از قابلیت های حسی بشر می باشد. در این مقیاس، الگوها اغلب بسیار ظریفتر و رابطه ها بسیار پیچیده یا چند بعدی می باشند که بتوان با نگاهی ساده به داده ها آنها را مشاهده کرد. داده کاوی بخش اتوماتیک فرآیند تشخیص الگوهای قابل تفسیر از مجموعه داده ها هست. داده کاوی به ما کمک می کند تا جنگل را ببینیم بدون اینکه در میان درختان گم شویم.
کشف دانش از مجموعه داده ها، 2 حالت عمده دارد: توصیفی و پیش بینی. در مقیاس داده های مورد بررسی، اینکه داده ها چه چیزی را به ما نشان می دهند بسیار سخت است. داده کاوی به ساده سازی و خلاصه کردن داده ها در چارچوبی که برای ما قابل درک باشد می پردازد و به ما اجازه می دهد تا با مشاهده الگوها به استنتاج چیزهای مفید از مجموعه داده ها نائل شویم. در هر حال کاربردهای خاص داده کاوی محدود به داده ها و قدرت ابزارهای محاسباتی قابل دسترس هست، و همچنین باید متناسب با نیازها و اهداف باشند. از اینرو چند روش اصلی وجود دارد که برای تشخیص الگو ها معمولاً از آنها استفاده می شود که به عنوان وظایف داده کاوی مطرح گشته اند. این وظایف، نشان می دهند که داده کاوی چگونه می تواند کار کند؟
تشخیص انحرافات: در مجموعه داده های بزرگ می توان تمایل داده ها به الگو یا رفتار خاصی را تصویر نمود. تکنیک های آماری می توانند در این موقعیت بررسی کنند آیا موارد خاصی وجود دارند که نسبت به الگوی موجود تفاوت قابل ملاحظه ای داشته باشند یا خیر؟ بطور مثال، اداره های دارایی می توانند با مدلسازی الگوی اظهارنامه های مالیاتی دریافت شده و با استفاده از روشهای تشخیص انحرافات، اظهارنامه های مغایر با الگوی معمول را استخراج کرده و به بررسی بیشتر و ممیزی آنها بپردازند.
آنالیز وابستگی ها: یکی از روش های داده کاوی می باشد که در سیستم پیشنهادات سایت آمازون مورد استفاده قرار گرفته است. به عنوان مثال، کسانی که کوکتل شیکر و کتاب دستورالعمل کوکتل را خریده اند اغلب یک گیلاس مارتینی نیز سفارش داده اند. این روش کشف الگو، معمولاً در مسائل بازاریابی و تبلیغات هدفمند استفاده می شود. یک نسخه مشابه ولی پیچیده تر از این روش در سیستم پیشنهاد فیلم سایت Netflix بکار رفته است.
خوشه بندی: یکی از روش های الگوشناسی که بطور خاص در تشخیص خوشه های متمایز در درون داده ها بکار می رود. بدون داده کاوی، تحلیلگر بایستی با مشاهده بصری داده ها نسبت به خوشه های متمایز در آنها تصمیم گیری کرده و روابط شاخص در هر خوشه را تشخیص دهد. در این حالت خطر نادیده انگاشتن دسته های مهمی از داده ها بسیار زیاد است. با استفاده از داده کاوی، این امکان وجود دارد تا به خود داده ها اجازه دهیم تا گروه های بین خود را نمایش دهند. این یکی از روش های جعبه سیاه الگوریتم های داده کاوی هست که درک آن سخت می باشد. ولی در یک مثال ساده، می توان رفتار خرید مشتریان را با استفاده از این روش مورد بررسی قرار داد. مثلاً می توانیم مشاهده کنیم رفتار خرید باغبان ها، ماهیگیران و علاقه مندان به هواپیماهای مدل، نسبت به هم تفاوت معناداری دارند. الگوریتم های یادگیری ماشین می توانند خوشه های متفاوت از هم را در مجموعه داده ها نشان دهند.
طبقه بندی: اگر ساختار و دسته بندی تعریف شده ای در مجموعه داده وجود داشته باشد، داده کاوی می تواند موارد جدید را به یکی از آنها تخصیص دهد. الگوریتم ها با یادگیری از مجموعه بزرگی از داده های از قبل دسته بندی شده، می توانند بطور دائمی وجه تمایز بین عناصر هر دسته را تشخیص داده و با استفاده از قوانین حاصل شده، موارد جدید را بصورت اتوماتیک دسته بندی نمایند. فیلتر هرزنامه ها، یکی از بهترین نمونه های این روش می باشد. مجموعه بزرگی از ایمیل ها که به عنوان هرزنامه ها شناخته می شوند، دارای تفاوت های جدی در استفاده از کلمات در متن خود می باشند، بطوریکه طبقه بندی آنها با استفاده از قوانین بدست آمده دارای صحت بالایی می باشد.
پیش بینی: داده کاوی دارای قابلیت ساخت مدلهای پیش بینی کننده بر اساس تعداد زیادی از متغیرها می باشد. بطور مثال، فیسبوک علاقه مند است تا سرگرمی های آتی کاربرانش را بر اساس رفتارهای گذشته آنها پیش بینی نماید. فاکتورهایی مانند مقدار اطلاعات به اشتراک گذاری شده، تعداد عکس های تگ شده، تعداد درخواست های دوستی، تعداد نظرات، تعداد لایک ها و … می توانند به عنوان ورودی های یک مدل باشند. در طول زمان این مدل می تواند با اضافه کردن متغیرهای جدید، و یا تغییر وزن متغیرهای موجود بر اساس میزان تفاوت پیش بینی با مقادیر واقعی، خود را بهبود دهد. در نهایت نتایج بدست آمده می توانند به عنوان راهنمای طراحی به منظور تشویق رفتارهایی که منجر به افزایش سرگرمی ها در آینده خواهد شد استفاده شوند.
الگوهای تعیین شده و ساختارهای آشکار شده توسط داده کاوی توصیفی اغلب در ادامه، برای پیش بینی سایر وجوه مورد علاقه در داده ها بکار می روند. سیستم پیشنهادات آمازون مثال خوبی برای استفاده از داده کاوی توصیفی در پیش بینی می باشد. به عنوان مثال (فرضی) از رابطه بین خرید کوکتل شیکر و گیلاس مارتینی به همراه بسیاری از رابطه های مشابه دیگر، به عنوان بخشی از یک مدل پیش بینی می توان استفاده نمود. بر اساس آنها می توان احتمال اینکه یک کاربر خاص یک خرید خاص را انجام دهد تعیین نمود. این مدل قادر خواهد بود تمامی روابط بدست آمده را با خریدهای قبلی کاربر مقایسه کرده و بر اساس آنها محصولاتی که دارای احتمال بیشتری برای خرید می باشند را پیش بینی نماید. آمازون بر اساس پیش بینی های انجام شده می تواند تبلیغات خود را بر مبنای محصولاتی که برای هر کاربر احتمال خرید بیشتری دارد مدیریت نماید.
داده کاوی در این مسیر، قدرت استنتاجی عظیمی را اعطا می کند. اگر یک الگوریتم به درستی می تواند یک نمونه را بر اساس حجم داده های محدود به طبقه خودش تخصیص دهد، پس این امکان وجود دارد تا بتوان دامنه وسیعی از اطلاعات مربوط به آن نمونه را بر اساس ویژگی های سایر نمونه های موجود در آن طبقه برآورد نمود. هرچند ممکن است این موضوع سخت و دشوار به نظر آید، اما نشان می دهد که شرکت های بزرگ اینترنتی چگونه پول می سازند و از کجا قدرتشان را بدست می آورند.