روش های آماری در داده کاوی

مارس 25, 2017 مدیر

0 دیدگاه

داده کاوی

نرم افزار هوش تجاری , داشبورد مدیران , داشبورد مدیریتی , گزارش ساز , نرم افزار داشبورد

بهتر استراتژیهاي زير را در داده ها بكار مي برد:

– توضيح و تفسير (description)
– تخمينestimation
– پيش بينيprediction
– كلاس بنديclassification
– خوشه سازي (clustering)
– وابسته سازي وايجاد رابطه (association)

روشها

استراتژيها

تحلیل داده ها

توضيح وتفسير

تحليل هاي آماري

تخمين

تحليل هاي آماري

پيش بيني

الگوريتم نزديك ترين همسايه

كلاس بندي

درخت تصميم

كلاس بندي

شبكه هاي عصبي

كلاس بندي

خوشه سازي k-mean

خوشه سازي

شبكه هاي kohonen

خوشه سازي

وابسته سازي و ايجاد رابطه

رابطه سازي

البته بايد گفت كه روشهاي data mining تنها به يك استراتژي خاص محدود نمي شوندو نتايج يك را همپوشاني بين روشها نشان مي دهد. براي مثال درخت تصميم ممكن است كه دركلاس بندي تخمين وپيش بيني كاربرد داشته باشد. بنابراين اين جدول را نبايد به عنوان تعريف تعريف تقسيم بندي از وظايف در نظرگرفته شود‏‎ بلكه به عنوان يك خروجي از آنچه كه ما به عنوان وظايف dataminig آشنايي پيدا كرديم در نظر گرفته مي شود.
همانگونه كه ازجدول پيداست روشهاي آماري در مباحث تخمين وپيش بيني در تجارت الکترونیک كاربرد دارند. در تحليل آماري تخمين وپيش بيني عناصري از استنباطهاي آماري هستند.استنباطهاي آماري شامل روشهايي براي تخمين وتست فرضيات درباره جمعيتي از ويژگيها در تجارت براساس اطلاعات حاصل از نمونه است .يك جمعيت شامل مجموعه اي از عناصر از قبيل افراد ايتم ياداده ها يي كه دريك مطالعه خاص آمده است. بنابراين در اينجا به توضيح اين دواستراتژي مي پردازيم.

1- تخمين:
در تخمین به دنبال این هستیم که مقدار یک مشخصه خروجی مجهول را تعیین کنیم، مشخصه خروجی در مسا یل تخمین بیشتر عددی هستند تا قیاسی. بنابراین مواردی که بصورت قیاسی هستند باید به حالت عددی تبدیل شوند.مثلا موارد بلی،خیر به 0 و1 تبدیل می شود.
تكنيكهاي نظارتيDM قادرند یکی از دو نوع مسایل کلاس بندی یا تخمین را حل کنند ، نه اینکه هر دو را.یعنی اینکه تکنیکی که کار تخمین را ا نجام می دهد، کلا س بندی نمی کند.
روشهاي آماري مورد استفاده دراين مورد بطوركلي شامل تخمين نقطه و فا صله اطمينان ميباشد. تحليل هاي آماري تخمين وتحليل هاي يك متغيره و…از اين جمله مي باشند.
در توضيح اينكه چرا به سراغ تخمين مي رويم بايد گفت كه مقدار واقعي پارامترها براي ما ناشناخته است.مثلا مقدار واقعي ميانگين يك جامعه مشخص نيست.داده ها ممكن است كه بطور رضايت بخشي جمع آوري نشده باشد‏ يا به عبارتي warehouse نشده باشد. به همين دليل تحليل گران از تخمين استفاده ميكنند.
در خيلي از موارد تعيين ميانگين مجموعه اي از داده ها براي ما مهم است.مثلا ميانگين فروش ماهیانه و سالیانه یک شرکت ، ميانگين تعداد نفراتي كه در يك روز به بانك مراجعه مي كنند،متوسط مقدار پولي كه افراد دريك شعبه خاص از بانك واريز مي كنند وموارد اينچنيني.

زمانی که مقدار یک آماره را برای براورد کردن پارامتر یک جامعه به کار ببریم ، آن پارامتر را تخمین زده ایم ، وبه مقدار این آماره برآورد نقطه ای پرامتر اطلاق می کنیم. در واقع از کلمه نقطه برای تمایز بین براورد کننده های نقطه ای و فاصله ای استفاده می کنیم. از مهمترین تخمین زننده ها است که به ترتیب برآورد واریانس و میانگین جامعه هستند. خود برآورد کننده ها دارای خاصیت هایی چون ناریبی ، کارایی ، ناسازگاری ، بسندگی و… هستند ، که هر یک به بیان ویژگی خاصی از آنها می پردازند و میزان توانایی آنها را در تخمین درست و دقیق یک پارامترتعیین می کنند.
در مواردي نيز تخمين فاصله براي ما اهميت دارد.فاصله اطمينان شامل فاصله اي است كه با درصدي از اطمينان مي توانيم بگوييم كه مقدار يك پارامتر درون اين اين فاصله قرار مي گيرد.به عبارت دیگراگر چه برآورد نقطه ای طریقه متداول توصیف .برآورد هاست اما درباره آن، جا برای پرسشهای زیادی باقی است.مثلا برآورد نقطه ای به ما نمی گوید که برآورد بر چه مقداری از اطلاعات مبتنی است.و چیزی درباره خطا بیان نمی کند. بنابراین می توانیم که برآورد پارامتر را با بعلاوه کردن اندازه کردن اندازه نمونه و مقدار واریانس ، یا اطلاعات دیگری درباره توزیع نمونه گیری کامل کنیم. این کار ما را قادر می سازد که اندازه ممکن خطا را برآورد کنیم.

2- پيش بيني) prediction ( :
هدف از انجام پیش بینی تعیین ترکیب خروجی با استفاده از رفتار موجود می باشد. یعنی در واقع رسیدن به یک نتیجه بوسیله اطلاعات موجود از داده ها. مشخصه های خروجی در این روش هم می توانند عددی باشند وهم قیاسی.[1] این استراتژی در بین استراتژی های data mining از اهمییت خاصی بر خوردار است، و مفهوم کلی تری را نسبت به موارد دیگر دارد.خیلی از تکنیکهای نظارتی data mining كه براي كلاس بندي و تخمين مناسب هستند در واقع كار پیش بيني انجام مي دهند.
آنچه از كتابهاي آماري وdata minig تحت عنوان پيش بيني برمي آيد رگرسيون و مباحث مر بوط به آن است .در واقع در اكثر اين كتابها هدف اصلي از انجام تحليل هاي آماري براي داده كاوي، رگرسيون داده هاست واين بعنوان وظيفه اصلي متد هاي آماري معرفي مي شود.

اهداف تحليل رگرسيون
با انجام رگرسيون مي خواهيم اهداف زيررا دنبال كنيم
1- بدست آوردن رفتار متغييرy توسط متغيير x ،يعني اينكه متغيرy با تغييرx در نمونه ها چه رفتاري را از خود نشان مي دهد.مثلا در نمونه اي اين رفتار خطي است يا اينكه شكل منحني خواهد داشت.
2- پيش بيني بر اساس دادهها براي نمونه هاي آينده،كه هدف اصلي در داده كاوي از طريق متدهاي آماري است.مثلا از روي اطلاعاتي مثل داشتن كارت اعتباري يك فرد جديد،نوع جنسيت او،سن فرد،ميزان درآمد ساليانه او بتوان حدس زد كه اين فرد از بيمه عمر استفاده مي كند يا خير. ويا اينكه با داشتن اطلاعات در مورد داشتن يا نداشتن كارت اعتباري و بيمه عمر، سن فردبتوان جنسيت فرد را تعيين كرد.
3- استنباط استنتاجي يا تحليل حساسيت، تعيين اينكه اگرx به اندازه خاصي تعيير كندy تا چه اندازه تغيير خواهد كرد. هدف از فهميدن اينكه چگونه تغييرات y تابعي ازx است. بايد توجه داشت كه نوع تغييرات مدل گرسيوني خاصي را مي دهد.
اهداف مدلسازي براي تشريح ارتباط بين x وy استفاده از نتايج مدل براي پيش بيني كاربردهاي تخمين عبارت است.اما استنباط استنتاجي يك مقوله ظريف تري است. زماني كه به استنباط آماري فكر ميكنيم در واقع درباره متغيير رفتاري و متغيير هاي كنترل فكر مي كنيم.
متغييرهاي رفتاري مشخصه هايي را ارايه ميكنندكه تبحروتجربه خاصي دارنديا اينكه قابليت آن نبحر را دارند.مثلا مقدار دز دارو كه براي بيمار استفاده مي شود در تجربه پزشكي .همچينين متغييرهاي كنترل ديگر ويژگي ها در يك محيط آزمايشي را اندازه ميگيرند،از قبيل وزن بيمار كه قبل از رفتار اندازه گيري مي شود.
اگر ما براي يكي از متغيير هاي رفتاري، كنترل انجام دهيم، رگرسيون ما احتمالا استنباط هاي استنتاجي را درست حدس ميزند.و اگر ما علاقه مند به هر دو مورد پيش بيني انتخاب سهم وتخمين اثرات علتها باشيم تايید هر دومورد را بعنوان متغييرهاي خروجي كه همپوشاني دارند در نظر مي گيريم.
روشهاي مختلف رگرسيون براي داده كاوي وجود دارد .رگرسيون خطي بيشترين كاربردرا دارد وهمچنين مشتقات آن حايزاهمييت است.يك نمونه از آن مشتقات آن رگرسيون خطي سلسله مراتبي يا رگرسيون چند سطحي است. اين روش يكي از ابزارهاي تحليل دادههاي پيچيده از قبيل افزايش فر كانس در تحقيقات مقداري را شامل مي شود.مدلهاي رگرسيون چند سطحي براي حالتهايي كه همپوشاني در سطوح مختلف وجود دارد مفيد است. براي مثال اطلاعات آموزشي ممكن است اطلاعاتي از قبيل اطلاعات فردي دانش آموزان (نام، نام خانوادگي و در كل پيش زمينه خانوادگي)،اطلاعات سطح كلاس از قبيل ويژگي هاي معلم وهمچينين اطلاعات درباره مدرسه همانند سياست آموزشي و… باشد. حالت ديگر مد لهاي چند سطحي ،تحليل دادههاي بدست آمده از نمونه هاي خوشه بندي شده است. يك خانواده از مدلهاي رگرسيون، به عنوان متغييرهاي شاخص بري رتبه بندي يا خوشه بندي است علاوه بر اينكه همپوشاني را اندازه مي گيرد. با نمونه خوشه بندي شده مدلسازي چند سطحي براي توسعه نمونه هايي كه داخل خوشه نيستند،لازم است.
در روش رگرسيون چند سطحي يا سلسله مراتبي محدوديتي براي تعداد سطوح تغيير كه مي تواند انجام شود،وجود نداردروشهاي بيزي در تخمين پارامترهاي مجهول كمك مي كند،هرچند كه محاسبات پيچيده اي دارد.ساده ترين توسعه از رگرسيون همپوشاني مجموعه اي از متغيرهاي شاخص براي كلاس بندي نمونه هاي آموزشي يا رتبه بندي وخوشه بندي درنمونه هاي داده شده است.همچنين به عنوان توسعه رگرسيون خطي در نظر گرفته مي شود،كه در ادامه به توضيح آن مي پردازيم.
1- رگرسیون خطیLinear regression
یکی از هدفهای اصلی بسیاری از پژوهشهای آماری ا یجاد وابستگی هایی است تا پیش بینی یک یا چند متغیر را بر حسب سایرین ممکن می سازد.مثلاَُ مطالعاتی انجام می شودتا فروشهای بالقوهُ یک محصول جدید را بر حسب قیمت آن،وزن یک بیماررا بر حسب تعداد هفته هایی که پرهیز داشته است،پیش بینی کند.
در عمل مسایل متعددی وجود دارند که در آن ها مجموعه ای از داده ها زوج شده بر آن دلالت می کند که رگرسیون خطی است و در آن توزیع توأم متغیرهای تصادفی تحت بررسی رانمی دانیم اما با این حال می خواهیم که ضرایب رگرسیون را برآ ورد کنیم.
روش رگرسیون خطی یک تکنیک یادگیری نظارتی است که به وسیله آ ن می خواهیم تغییرات یک متغیر وابسته بوسیلهُ ترکیب خطی از یک یا چند متغیرمستقل مدل کنیم .حالت کلی معادله آن به این صورت است :
f(x1+x2+…+xn)=a1x1+a2 x2+…+an xn+b
کهxها متغیر مستقل و aهاو b ضرایب ثابت هستند وf(x1.x1…xn) متغیر وابسته می باشند.حالت ساده این معادله بصورت (2) y=ax+b است که در اینجا yمتغیر وابسته است به حالت ساده شده معادله 1(یعنی معادله2) shope-intercept from می گویند.
یک روش برای تعیین ضرایب a,b روش حداقل مربعات است.ملاک کمترین مربعات این است که مجموع مربعات ا نحراف ها را مینیمم کنیم؛بنابراین اگر مجموعهای از داده های زوج شده مانند {(xi,yi),i=1,2,…,n} داده شده باشد، برآ وردهای کم ترین مر بعات ضرایب رگرسیون، مقادیری مانندa,bهستند که به ا زای آنها کمیت مینیمم است.
مزیت رگرسیون خطی این است که فهمیدن و کار با آن ساده است در حالت کلی برای استراتژی و پیش بینی مناسب است. با بکار بردن این روش از نتایج خروجی می توان دریافت که این روش مناسب بوده یا خیر . بنابر این معیارهایی داریم که با استفاده از آنها می توان دریافت که آیا می توان به نتایج خروجی اطمینان کرد یا خیر.
آنچه در انجام رگرسیون مهم به نظر می رسد،تعیین میزان همبسته بودن داده ها به یکدیگر است.با مشخص کردن میزان همبسته بودن داده های متغیرهای ورودی و خروجی می توان دریافت که رگرسیون خطی برای انجام داده کاوی مناسب است یا خیر، بنابراین ضریب همبستگی و برآوردهای آن در بسیاری از پژوهشهای آماری اهمیت دارند. شرایطی که وقتی چند متغیر پیشگوxi)) با یکدیگر هم پوشانی دارند،این هم پوشانی منجر نااستواری و تزلزل در فضای جواب می شود،همچنین منجر به نتایج بی ارتباط(بی ربط) می شود.حتی اگر از این تزلزل اجتناب شود هم پوشانی بین متغیرهایی که میزان بین متغیرهایی همبستگی آنها زیاد است ،منجر به تاکید کردن روی بخش خاصی از مدل می شود.
بنابر این از بین متغیر های ورودی مواردی که با هم بستگی زیادی دارند،نباید با هم در تعیین ارزش متغیر خروجی بکار بره شوند.واز طرفی کاربردرگرسیون خطی منوط به همبستگی متغیر های ورودی و خروجی است.در تحلیل همبستگی نرمال مربوط به داده های زوج شده ،با استفاده از روابط ریاضی می توان به ،که بیانگر ضریب همبستگی نمونه ای ا ست رسید.

2-Logistic Regression
این روش یکی از تکنیکهای یادگیری نظارتی و در حالتی که نتایج خروجی به صورت binary هستند ، مورد توجه قرار می گیرد.در کل زمانی نتایج خروجی به صورت binary هستند رگرسیون خطی خیلی کارا نیست ، در این حالت استفاده از این تکنیک مناسب تر است.نکته دیگر اینکه این روش یک تکنیک رگرسیون غیر خطی است و لزومی ندارد که داده ها حالت خطی داشته باشند.ا گر بخواهیم دلیل استفاده Logistic regression را بیان کنیم باید اینگونه بحث کنیم در رگرسیون خطی علاوه بر اینکه نتایج خروجی باید به صورت عددی باشد،متغیر ها هم باید به صورت عددی باشد بنابراین حالتهایی که به صورت کتگوری ( قیاسی) هستند باید به حالت عددی تغییر شکل پیدا کنند.مثلاُ جنسیت افراد از حالت زن و مرد بوده به ترتیب به حالتهای 0 و1تغییر پیدا می کند.در این روش اگر نتایج خروجی(متغیر خروجی) بصورت binary باشد می تواند مفید باشد. چون اساس رگرسیون خطی در این حالت ایراد پیدا می کند و ارزش قیدی که بر روی متغیر وابسته قرار می گیرد توسط معادله رگرسیون در نظر گرفته نمی شود.
در وا قع چون رگرسیون خطی،معاد له یک خط را ترسیم می کند،نمی تواند حالت مثبت و منفی یا به عبارتی صفر و یک را در نظر بگیرد. به همین دلیل برای اینکه بتوان حالتهای binary را هم در نظر گرفت،باید شکل معادله را تغییر داد.با این تغییر شکل معادله رگرسیون احتمال اتفاق افتادن یا اتفاق نیفتادن یک واقعه را بدست می دهد.با تغییر شکل رگرسیون خطی به حالت Logistic regression این مشکل حل می شود.

3- Bayse classsifire
این مقدار یکی از روشهای ساده یادگیری نظارتی است،که در آن فرض می شود که تمام متغیرها ی ورودی به یک اندازه مهم هستند و مستقل از هم می باشند و نیز ا گریکی از شرایط هم برقرار نباشد این روش در شرایطی کاربرد دارد این روش بر اساس تئوری بیز بنا شده است.

روش های آماری در داده کاوی

استراتژيها

نرم افزار هوش تجاری , داشبورد مدیران , داشبورد مدیریتی , گزارش ساز , نرم افزار داشبورد

نرم افزار کلیک ویو ,آموزش کلیک ویو , هوش تجاری کلیک ویو , فیلم کلیک وی , دانلود کلیک ویو

نرم افزار مدیریت فرایند ها , مدیریت فرایند , سامانه ساز , پنجره واحد ,دولت الکترونیک , معماری سازمان , سیستم ساز

دیدگاهتان را بنویسید لغو پاسخ

تماس با ما

دسترسی سریع