ارتباط علم آمار و داده‌کاوی

داده کاوی، پایگاه‌ها و مجموعه‌های حجیم داده‌ها را در پی کشف واستخراج دانش، مورد تحلیل و کند و کاوهای ماشینی (و نیمه‌ماشینی) قرار می‌دهد. این گونه مطالعات و کاوش‌ها را به واقع می‌توان همان امتداد و استمرار دانش کهن و همه جا گیر آمار دانست. تفاوت عمده در مقیاس، وسعت و گوناگونی زمینه‌ها و کاربردها، و نیز ابعاد و اندازه‌های داده‌های امروزین است که شیوه‌های ماشینی مربوط به یادگیری، مدل‌سازی، و آموزش را طلب می‌نماید.

اصطلاح Data Mining همان طور که از ترجمه آن به معنی داده کاوی مشخص می‌شود به مفهوم استخراج اطلاعات نهان و یا الگوها وروابط مشخص در حجم زیادی از داده‌ها در یک یا چند بانک اطلاعاتی بزرگ است.

بسیاری از شرکت‌ها و موسسات دارای حجم انبوهی از اطلاعات هستند. تکنیک‌های داده‌کاوی به طور تاریخی به گونه‌ای گسترش یافته‌اند که به سادگی می‌توان آنها را بر ابزارهای نرم‌افزاری امروزی تطبیق داده و از اطلاعات جمع آوری شده بهترین بهره را برد. در صورتی که سیستم‌های Data Mining بر روی سکوهای Client/Server قوی نصب شده باشد و دسترسی به بانک‌های اطلاعاتی بزرگ فراهم باشد، می‌توان به سوالاتی از قبیل :کدامیک از مشتریان ممکن است خریدار کدامیک از محصولات آینده شرکت باشند، چرا، در کدام مقطع زمانی و بسیاری از موارد مشابه پاسخ داد.

موضوع داده کاوی چیست؟

موضوع داده کاوی شناخت چیزهای جدید و با ارزش ، بالقوه مفید ، رابطه های منطقی و الگوهای موجود در داده ها  است در جوامع مختلف یافتن الگو های مفید در داده ها با عناوین متعددی ( مانند داده کاوی ) بیان می شود . برای مثال از عنوان هایی نظیر استخراج دانش ، کشف اطلاعات ، برداشت اطلاعات ، پردازش الگوهای داده ها می توان نام برد .

عبارت « داده کاوی » توسط آمار شناسان ، محققان پایگاه های داده ها و سیستم های اطلاعات مدیریتی و جوامع بازرگانی به کار برده می شود . عبارت کشف دانش در پایگاه داده ها عموما برای اشاره به فرایند کلی کشف دانش مفید از داده هایی که داده کاوی گام مهمی دراین فرایند است ، مورد استفاده قرار می گیرد  گام های دیگری در فرایند کشف دانش در پایگاه داده ها نظیر آماده  کردن داده ها ، انتخاب داده ها ، تمیز کردن داده ها و درک درست از فرایند داده کاوی مــــوجب می شود تا اطلاعاتی که برای ما مفید هستند از داده ها استخراج شوند . داده کاوی از تحلیل های سنتی داده ها و رویکردهای آماری نشات  گرفته است به طوری که شامل فنون تحلیلی ای است که از شاخه های دیگری تشکیل شده است ، مانند :

 تحلیل های عددی

  • الگوهای سازگار و سطوحی از هوش مصنوعی مانند یادگیری ماشین
  • شبکه های عصبی و الگوریتم های ژنتیک
  • …..

با وجود این بسیاری از داد ه کاوی ها بر روش های سنتی و رویکردهای تحلیل داده های مبتنی بر فرضیه تکیه دارد . اساسا دو رویکرد برای داده کاوی وجود دارد که از  لحاظ ایجاد و طراحی مدل و یافتن الگوها  با هم فرق دارند اولین رویکرد که مربوط به ساخت مدل است ( جدا از مشکلاتی که ذاتا در مجموعه داده های بزرگ وجود دارد ) مشابه روش های کاوشگرانه آماری مرسوم است. دراین حالت هدف ایناست تا خلاصه های کلی ازمجموعه ای ازداده هـــا برای شناخت وتــوضیح خصوصیت های اصلی شکل توزیع به دست آوریم . مثال هایی از این قبیل مدل ها شامل تحلیل خوش های بخشی از مجموعه داده ها  مدل رگرسیونی برای پیشگویی و قاعده رده بندی با ساختار درختی است .

نوع دوم رویکرد داده کاوی ، رویکرد تشخیص الگو است . این رویکرد سعی بر آن  دارد . تا انحراف هایی هرچند کوچک ( از حد مطلوب ) را تشخیص دهد ( که در هر صورت حائز اهمیت هستند ) ، تا الگوها و روند های غیر معمول نایان شود . مثال هایی نظیر الگو های نامعول ( برای تشخیص کلاهبرداری )  در استفاده از کارت های اعتباری و موضوع هایی  که  الگوهایی با ویژگی های نا مشابه با سایر الگو ها دارند از این نوع کاربد است . این دسته از راهبردها ست که موجب می شود تا داده کاوی به عنوان علم جستجوی اطلاعات با ارزش از بین توده عظیمی از داده ها به حساب آید . به طور کلی در پایگاه های داده ای کسب و کار ( تجاری ) ضعف درک الگو ها به خاطر پیچیدگی زیاد آن هاست . این پیچیدگی ها در اثر ناپیوسته بودن ، نامفهوم بودن و کامل نبودن به وجود می آیند. هر چند اکثر الگوریتم های داده کاوی می توانند اثر این گونه خصوصیت های نامربوط برا در تشخیص الگوی اصلی تمییز دهند ، ولی قدرت پیش گویی الگوریتم های داده کاوی با افزایش این انحراف ها کاهش می یابد .

تعاریف داده کاوی

نگاهی به ترجمه لغوی داده کاوی به ما در درک بهتر این واژه کمک می کند . واژه لاتین Mine به معنای استخراج از منابع نهفته و با ارزش زمین اطلاق می شود . ادغام این کلمه با Data  به معنی داده بر جستجویی عمیق از داده های قابل دسترس با حجم زیاد برای یافتن اطلاعات مفید که قبلا نهفته بودند ، تاکید دارد

 داده کاوی دارای تعریف های مختلفی است این تعریف ها به مقدار زیادی به پیش زمینه ها و نقطه نظرهای افراد بستگی دارد . هر نویسنده ، محقق و کابر با توجه به پیش زمینه ها و نقطه نظر های افراد بستگی دارد . هر نویسنده ، محقق و کاربر با توجه به دیدگــاه و نوع نگرش خود تعریف های مختلفی از داده کاوی ارائه کرده اند به عنوان مثال می توان به چند تعریف داده کاوی که در ادامه آمده است اشاره کرد:

  • داده کاوی استخراج اطلاعات مفهومی، ناشناخته و به صورت بالقوه مفید از پایگاه داده می باشد
  • داده کاوی علم استخراج اطلاعات مفید از پایگاه های داده یا مجموعه داده ای می باشد
  • داده کاوی استخراج نیمه اتوماتیک الگوها، تغییرات، وابستگی ها، نابهنجاری ها و دیگر ساختارهای معنی دار آماری از پایگاه های بزرگ داده می باشد.
  • داده کاوی عبارت است از فرایند استخراج اطلاعات معتبر ، از پیش ناشناخته ، قابل فهم و قابل اعتماد از پایگاه داده های بزرگ و استفاده از آن در تصمیم گیری در فعالیت های تجاری مهم.
  • اصطلاح داده کاوی به فرایند نیم خودکار تجزیه و تحلیل پایگاه داده های بزرگ به منظور یافتن الگوهای مفید اطلاق می شود
  • داده کاوی یعنی جستجو در یک پایگاه داده ها برای یافتن الگوهایی میان داده ها

ویژگی‌ها

یکی از ویژگیهای کلیدی در بسیاری از ابتکارات مربوط به تامین امنیت ملی، داده کاوی است. داده کاوی که به عنوان ابزاری برای کشف جرایم، ارزیابی میزان ریسک و فروش محصولات به کار می‌رود، در بر گیرنده ابزارهای تجزیه و تحلیل اطلاعات به منظور کشف الگوهای معتبر و ناشناخته در بین انبوهی از داده هاست. داده کاوی غالباً در زمینه تامین امنیت ملی به منزله ابزاری برای شناسایی فعالیت‌های افراد خرابکار شامل جابه جایی پول و ارتباطات بین آنها و همچنین شناسایی و ردگیری خود آنها با برسی سوابق مربوط به مهاجرت و مسافرت هاست. داده کاوی پیشرفت قابل ملاحظه‌ای را در نوع ابزارهای تحلیل موجود نشان می‌دهد اما محدودیت‌هایی نیز دارد. یکی از این محدودیت‌ها این است که با وجود اینکه به آشکارسازی الگوها و روابط کمک می‌کند اما اطلاعاتی را در باره ارزش یا میزان اهمیت آنها به دست نمی‌دهد. دومین محدودیت آن این است که با وجود توانایی شناسایی روابط بین رفتارها و یا متغیرها لزوماً قادر به کشف روابط علت و معلولی نیست. موفقیت داده کاوی در گرو بهره گیری از کارشناسان فنی و تحلیل گران کار آزموده‌ای است که از توانایی کافی برای طبقه بندی تحلیل‌ها و تغییر آنها برخوردار هستند. بهره برداری از داده کاوی در دو بخش دولتی و خصوصی رو به گسترش است. صنایعی چون بانکداری، بیمه، بهداشت و بازار یابی آنرا عموماً برای کاهش هزینه‌ها، ارتقاء کیفی پژوهش‌ها و بالاتر بردن میزان فروش به کار می‌برند. کاربرد اصلی داده کاوی در بخش دولتی به عنوان ابزاری برای تشخیص جرایم بوده‌است اما امروزه دامنه بهره برداری از آن گسترش روزافزونی یافته و سنجش و بهینه سازی برنامه‌ها را نیز در بر می‌گیرد. بررسی برخی از برنامه‌های کاربردی مربوط به داده کاوی که برای تامین امنیت ملی به کار می‌روند، نشان دهنده رشد قابل ملاحظه‌ای در رابطه با کمیت و دامنه داده‌هایی است که باید تجزیه و تحلیل شوند. توانایی‌های فنی در داده کاوی از اهمیت ویژه‌ای برخوردار اند اما عوامل دیگری نیز مانند چگونگی پیاده سازی و نظارت ممکن است نتیجه کار را تحت تأثیر قرار دهند. یکی از این عوامل کیفیت داده هاست که بر میزان دقت و کامل بودن آن دلالت دارد. عامل دوم میزان سازگاری نرم‌افزار داده کاوی با بانکهای اطلاعاتی است که از سوی شرکت‌های متفاوتی عرضه می‌شوند عامل سومی که باید به آن اشاره کرد به بیراهه رفتن داده کاوی و بهره برداری از داده‌ها به منظوری است که در ابتدا با این نیت گرد آوری نشده‌اند. حفظ حریم خصوصی افراد عامل دیگری است که باید به آن توجه داشت. اصولاً به پرسش‌های زیر در زمینه داده کاوی باید پاسخ داده شود:

  • سازمانهای دولتی تا چه حدی مجاز به بهره برداری از داده‌ها هستند؟
  • آیا از داده‌ها در چارچوبی غیر متعارف بهره برداری می‌شود؟
  • کدام قوانین حفظ حریم خصوصی ممکن است به داده کاوی مربوط شوند؟

کاوش در داده‌ها بخشی بزرگ از سامانه‌های هوشمند است. سامانه‌های هوشمند زیر شاخه‌ایست بزرگ و پرکاربرد از زمینه علمی جدید و پهناور یادگیری ماشینی که خود زمینه‌ای‌ست در هوش مصنوعی.

فرایند گروه گروه کردن مجموعه‌ای از اشیاء فیزیکی یا مجرد به صورت طبقه‌هایی از اشیاء مشابه هم را خوشه‌بندی می‌نامیم.

با توجه به اندازه‌های گوناگون (و در اغلب کاربردها بسیار بزرگ و پیچیده) مجموعه‌های داده‌ها مقیاس‌پذیری الگوریتم‌های به کار رفته معیاری مهم در مفاهیم مربوط به کاوش در داده‌ها است.

کاوش‌های ماشینی در متون حالتی خاص از زمینهٔ عمومی‌تر کاوش در داده‌ها بوده، و به آن دسته از کاوش‌ها اطلاق می‌شود که در آن‌ها داده‌های مورد مطالعه از جنس متون نوشته شده به زبان‌های طبیعی انسانی باشد.

چیستی

داده کاوی به بهره گیری از ابزارهای تجزیه و تحلیل داده‌ها به منظور کشف الگوها و روابط معتبری که تا کنون ناشناخته بوده‌اند اطلاق می‌شود. این ابزارها ممکن است مدلهای آماری، الگوریتم‌های ریاضی و روش‌های یاد گیرنده (Machine Laming Method) باشند که کار این خود را به صورت خودکار و بر اساس تجربه‌ای که از طریق شبکه‌های عصبی (Neural Networks) یا درخت‌های تصمیم گیری (Decision Trees) به دست می‌آورند بهبود می‌بخشد. داده کاوی منحصر به گردآوری و مدیریت داده‌ها نبوده و تجزیه و تحلیل اطلاعات و پیش بینی را نیز شامل می‌شود برنامه‌های کاربردی که با بررسی فایل‌های متن یا چند رسانه‌ای به کاوش داده‌ها می پردازند پارامترهای گوناگونی را در نظر می‌گیرد که عبارت اند از:

  • رابطه (Association): الگوهایی که بر اساس آن یک رویداد به دیگری مربوط می‌شود مثلاً خرید قلم به خرید کاغذ.
  • ترتیب (Sequence): الگویی که به تجزیه و تحلیل توالی رویدادها پرداخته و مشخص می‌کند کدام رویداد، رویدادهای دیگری را در پی دارد مثلاً تولد یک نوزاد و خرید پوشک.
  • دسته بندی(Classification): شناسایی الگوهای جدید مثلاً همزمانی خرید چسب و پوشه
  • خوشه بندی(Clustering): کشف و مستند سازی مجموعه‌ای از حقایق ناشناخته مثلاً موقعیت جغرافیایی خرید محصولی با مارک خاص
  • پیش بینی(Forecasting):کشف الگوهایی که بر اساس آنها پیش بینی قابل قبولی از رویدادهای آتی ارایه می‌شود، مثلاً رابطه عضویت در یک باشگاه ورزشی با شرکت ذر کلاسهای ورزشی.
  • مصورسازی (visualization): مصورسازی داده ها یکی از قدرتمندترین و جذابترین روش های اکتشاف در داده ها می باشد.[۱]

برنامه‌های کاربردی که در زمینه تجزیه و تحلیل اطلاعات به کار می‌روند از امکاناتی چون پرس و جوی ساخت یافته (Structured query) که در بسیاری از بانک‌های اطلاعاتی یافت می‌شود و از ابزارهای تجزیه و تحلیل آماری برخوردارند اما برنامه‌های مربوط به داده کاوی در عین برخورداری از این قابلیت‌ها از نظر نوع با آنها تفاوت دارند. بسیاری از ابزارهای ساده برای تجزیه و تحلیل داده‌ها روشی بر پایه راستی آزمایی (verifiction)را به کار می‌برند که در آن فرضیه‌ای بسط داده شده آنگاه داده‌ها برای تایید یا رد آن بررسی می‌شوند. به طور مثال ممکن است این نظریه مطرح شود که فردی که یک چکش خریده حتماً یک بسته میخ هم خواهد خرید. کارایی این روش به میزان خلاقیت کاربر برای ارایه فرضیه‌های متنوع و همچنین ساختار برنامه بکار رفته بستگی دارد. در مقابل در داده کاوی روشهایی برای کشف روابط بکار برده می‌شوند و به کمک الگوریتم‌هایی روابط چند بعدی بین داده‌ها تشخیص داده شده و آنهایی که یکتا (unique) یا رایج هستند شناسایی می‌شوند. به طور مثال در یک فروشگاه سخت‌افزار ممکن است بین خرید ابزار توسط مشتریان با تملک خانه شخصی یا نوع خودرو، سن، شغل، میزان درآمد یا فاصله محل اقامت آنها با فروشگاه رابطه‌ای برقرار شود.

در نتیجه قابلیت‌های پیچیده‌اش برای موفقیت در تمرین داده کاوی دو مقدمه مهم است یکی فرمول واضحی از مشکل که قابل حل باشد و دیگری دسترسی به داده متناسب. بعضی از ناظران داده کاوی را مرحله‌ای در روند کشف دانش در پایگاه داده‌ها می‌دانند (KDD). مراحل دیگری در روند KDD به صورت تساعدی شامل، پاکسازی داده، انتخاب داده انتقال داده، داده کاوی، الگوی ارزیابی، و عرضه دانش می‌باشد. بسیاری از پیشرفت‌ها در تکنولوژی و فرایندهای تجاری بر رشد علاقه‌مندی به داده کاوی در بخش‌های خصوصی و عمومی سهمی داشته‌اند. بعضی از این تغییرات شامل:

  • رشد شبکه‌های کامپیوتری که در ارتباط برقرار کردن پایگاهها داده مورد استفاده قرار می‌گیرند.
  • توسعه افزایش تکنیکهایی بر پایه جستجو مثل شبکه‌های عصبی و الگوریتم‌های پیشرفته.
  • گسترش مدل محاسبه کلاینت سروری که به کاربران اجازه دسترسی به منابع داده‌های متمرکز شده را از روی دسک تاپ می‌دهد.
  • و افزایش توانایی به تلفیق داده از منابع غیر متناجس به یک منبع قابل جستجو می‌باشد.

علاوه بر پیشرفت ابزارهای مدیریت داده، افزایش قابلیت دسترسی به داده و کاهش نرخ نگهداری داده نقش ایفا می‌کند. در طول چند سال گذشته افزایش سریع جمع آوری و نگه داری حجم اطلاعات وجود داشته‌است. با پیشنهادهای برخی از ناظران مبنی بر آنکه کمیت داده‌های دنیا به طور تخمینی هر ساله دوبرابر می‌گردد. در همین زمان هزینه ذخیره سازی داده‌ها بطور قابل توجهی از دلار برای هر مگابایت به پنی برای مگابایت کاهش پیدا کرده‌است. مطابقا قدرت محاسبه‌ها در هر ۱۸ – ۲۴ ماه به دوبرابر ارتقاء پیدا کرده‌است این در حالی است که هزینه قدرت محاسبه رو به کاهش است. داده کاو به طور معمول در دو حوزه خصوصی و عمومی افزایش پیدا کرده‌است. سازمانها داده کاوی را به عنوان ابزاری برای بازدید اطلاعات مشتریان کاهش تقلب و اتلاف و کمک به تحقیقات پزشکی استفاده می‌کنند. با اینهمه ازدیاد داده کاوی به طبع بعضی از پیاده سازی و پیامد اشتباه را هم دارد.اینها شامل نگرانی‌هایی در مورد کیفیت داده‌ای که تحلیل می‌گردد، توانایی کار گروهی پایگاههای داده و نرم‌افزارها بین ارگانها و تخطی‌های بالقوه به حریم شخصی می‌باشد.همچنین ملاحظاتی در مورد محدودیتهایی در داده کاوی در ارگان‌ها که کارشان تاثیر بر امنیت دارد، نادیده گرفته می‌شود.

محدودیت‌های داده کاوی

در حالیکه محصولات داده کاوی ابزارهای قدرتمندی می‌باشند، اما در نوع کاربردی کافی نیستند.برای کسب موفقیت، داده کاوی نیازمند تحلیل گران حرفه‌ای و متخصصان ماهری می‌باشد که بتوانند ترکیب خروجی بوجود آمده را تحلیل و تفسیر نمایند.در نتیجه محدودیتهای داده کاوی مربوط به داده اولیه یا افراد است تا اینکه مربوط به تکنولوژی باشد.

اگرچه داده کاوی به الگوهای مشخص و روابط آنها کمک می‌کند، اما برای کاربر اهمیت و ارزش این الگوها را بیان نمی‌کند.تصمیماتی از این قبیل بر عهده خود کاربر است.برای نمونه در ارزیابی صحت داده کاوی، برنامه کاربردی در تشخیص مظنونان تروریست طراحی شده که ممکن است این مدل به کمک اطلاعات موجود در مورد تروریستهای شناخته شده، آزمایش شود.با اینهمه در حالیکه ممکن است اطلاعات شخص بطور معین دوباره تصدیق گردد، که این مورد به این منظور نیست که برنامه مظنونی را که رفتارش به طور خاص از مدل اصلی منحرف شده را تشخیص بدهد.

تشخیص رابطه بین رفتارها و یا متغیرها یکی دیگر از محدودیتهای داده کاوی می‌باشد که لزوماًروابط اتفاقی را تشخیص نمی‌دهد.برای مثال برنامه‌های کاربردی ممکن است الگوهای رفتاری را مشخص کند، مثل تمایل به خرید بلیط هواپیما درست قبل از حرکت که این موضوع به مشخصات درآمد، سطح تحصیلی و استفاده از اینترنت بستگی دارد.در حقیقت رفتارهای شخصی شامل شغل(نیاز به سفر در زمانی محدود)وضع خانوادگی(نیاز به مراقبت پزشکی برای مریض)یا تفریح (سود بردن از تخفیف دقایق پایانی برای دیدن مکان‌های جدید) ممکن است بر روی متغیرهای اضافه تاثیر بگذارد.

 

تفاوت داده کاوی و آنالیز های آماری

داده کاوی با آنالیز های متداول آماری متفاوت است؛در زیرمی توان برخی از اصلی ترین تفاوت های داده کاوی و آنالیز آماری را مشاهده نمود:

آنالیز آماری
•  آمار شناسان همیشه با یک فرضیه شروع به کار می کنند.
•  آنها از داده های عددی استفاده می کنند.
•   آمارشناسان باید رابطه هایی را ایجاد کنند که به فرضیه آنها مربوط است.
•  آنها می توانند داده های نابجا و نادرست را در طول آنالیز مشخص کنند.
•  آنها می توانند نتایج کار خود را تفسیر و برای مدیران بیان کنند.

داده کاوی
•  به فرضیه احتیاجی ندارد.
•  ابزارهای داده کاوی از انواع مختلف داده ، نه تنها عددی می توانند استفاده کنند.
•  الگوریتمهای داده کاوی به طور اتوماتیک روابط را ایجاد می کنند.
•  داده کاوی به داده های صحیح و درست نیاز دارد.
•  نتایج داده کاوی نسبتا پیچیده می باشد و نیاز به متخصصانی جهت بیان آنها به مدیران دارد.

جهت درک بهتر تفاوت داده کاوی و آنالیزهای آماری به مثال زیر که در مورد شناخت کلاهبرداری های شرکت بیمه می باشد، توجه کنید.

 

روش آنالیز آماری

یک مفسر ممکن است متوجه الگوی رفتاری شود که سبب کلاهبرداری بیمه گردد. بر اساس این فرضیه، مفسر به طرح یک سری سوال می پردازد تا این موضوع را بررسی کند. اگر نتایج حاصله مناسب نبود، مفسر فرضیه را اصلاح می کند و یا با انتخاب فرضیه دیگری مجددا شروع می کند. این روش نه تنها وقت گیر است بلکه به قدرت تجزیه و تحلیل مفسر نیز بستگی دارد. مهمتر از همه اینکه این روش هیچ وقت الگوهای کلاهبرداری دیگری را که مفسر به آنها مظنون نشده و در فرضیه جا نداده ، پیدا نمی کند.

 

روش داده کاوی

یک مفسر  سیستم های داده کاوی را ساخته  و  پس از طی مراحلی از جمله  جمع آوری داده ها،  یکپارچه سازی داده ها به انجام عملیات داده کاوی می پردازد. داده کاوی تمام الگوهای غیرعادی را که از حالت عادی و نرمال انحراف دارند و ممکن است منجر به کلاهبرداری شوند را پیدا می کند.

نتایج داده کاوی حالت های مختلفی را که مفسر باید در مراحل بعدی تحقیق کند، نشان می دهند. در نهایت مدل های به دست آمده می توانند مشتریانی را که امکان کلاهبرداری دارند، پیش بینی نمایند.

ابزارهای داده کاوی

معروف‌ترین ابزارهای داده‌کاوی به ترتیب پرطرفدار بودن

  1. Clementine که نسخه ۱۳ ان با نام SPSS Modeler نامیده می‌شود.
  2. رپیدماینر
  3. نرم‌افزار وکا

 

مراحل داده کاوی

مرحله اول: Business  Understanding

این مرحله مهمترین مرحله فرایند می باشد. در ابتدا بـاید صورت مسئله دانسته شود تا پروژه داده کاوی صورت پذیرد.همچنین باید تاثیرگذارهای بر روی پروژه مشخص شوند که چه کسانی می باشند. سپـس باید دانش بـاشد تا

چگونگی عمل نیز مشخص شود.

مرحله دوم: Data  Understanding

این مرحله مربوط به مفهوم داده ها می باشد. شامل مراحل زیر می باشد:

  • جمع آوری داده های اولیه واصلی
  • شرح وتوصیف داده ها
  • کاوش داده ها
  • تحقیق در مورد کیفیت داده ها

جمع آوری داده ها:

مسئله اصلی در این قسمت این است که :

    ((ما چه داده هایی را احتیاج داریم؟))

* این داده ها کجا هستند؟

*بزرگی داده های مورد نیاز چقدر باشد؟

* چه مدت طول می کشد تا به داده ها دسترسی پیدا کنیم؟

* آیا روش خاص ومنحصربفردی برای جمع آوری داده ها است؟

*آیا داده های بدست آمده مفید،مفهومی،موثر و بهره ور هستند؟

یکی از سوال هایی که جهت جمع آوری داده مطرح شد ،این بود که داده ها کجا هستند؟

منابع مورد نیاز داده ها شامل:

                            فایلهای Flat

                             Database ها

                             Database های نامتجانس وناهمگون

                             Database های ناشناس ونامشخص

 Database                       موروثی  و

 Datawarehouse                       انبار داده ها است.

انبار داده: Data Warehouse (DWH)

سیستمی است که عمل تلفیق درآن انجام می گیرد.قابل تغییر نیست. به مدیران در گرفتن تصمیم گیری بهتر کمک می کنند. در این سیستم چند خاصیت وجود دارد؟

۱- به مسائل به خصوصی درجنبه استراتژیک  می پردازد.(مشتریان،محصولات)

۲- پس از ورود اعداد به سیستم می توان اعداد را خانه تکانی کرد.(یکسان سازی کدها، نام  ها و..)

۳-پویا است وبایداطلاعات جدید وارد آن شود.

معماری DWH  :

اعداد در سیستم operative وجود دارندواعدادممکن است درچندتا از این DWH ها باشند. باید اول اعداد را تعریف کرده ، ببینیم درکجا قراردارند و بعداعدادمورد نیاز را به  DWH میانی می آوریم و بعد درمـرحله Staging اینکار انجام می شود و وقتی اعدادآماده شد ، Loud شده و به DWH می رود. سپس بعـد از خـانه تکانی ، با

اعـداد تمیز با سیستم ها وابـزارهای  Olap یا  mining یا  Reporting عمل می کنیم.

  بحث شرح وتوصیف داده ها:

        برخی از اندازه گیری های شخصیت داده ها شامل:

   *تعداد مشاهدات  :

observation یا مشاهدات در جاهای متفاوت با عناوین مختلفی نام برده شده که از آن جمله می توان به این موارد اشاره کرد: Case, data, object, entity, event, instance,  pattern, point, record, sample,…

    *تعداد صفات : Attribute

هر مشـاهده به وسیله یک یا چند صفت شـرح داده می شود. پس تعـداد صفات حتما باید کمتر از تعداد مشاهدات باشد. صفات یک مشاهده برای تعریف نوع وخاصیت مشاهده  لازم وضروری است.

  نام های دیگر Attribute به این شرح است:   Feature, Field, Variable, …

  انواع صفات: انواع صفات بوسیله انواع مقیاس های اندازه گیری اعداد  تعریف می شوند.

انواع صفات از نظر مقیاس اندازه گیری:

Ratio                                 داده های نسبتی

Nominal                            داده های اسمی

Ordinal                              داده های ترتیبی

Interval                             داده های فاصله ای

 مقادیر اسمی:

   مانند نژاد .آیا این شخص زرد پوست است یا نه؟ فقط در همین حد می باشد و نمی توان روی آن عملیاتی انجام داد.

مقادیر ترتیبی :

برای تمیز دادن هر مشـاهده از دیگرمشاهدات است.

  A=B    or     A=B

  وهمچنین ترتیب ورتبه مشاهدات را نیز مشخص می کند. (بیشتر است یا کمتر، بهتر است یا بدتر و …)

    A>B   or   A<B

     مقادیر فاصله ای:

   علاوه بر حالات قبل عمل تفاضل را نیز می توان بر روی داده ها انجام داد. در این حالت صفر، صفر مطلق نیست.

بعنوان مثال در مورد درجه حرارت هوا ، می توان گفت که این مقدار درجه هوا گرمترشده . ولی درجه حرارت صفر به این معنا نیست که هوا گرما وسرما ندارد.

مقادیر نسبتی :

  تمام خصوصیات مقیاس فاصله ای را دارد.بعلاوه آنکه صفر معنای کامل ومطلق دارد. مثلا اگر گفتیم درآمـد صفر است ،یعنی واقـعا هیچ  پولی وجود ندارد.

 انواع دیگر دسته بندی صفات:

discrete                             اعداد گسسته

continuous                        اعداد پیوسته

اعدادگسسته : مقادیر محدود ( مانند تعداد بچه )  یا نامحدود قابل   شمارش ( مانند شماره اعداد یا فراوانی ) هستند،

اغلب با اعداد طبیعی نشان داده می شوند ،   حالت خاص آن اعداد دوتایی binary می باشد.

اعدادپیوسته :    اعدادحقیقی هستند.  تمام مقادیر بین دو مقدار را هم می پذیرند(مانند وزن)

پارامترهای آماری ای که برای خلاصه کردن داده ها مورد نیاز است شامل موارد زیر است:

  • فراوانی
  • میانگین میانه
  • مد
  • ماکزیمم داده ها
  • مینیمم داده ها
  • دامنه یابرد داده ها
  • واریانس
  • انحراف معیار
  • میانگین انحرافات

  مرحله سوم: Data  Preparation

این مرحله مربوط به آماده سازی داده ها می باشد و شامل مراحل زیر می باشد:

  • انتخاب داده ها
  • تمیز کردن داده ها
  • تبدیل داده ها
  • تلفیق داده ها

  بصورتی که کدگذاری و نام گذاری داده ها حالت استاندارد ویکسان داشته باشد.

Data  selecting  انتخاب داده

در دو بخش انجام می گیرد: یکی زمانی است که تعداد صفات را کم می کنیم و دیگری زمانی که با کم کردن مشاهدات داده ها را انتخاب می کنیم که ما در اینجا به بخش دوم می پردازیم:

کم کردن تعداد مشاهدات به سه روش می باشد:

  • نمونه گیری                   Sampling
  • نمونه گیری هوشمند       Intelligent sampling
  • یادگیری برای صرفنظر      Learn to forget

    درآمار،نمونه گیری تصادفی است که داده ها به صورت تصادفی انتخاب می گردند. ولی این تصادفی انتخاب کردن ممکن است که زیـان زیادی برای ما داشته باشد و ما خیلی از داده هـای با ارزشمان را از دست بدهیم. به عـنوان مثال اگر اخراج یکسری از افراد یک شرکت به صورت نمونه گیری تصادفی باشد، ممکن است یکسری ازکارمندهای حرفه ای وخبره را ازدست بدهیم. عمـل نمونه گیری به این دلیل است کـه حجم  بالای اطلاعات وداده ها قابل پردازش نیست. حجم نمونه باید به اندازه بهینه باشد. حجم نمونه به عنوان پارامتراضافی مدل است و میتوان آنرا آنقدرتغییرداد تابه حالت مطلوب برسیم.

نمونه گیری هوشمند:

در این حالت طوری نمونه گیری انجام می شود که طبق قوانین ومقرراتی باشد و ما اطلاعات اصلی را از دست ندهیم.

انواع روشهای نمونه گیری:

  • با جایگذاری
  • بدون جایگذاری

درنمونه گیری تصادفی اساس براین است که هر کدام از مشاهدات احتمال معادل ومعلوم داشته  باشند که بتوانند در نمونه گیری ما انتخاب شوند.

وقتی تعداد جامعه خیلی زیاد باشد می توان از نمـونه گیری بدون جایگذاری استفاده کرد. روش انتخاب نمونه :

 K=

مشاهده اول بصورت تصـادفی بعنوان نقطه شـروع  انتخاب می گردد و بعد برای مشاهدات بعدی به هـر مشاهده به اندازه k  اضافه می کنیم و به این ترتیب کل نمونه انتخاب می گردد.

نمونه گیری طبقه بندی:

زمانی این نمونه گیری انجام میشودکه یک جامعه نامتجانس داشته باشیم. به این صورت است که ابتداجامعه راطبقه بندی می کنیم و سپس دو حالت داریم: یکی آنکه از کل طبقه ها نمونه گیری تصادفی انجام می دهیم و دیگر آنکه از هر طبقه به تعداد مساوی نمونه می گیریم.

مرحله چهارم : Modelling

این مـرحله مربوط به مـدلسازی پس از جمـع آوری داده ها و پیش بینی می باشد .

      پیش بینی : به طور کلی مثل وضعیت رده بندی است .

x هایی داریم که بوسیله صفاتی نمایش داده می شوند. می خواهیم سیستمی درست کنیم که برای ما پیش بینی کند. متغیر هدف داریم که می خواهیم آنرا پیش بینی کنیم. متغیر هدف یک متغیر پیوسته است.

بنابراین یکسری عدد به روشهای مختلفی جمع آوری کـرده ایم و جهت مقـایسه وارزیابـی مدل ها در اختیار داریم.

جهت این کار باید اعداد را به دوگروه تقسیم کنیم. مسئله اول چگونگی تقسیم داده ها است.

یک روش تقسیم داده، با توجه به حجم زیاد داده وتجربه خودمان است.

معمولا می توان ۷۰% داده هارا برای تولید مـدل و۳۰% آنرا برای تست مدل تقسیم کرد که این حالت برای زمانی خوب است که اعداد زیاد باشد. ولی اگر تعداد داده ها کم باشد وما بیائیم ۳۰% داده ها را برای تست بگـذاریم ، در واقـع ۳۰% داده ها را از دست داده ایم.

زمانی که تعداد اعداد کم باشد، روش Cross Validation  ، (اعتبار سنجی متقابل) به کار می رود

مرحله پنجم : Evaluation

 در این مرحله مدل را ارزیابی می کنیم. ببینیم آیا به هدف رسیده ایم یا نه؟ درآن قسمتهایی که به هدف نرسیده ایم،بعضی جاها را تکرارکنیم یا بعضی وقتها ممکن است مجبور به تغییرهدف شویم ویا گاهی مجبور به تغییر اعـداد اولیه شویم.

مرحله ششم : Deployment

این مرحله،مربوط به چگونگی استفاده ازمدل است. زمانی به این مرحله می رویم که به هدف  رسیده باشیم. این مرحله به شرح ذیل است:

  • گسترش برنامه
  • نگهداری وقوت برنامه
  • تولیدگزارش نهایی
  • تجدیدنظر ونشریه کردن پروژه

 

نرم افزار[۲]

برنامه های کاربردی و نرم افزار های داده کاوی متن-باز رایگان

  • Carrot2: پلتفرمی برای خوشه بندی متن و نتایج جست و جو
  • Chemicalize.org: یک کاوشگر ساختمان شیمیایی و موتور جست و جوی وب
  • ELKI: یک پروژه تحقیقاتی دانشگاهی با تحلیل خوشه ای پیشرفته و روش های تشخیص داده های خارج از محدوده که به زبان جاوا نوشته شده است.
  • GATE: یک پردازشگر زبان بومی و ابزار مهندسی زبان.

برنامه های کاربردی و نرم افزار های داده کاوی تجاری

  • Angoss KnowledgeSTUDIO: ابزار داده کاوی تولید شده توسط Angoss.
  • BIRT Analytics: ابزار داده کاوی بصری و تحلیل پیش بینی گر تولید شده توسط Actuate Corporation.
  • Clarabridge: راه حل تحلیلگر کلاس متن.
  • (E-NI(e-mining, e-monitor: ابزار داده کاوی مبتنی بر الگوهای موقتی.
  • IBM SPSS Modeler: نرم افزار داده کاوی تولید شده توسط IBM
  • Microsoft Analysis Services: نرم افزار داده کاوی تولید شده توسط مایکروسافت
  • Oracle Data Mining: نرم افزار داده کاوی تولید شده توسط اوراکل (کمیک)

بررسی اجمالی بازار نرم افزار های داده کاوی

تا کنون چندین محقق و سازمان بررسی هایی را بر روی ابزار های داده کاوی و راهنماییهایی برای داده کاو ها تهیه دیده اند. این بررسی ها بعضی از نقاط ضعف و قوت بسته های نرم افزاری را مشخص می کنند. همچنین خلاصه ای را از رفتار ها، اولویت ها و دید های داده کاوها تهیه کرده اند. بعضی از این گزارش ها را در زیر میتوانید مشاهده نمایید:

  • گزارش: ۲۰۱۱ Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery س[۳]
  • Annual Rexer Analytics Data Miner Surveys تاریخ(۲۰۰۷–۲۰۱۱) [۴]

پیوند به بیرون

  • هفتمین کارگاه بین‌المللی راجع به کاوش در داده‌های مربوط به انفورماتیک حیات (بیو انفورماتیک)
  • کنفرانس سال ۲۰۰۸ siam مربوط به کاوش‌های ماشینی در داده‌ها

منابع

  1. سایت گروه داده کاوی ایران، http://irdatamining.com/articles/visualization/introduction.html
  2. این بخش به صورت کامل برگردان (ترجمه) قسمت انگلیسی ویکی پدیا می باشد.
  3. Mikut, Ralf; Reischl, Markus (September/October 2011). “Data Mining Tools”. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery ۱ (۵): ۴۳۱–۴۴۵٫ DOI:۱۰.۱۰۰۲/widm.24. http://onlinelibrary.wiley.com/doi/10.1002/widm.24/abstract. Retrieved October 21, 2011.
  4. Karl Rexer, Heather Allen, & Paul Gearan (2011); Understanding Data Miners, Analytics Magazine, May/June 2011 (INFORMS: Institute for Operations Research and the Management Sciences).

Two Crows Corporation، Introduction to Data Mining and Knowledge Discovery، Third Edition (Potomac، MD: Two Crows Corporation، ۱۹۹۹); Pieter Adriaans and Dolf Zantinge، Data Mining New York: Addison Wesley، ۱۹۹۶

John Makulowich، “Government Data Mining Systems Defy Definition،” Washington Technology، ۲۲ February ۱۹۹۹، [http://www.washingtontechnology.com/news/13_22/tech_ features/۳۹۳-۳.html

Jiawei Han and Micheline Kamber، Data Mining: Concepts and Techniques (New York: Morgan Kaufmann Publishers، ۲۰۰۱)، p. ۷

Pieter Adriaans and Dolf Zantinge، Data Mining (New York: Addison Wesley، ۱۹۹۶)، pp. ۵-۶

Two Crows Corporation، Introduction to Data Mining and Knowledge Discovery، Third Edition (Potomac، MD: Two Crows Corporation، ۱۹۹۹)، p. ۴.

ارسال دیدگاه