داده کاوی

از ویکی جامع پردیس دانشگاهی دانشگاه قم
پرش به: ناوبری، جستجو
سیستم های خبره
مقاله بعدی:تصمیم گیری
مقاله قبلی:الگوریتم رته


در دو دهه قبل توانایی‌های بشر برای تولید و جمع‌آوری داده‌ها به سرعت افزایش یافته است . عواملی نظیر استفاده از گسترده از بارکد برای تولیدات تجاری ، به خدمت گرفتن کامپیوتر در کسب و کار ، علوم ، خدمات دولتی و پیشرفت در وسائل جمع‌آوری داده ، از اسکن کردن متون و تصاویر تا سیستم‌های سنجش از راه دور ماهواره‌ای ، در این تغییرات نقش مهمی دارند.

هرم سلسله مراتبی دانش.JPG

استخراج دانش نحوه تبدیل داده به دانش است.

  • اگر این کار به صورت مهندسی انجام شود ، اکتساب دانش خواهد بود (فرم‌های خاصی پر شود یا نمودارهایی کشیده شود) اکتساب دانش برای هر مساله‌ای امکان‌پذیر است.
  • راه‌حل دیگر داده‌کاوی یا استخراج دانش است یعنی از داده‌ها ، به صورت خودکار ، دانش استخراج شود. داده‌کاوی ، استخراج خودکار دانش از حجم زیاد داده‌هاست.


واژه‌های «داده‌کاوی» ، «کشف دانش در پایگاه داده» و «استخراج دانش از پایگاه داده» اغلب به صورت مترادف یکدیگر مورد استفاده قرار می‌گیرند. استخراج دانش به عنوان یک فرآیند در شکل زیر نشان داده شده است. استخراج دانش از پایگاه داده ، فرآیند شناسایی درست ، مفید ، ساده و نهایتا الگوها و مدل‌های قابل فهم در داده‌هاست. داده‌کاوی ، مرحله‌ای از فرآیند کشف دانش می‌باشد و شامل الگوریتم‌های مخصوص داده‌کاوی است ، بطوری که تحت محدودیت‌های موثر محاسباتی قابل قبول ، الگوها و یا مدل‌ها را در داده کشف می‌کند. به بیان ساده‌تر ، داده‌کاوی به فرآیند استخراج دانش ناشناخته ، درست و بالقوه مفید از داده اطلاق می‌شود.

تعریف دیگر این است که داده‌کاوی گونه‌ای از تکنیک‌ها برای شناسایی اطلاعات و یا دانش تصمیم‌گیری از قطعات داده می‌باشد ، به نحوی که با استخراج آنها ، در حوزه‌های تصمیم‌گیری ، پیش‌بینی ، پیشگویی و تخمین مورد استفاده قرار گیرند. داده‌ها اغلب حجیم ، اما بدون ارزش می‌باشند ، داده به تنهایی قابل استفاده نیست بلکه دانش نهفته در داده‌ها قابل استفاده می‌باشد. به دلیل اغلب به داده‌کاوی ، تحلیل داده‌ای ثانویه گفته می‌شود.

داده کاوی.JPG


چه چیزی سبب پیدایش داده‌کاوی شده است؟

اصلی‌ترین دلیلی که باعث شد داده‌کاوی کانون توجهات در صنعت اطلاعات قرار بگیرد ، مساله در دسترس بودن حجم وسیعی از داده‌ها و نیاز شدید به اینکه از این داده‌ها اطلاعات و دانش سودمند استخراج کنیم . اطلاعات و دانش به دست آمده در کاربردهای وسیعی از مدیریت کسب و کار و کنترل تولید و تحلیل بازار تا طراحی مهندسی و تحقیقات علمی مورد استفاده قرار گیرد.


داده‌کاوی چه کارهایی نمی‌تواند انجام دهد؟

داده‌کاوی فقط یک ابزار است و نه یک عصای جادویی . داده‌کاوی به این معنی نیست که شما راحت به کناری بنشینید و ابزارهای داده‌کاوی همه کار را انجام دهد. داده‌کاوی نیاز به شناخت داده‌ و ابزارهای تحلیل و افراد خبره در این زمینه را از بین نمی‌برد. داده‌کاوی فقط به تحلیلگران برای پیدا کردن الگوها و روابط بین داده‌ها کمک می‌کند و در این مورد نیز روابطی که یافته می‌شود باید به وسیله داده‌های واقعی دوباره بررسی و تست گردد.


نکته
داده‌کاوی : استخراج الگوها یا دانش از حجم زیادی از داده است.



چه روش ها و تکنولوژی‌هایی می‌تواند در داده کاوی استفاده شود ؟

داده‌کاوی یکی از مهم‌ترین مراحل فرایند استخراج دانش در پایگاه داده به حساب می‌آید . مراحل مختلف استخراج دانش در پایگاه داده‌ها به شرح ذیل است:

1. درک دامنه مسئله : شامل دانش های موجود و اهداف مسئله.

2. استخراج یک مجموعه داده : شامل انتخاب یک مجموعه داده‌ای و تمرکز روی قسمتی از داده‌ها.

3. آماده سازی و پاکسازی داده‌ها : شامل عملیات پایه ای نظیر حذف و تغییر داده‌های دارای اشکال.

4. یکپارچه سازی داده‌ها : شامل یکپارچه کردن منابع داده‌ای ناهمگون.

5. کاهش و تغییر شکل داده‌ها : شامل روش‌هایی برای تغییر شکل و کاهش ابعاد داده‌ها.

6. انتخاب نوع کاوش داده‌ها : شامل تعمیم و تقلیل ، طبقه بندی ، رگرسیون ، گروه بندی ، وب کاوی ، بازیابی تصویر ، کشف قوانین پیوندی و وابستگی های تابعی ، استخراج قوانین و یا ترکیبی از این ها.

7. انتخاب الگوریتم کاوش داده‌ها : شامل انتخاب متدهایی برای جست و جوی الگوها.

8. کاوش داده ها : شامل جست و جوی الگوهای جالب.

9. تفسیر : شامل تفسیر ، بازنمایی و آنالیز الگوی کشف شده.