داده‌کاوی (Data Mining) چیست و چه کاربردی دارد؟

امروزه با پیشرفت فناوری و حضور گسترده‌ی آن در زندگی روزمره‌مان شاهد کاربرد پررنگ داده و اطلاعات هستیم، یکی از روش‌های استخراج اطلاعات از داده‌های خام دیتاماینیگ یا داده‌کاوی می‌باشد، در ادامه با همیار آی‌تی همراه باشید تا با مفاهیم داده‌کاوی و کاربردهای آن آشنا شویم.

داده‌کاوی , داده‌کاوی (Data Mining) چیست و چه کاربردی دارد؟, همیار آی تی

قبل از اینکه با مفهموم Data Mining آشنا شویم بهتر است ابتدا تعریف داده (Data) و اطلاعات (Information) را بشناسیم و پس از آن به سراغ داده‌کاوی و کاربردهای آن برویم.

تفاوت داده (Data) و اطلاعات (Information) چیست؟

داده (Data) که بعضا از آن با عنوان داده‌ی خام نیز یاد می‌شود، گونه‌ای از اطلاعات به صورت خام و دست نخورده است که میتواند بسیار درهم و حتی به صورت عادی غیر قابل استفاده باشد، مجموعه‌ای از اعداد و ارقام درهم و شاید بدون معنای خاص می‌توانند به عنوان داده در نظر گرفته شوند، اما نتایج حاصل از پردازش و تجزیه و تحلیل این داده‌ها به عنوان اطلاعات تلقی می‌شوند، حتما متوجه شده‌اید که اطلاعات نیز می‌توانند مجددا به عنوان داده‌ی ورودی سیستم مورد استفاده قرار گیرند.

بنابراین با توجه به توضیحات بالا در حالت کلی اطلاعات و ورودی‌های خام را داده (Data) و نتایج حاصل از پردازش داده‌های خام را اطلاعات (Information) می‌نامیم.

به عنوان مثال نمرات دانشجویان یک کلاس، داده و نتایج حاصل از پردازش روی این نمرات، شامل میانگین، میزان افزایش یا کاهش نمرات، نمودارها و… می‌توانند به عنوان اطلاعات در نظر گرفته شوند.

داده‌کاوی (Data Mining) چیست؟

به فرایند استخراج و کشف همبستگی‌ها و الگوهای مفید از میان حجم زیادی از داده‌های خام که با استفاده از الگوریتم و ساز و کارهای هوشمند انجام می‌گیرد دیتاماینینگ یا داده‌کاوی می‌گویند، به زبان ساده‌تر، استخراج دانش از میان‌ مجموعه‌ای از داده‌ها را داده‌کاوی می‌نامند.

البته لازم به ذکر است، برای اینکه این الگوریتم بتواند دانش را به خوبی استخراج کند نیاز به یک‌سری پیش‌پردازش بر روی داده‌های اولیه و همچنین یک‌سری پس‌پردازش بر روی اطلاعات خروجی خواهد داشت.

کاربردهای اصلی داده‌کاوی:

  • کشف الگوی میان داده‌ها
  • پیش‌بینی حدودی نتایج
  • به‌دست آوردن اطلاعات کاربردی
  • تمرکز بر روی داده‌های بزرگ

فرایند انجام Data Mining:

همانگونه که در نمودار پایین مشاهده می‌کنید، داده‌کاوی به صورت کلی و عمومی در ۶ مرحله‌ی اصلی انجام می‌شود، در ابتدا داده‌های مورد نیاز (داده‌های هدف) جمع‌آوری می‌شوند و مورد پردازش و پاکسازی قرار می‌گیرند، یعنی داده‌های اضافه حذف شده و تنها داده‌های مورد نیاز وارد سیستم می‌شوند.

در مرحله‌ی بعدالگوی میان داده‌ها کشف و ارزیابی و سپس الگوریتم و متد‌های Data Mining بر روی داده‌ها انجام خواهد شد.

در نهایت نیز اطلاعات به‌دست آمده از فرایند داده‌کاوی در قالب فرمت‌های قابل درک برای انسان مانند نمودار، تصویر، گزارش و… ارائه شده و دانش مورد نظر که از میان انبوه داده‌های خام استخراج شده‌است در اختیار سازمان قرار خواهد گرفت.

داده‌کاوی , داده‌کاوی (Data Mining) چیست و چه کاربردی دارد؟, همیار آی تی

نمودار فرایند انجام داده‌کاوی

مشکلات اساسی که بر سر راه دیتاماینینگ وجود دارند:

به طور کلی اکثر سیستم‌های داده‌کاوی با دو مشکل اساسی دست‌و‌پنجه نرم می‌کنند، این مشکلات عبارتند از:

  • حجم بالای داده‌های موجود در ورودی
  • عدم اطمینان کامل به اطلاعات خروجی

برای حل مشکل اول یعنی حجم بالای داده‌ها می‌توان از الگوریتم‌های سریع‌تر، روش‌های کاهش پیچیدگی زمانی، بهینه‌سازی، پردازش موازی و… استفاده کرد، همچنین می‌توانیم با استفاده از روش‌هایی مانند نمونه گیری، گسسته‌سازی، کاهش ابعاد و… حجم داده‌های ورودی را با توجه به نیاز داده‌کاوی کاهش دهیم و یا اینکه در نهایت با استفاده از قابلیت‌های ذخیره و بازیابی اطلاعات موجود در دیتابیس‌ها از روش‌های ارائه‌ی رابطه‌ای استفاده کنیم.

برای حل مشکل دوم یعنی عدم اطمینان کامل به اطلاعات خروجی باید ورودی خود را کنترل کنیم، در صورتی که در داده‌های ورودی اطلاعات کامل نباشند، یعنی در داده‌ها مشخصه‌هایی وجود داشته باشد که مقدار معتبری برای آن‌ها درج نشده است و یا اینکه اطلاعات ناسازگار باشند (داده‌ها با تداخل رو به رو شده باشند) و در نتیجه مقادیر ثبت‌شده با مقادیر واقعی یکسان نباشند، می‌تواند باعث ایجاد عدم اطمینان (عدم قطعیت) در اطلاعات خروجی گردد، که راه برطرف کردن آن بررسی صحت داده‌های ورودی می‌باشد.

برخی از پلتفرم‌های مورد استفاده در فرایند داده‌کاوی:

  • زبان برنامه‌نویسی آر (R)
  • زبان برنامه‌نویسی پایتون
  • زبان برنامه‌نویسی متلب
  • نرم‌افزار SPSS
  • نرم‌افزار Weka
  • نرم‌افزار RapidMiner

معرفی الگوریتم CRISP (کریسپ) در داده‌کاوی:

واژه‌ی CRISP (کریسپ) از سرواژه‌های عبارت CRoss Industry Standard Process for Data Mining و به معنی فرایندهای استاندارد صنعت متقابل برای داده‌کاوی در اصل یکی از روش‌های تحلیلی متفاوت برای فرایند داده‌کاوی است، همانگونه که در نمودار زیر مشاهده می‌کنید متدلوژی CRISP شامل ۶ مرحله‌ی اصلی می‌شود که عبارتند از:

  • فهم تجاری (Business Understanding)
  • درک داده (Data Understanding)
  • آماده‌سازی داده (Data Preparation)
  • مدل‌سازی (Modeling)
  • ارزیابی (Evaluation)
  • توسعه (Deployment)
داده‌کاوی , داده‌کاوی (Data Mining) چیست و چه کاربردی دارد؟, همیار آی تی

متدلوژی خوشه‌بندی CRISP برای فرایند داده‌کاوی

فهم تجاری: شامل گردآوری موارد مورد نیاز و گفتگو با مدیران ارشد برای تعیین اهداف.

درک داده: نگاه نزدیک و بررسی دسترسی به داده‌ها برای فرایند دیتاماینینگ که شامل گردآوری، توصیف، کشف و تغییر کیفیت داده‌ها می‌شود.

آماده سازی داده: این مرحله یکی از مهم ترین و همچنین زمان‌برترین بخش‌های داده‌کاوی است که شامل انتخاب، پاک‌سازی، ساختاربندی، و ادغام داده‌ها می‌شود.

مدل سازی: هم‌اکنون داده‌ها آماده‌ی فرایند داده‌کاوی‌اند و نتایج راه حل‌هایی را برای مشکل تجاری مطرح شده نشان می‌دهند، تکنیک‌های انتخاب مدل‌سازی، ایجاد یک طراحی آزمون، ساخت مدل‌ها، و ارزیابی مدل این مرحله را می‌سازند.

ارزیابی: در این مرحله نتایج ارزیابی شده، فرایند انجام کار بازبینی و مراحل بعدی انجام می‌شوند.

توسعه: نتایج به‌دست آمده توسعه یافته و برای بهبود عملکرد سازمان به کار گرفته می‌شوند.

درباره نویسنده: administrator

ممکن است دوست داشته باشید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *