امروزه با پیشرفت فناوری و حضور گستردهی آن در زندگی روزمرهمان شاهد کاربرد پررنگ داده و اطلاعات هستیم، یکی از روشهای استخراج اطلاعات از دادههای خام دیتاماینیگ یا دادهکاوی میباشد، در ادامه با همیار آیتی همراه باشید تا با مفاهیم دادهکاوی و کاربردهای آن آشنا شویم.
قبل از اینکه با مفهموم Data Mining آشنا شویم بهتر است ابتدا تعریف داده (Data) و اطلاعات (Information) را بشناسیم و پس از آن به سراغ دادهکاوی و کاربردهای آن برویم.
تفاوت داده (Data) و اطلاعات (Information) چیست؟
داده (Data) که بعضا از آن با عنوان دادهی خام نیز یاد میشود، گونهای از اطلاعات به صورت خام و دست نخورده است که میتواند بسیار درهم و حتی به صورت عادی غیر قابل استفاده باشد، مجموعهای از اعداد و ارقام درهم و شاید بدون معنای خاص میتوانند به عنوان داده در نظر گرفته شوند، اما نتایج حاصل از پردازش و تجزیه و تحلیل این دادهها به عنوان اطلاعات تلقی میشوند، حتما متوجه شدهاید که اطلاعات نیز میتوانند مجددا به عنوان دادهی ورودی سیستم مورد استفاده قرار گیرند.
بنابراین با توجه به توضیحات بالا در حالت کلی اطلاعات و ورودیهای خام را داده (Data) و نتایج حاصل از پردازش دادههای خام را اطلاعات (Information) مینامیم.
به عنوان مثال نمرات دانشجویان یک کلاس، داده و نتایج حاصل از پردازش روی این نمرات، شامل میانگین، میزان افزایش یا کاهش نمرات، نمودارها و… میتوانند به عنوان اطلاعات در نظر گرفته شوند.
دادهکاوی (Data Mining) چیست؟
به فرایند استخراج و کشف همبستگیها و الگوهای مفید از میان حجم زیادی از دادههای خام که با استفاده از الگوریتم و ساز و کارهای هوشمند انجام میگیرد دیتاماینینگ یا دادهکاوی میگویند، به زبان سادهتر، استخراج دانش از میان مجموعهای از دادهها را دادهکاوی مینامند.
البته لازم به ذکر است، برای اینکه این الگوریتم بتواند دانش را به خوبی استخراج کند نیاز به یکسری پیشپردازش بر روی دادههای اولیه و همچنین یکسری پسپردازش بر روی اطلاعات خروجی خواهد داشت.
کاربردهای اصلی دادهکاوی:
- کشف الگوی میان دادهها
- پیشبینی حدودی نتایج
- بهدست آوردن اطلاعات کاربردی
- تمرکز بر روی دادههای بزرگ
فرایند انجام Data Mining:
همانگونه که در نمودار پایین مشاهده میکنید، دادهکاوی به صورت کلی و عمومی در ۶ مرحلهی اصلی انجام میشود، در ابتدا دادههای مورد نیاز (دادههای هدف) جمعآوری میشوند و مورد پردازش و پاکسازی قرار میگیرند، یعنی دادههای اضافه حذف شده و تنها دادههای مورد نیاز وارد سیستم میشوند.
در مرحلهی بعدالگوی میان دادهها کشف و ارزیابی و سپس الگوریتم و متدهای Data Mining بر روی دادهها انجام خواهد شد.
در نهایت نیز اطلاعات بهدست آمده از فرایند دادهکاوی در قالب فرمتهای قابل درک برای انسان مانند نمودار، تصویر، گزارش و… ارائه شده و دانش مورد نظر که از میان انبوه دادههای خام استخراج شدهاست در اختیار سازمان قرار خواهد گرفت.
مشکلات اساسی که بر سر راه دیتاماینینگ وجود دارند:
به طور کلی اکثر سیستمهای دادهکاوی با دو مشکل اساسی دستوپنجه نرم میکنند، این مشکلات عبارتند از:
- حجم بالای دادههای موجود در ورودی
- عدم اطمینان کامل به اطلاعات خروجی
برای حل مشکل اول یعنی حجم بالای دادهها میتوان از الگوریتمهای سریعتر، روشهای کاهش پیچیدگی زمانی، بهینهسازی، پردازش موازی و… استفاده کرد، همچنین میتوانیم با استفاده از روشهایی مانند نمونه گیری، گسستهسازی، کاهش ابعاد و… حجم دادههای ورودی را با توجه به نیاز دادهکاوی کاهش دهیم و یا اینکه در نهایت با استفاده از قابلیتهای ذخیره و بازیابی اطلاعات موجود در دیتابیسها از روشهای ارائهی رابطهای استفاده کنیم.
برای حل مشکل دوم یعنی عدم اطمینان کامل به اطلاعات خروجی باید ورودی خود را کنترل کنیم، در صورتی که در دادههای ورودی اطلاعات کامل نباشند، یعنی در دادهها مشخصههایی وجود داشته باشد که مقدار معتبری برای آنها درج نشده است و یا اینکه اطلاعات ناسازگار باشند (دادهها با تداخل رو به رو شده باشند) و در نتیجه مقادیر ثبتشده با مقادیر واقعی یکسان نباشند، میتواند باعث ایجاد عدم اطمینان (عدم قطعیت) در اطلاعات خروجی گردد، که راه برطرف کردن آن بررسی صحت دادههای ورودی میباشد.
برخی از پلتفرمهای مورد استفاده در فرایند دادهکاوی:
- زبان برنامهنویسی آر (R)
- زبان برنامهنویسی پایتون
- زبان برنامهنویسی متلب
- نرمافزار SPSS
- نرمافزار Weka
- نرمافزار RapidMiner
معرفی الگوریتم CRISP (کریسپ) در دادهکاوی:
واژهی CRISP (کریسپ) از سرواژههای عبارت CRoss Industry Standard Process for Data Mining و به معنی فرایندهای استاندارد صنعت متقابل برای دادهکاوی در اصل یکی از روشهای تحلیلی متفاوت برای فرایند دادهکاوی است، همانگونه که در نمودار زیر مشاهده میکنید متدلوژی CRISP شامل ۶ مرحلهی اصلی میشود که عبارتند از:
- فهم تجاری (Business Understanding)
- درک داده (Data Understanding)
- آمادهسازی داده (Data Preparation)
- مدلسازی (Modeling)
- ارزیابی (Evaluation)
- توسعه (Deployment)
فهم تجاری: شامل گردآوری موارد مورد نیاز و گفتگو با مدیران ارشد برای تعیین اهداف.
درک داده: نگاه نزدیک و بررسی دسترسی به دادهها برای فرایند دیتاماینینگ که شامل گردآوری، توصیف، کشف و تغییر کیفیت دادهها میشود.
آماده سازی داده: این مرحله یکی از مهم ترین و همچنین زمانبرترین بخشهای دادهکاوی است که شامل انتخاب، پاکسازی، ساختاربندی، و ادغام دادهها میشود.
مدل سازی: هماکنون دادهها آمادهی فرایند دادهکاویاند و نتایج راه حلهایی را برای مشکل تجاری مطرح شده نشان میدهند، تکنیکهای انتخاب مدلسازی، ایجاد یک طراحی آزمون، ساخت مدلها، و ارزیابی مدل این مرحله را میسازند.
ارزیابی: در این مرحله نتایج ارزیابی شده، فرایند انجام کار بازبینی و مراحل بعدی انجام میشوند.
توسعه: نتایج بهدست آمده توسعه یافته و برای بهبود عملکرد سازمان به کار گرفته میشوند.