علم داده چیست و چه کاربردهایی دارد؟


بسیاری از ما شنیده‌ایم که علم داده (Data Science) علمِ دنیای فرداست و متخصصان علم داده به سرعت توسط کسب و کارها جذب می‌شوند؛ اما شاید فرصتی پیش نیامده باشد تا درباره‌ی قلمرو علم داده و زیرمجموعه‌های آن مطالعه کنیم.

با این فرض، می‌خواهیم در این درس به صورت بسیار مختصر به تعریف علم داده و معرفی دانش‌ها و مهارتهای وابسته به آن بپردازیم.

آیا ما هم با دستاوردهای علم داده سر و کار داریم؟

ممکن است در نگاه اول به نظر برسد که بحث علم داده، یک بحث تخصصی برای محققان است و انسان‌های عادی، با دستاوردهای آن سر و کار ندارند (یا این‌که هنوز سر و کار ندارند)، اما چنین فرضی درست نیست:

هر بار که به جستجو در گوگل می‌پردازیم؛
هر بار که یک وب‌سایت را باز می‌کنیم و تبلیغاتی متناسب با سلیقه‌ی ما نمایش داده می‌شود؛
هر بار که آمازون یا سایت‌های خرده‌فروشی دیگر، بر اساس خریدهای قبلی و انتخاب‌های فعلی ما، پیشنهادهای جدیدی را مطرح می‌کنند (موتور توصیه‌گر)؛
در حال استفاده از دستاوردهای علم داده هستیم. ضمن این‌که در برخی کشورهای توسعه‌یافته، حق بیمه، مدیریت چراغ‌های راهنمایی و رانندگی و توزیع امکانات و فرصت‌های شهری هم با تکیه بر علم داده انجام می‌شود.

واقعیت این است که علم داده به معنای خاص، چند دهه قدمت دارد و به معنای عام، ریشه‌های آن را می‌توان در قرن‌های گذشته هم جستجو کرد.

اما قدرت گرفتن چند «روند» طی سال‌های اخیر، باعث شده که علم داده بیش از پیش مورد توجه قرار بگیرد. از جمله‌ی این روندها می‌توان به موارد زیر اشاره کرد:

  • افزایش حجم داده‌ها (در حدی که بیگ دیتا به مسئله‌ی بسیاری از کسب و کارها تبدیل شد)
  • افزایش قدرت محاسباتی سیستم‌های سخت‌افزاری (که پیاده‌سازی بسیاری از پروژه‌های علم داده را توجیه‌پذیر کرد)
  • افزایش حجم تولید داده در اینترنت (از اطلاعات تراکنش‌های انسان‌ها و فعالیت در شبکه‌های اجتماعی تا داده‌های گردآوری شده توسط سنسورها، مثلاً اطلاعات موقعیت فیزیکی انسان‌ها در لحظات مختلف)
  • خلق روش‌های جدیدتر برای تحلیل داده‌ها

در حال حاضر، بسیاری از کسب و کارها برای حل مسائل خود و به‌خصوص سیاست‌گذاری و انجام اقدام‌های پیشگیرانه، از علم داده کمک می‌گیرند. به این مثال توجه کنید:

فرض کنید یک کسب و کار پوشاک، باشگاهی برای مشتریان خود راه‌اندازی کرده است. بیشتر مشتریانِ مکرر این کسب و کار، عضو باشگاه مشتریان هستند و از مزیت‌های آن بهره می‌برند.

اما اعضای هیچ باشگاهی، برای همیشه در آن باشگاه باقی نمی‌مانند. بلکه زمانی می‌رسد که تصمیم می‌گیرند به سراغ برندهای دیگر بروند و همه‌ی امتیازهای جمع‌شده و مزایا و ساز و کارهای گیمیفیکیشن را که یک کسب و کار، برای درگیر کردن و افزایش وفاداری مشتریان خود طراحی کرده، رها کنند.

فرض کنید کسب و کار مد نظر ما، بنا به تجربه به نتیجه رسیده است که وقتی یک عضو باشگاه، برای یکسال از کارت عضویت خود هیچ استفاده‌ای نمی‌کند، آن مشتری را می‌توان از دست‌ رفته دانست.

به واسطه‌ی سیستم نرم‌افزاری باشگاه مشتریان، تمام داده‌های مربوط به مشتریان قبلی که از دست رفته‌اند نیز موجود است (از سن و جنسیت گرفته تا تعداد و زمان و مبلغ تراکنش‌ها و نوع کالاهایی که خریده‌اند و تخفیف‌ها و مزایایی که استفاده کرده‌اند).

سوال این‌جاست که چگونه می‌توان همین امروز، کسانی را که عضو باشگاه مشتریان هستند و هنوز غیر فعال نشده‌اند، اما «احتمال غیرفعال‌شدن‌شان در یک سال آینده بالاست» پیدا کرد؟

اگر این افراد با دقت نسبتاً خوبی تشخیص داده شوند، می‌توان به شیوه‌های مختلف (از تماس تلفنی و نظرسنجی تا ارائه‌ی امتیازها و تخفیف‌های ویژه)، احتمال غیرفعال‌شدن‌ آن‌ها را کاهش داد.

این یکی از نمونه سوال‌هایی است که متخصص علوم داده می‌تواند به آن پاسخ دهد.

تعریف علم داده چیست؟

می‌گویند علم داده گرفتارِ جنگ تعریف‌ها است (+). به این معنا که افراد مختلف، آن را به شکل‌های متفاوتی تعریف کرده‌اند و چون هیچ‌کس از تعریف دیگری راضی نیست، همه مشغول نقد تعریف یکدیگر هستند.

واقعیت این است که مدعیان تخصص علم داده هم در این میان بی‌تقصیر نیستند. در حدی که گاهی یک نفر که صرفاً توانایی ترسیم چند نمودار در اکسل را دارد، خود را متخصص علم داده معرفی می‌کند و نتیجه این می‌شود که عده‌ای می‌گویند: «متخصص علم داده، همان کارشناس آمار است که حقوق بیشتری می‌خواهد.»

اگر از این اختلاف‌نظرها و افراط‌ها بگذریم، می‌توان گفت دو تعریف زیر تقریباً در میان غالب متخصصان علم داده پذیرفته شده‌اند:

تعریف علم داده توسط براشلر و همکاران (منبع)

علم داده به ترکیب منحصر‌به‌فردی از اصول و روش‌ها، اعم از تحلیل، مهندسی، کارآفرینی و علم ارتباطات اشاره دارد که می‌کوشد از داده‌ها، ارزش اقتصادی خلق کند.

تعریف علم داده توسط کِهِلِر (منبع)

علم داده شامل مجموعه‌ای از اصول، مسائل، الگوریتم‌ها و فرایندهاست که برای استخراج الگوهای غیرواضح و قابل‌استفاده از حجم بزرگ داده‌ها به‌کار گرفته می‌شود.

این الگوها واضح نیستند؛ به این معنا که غالباً با تحلیل شهودی کارشناسان، نمی‌توان آن‌ها را یافت و درک کرد.

این الگوها کاربردی هستند؛ به این معنا که صرفاً داده‌های پیش رو را توصیف نمی‌کنند؛ بلکه مسیری برای اقدام عملی در اختیار ما می‌گذارند.

آیا علم داده همان داده کاوی است؟

گاهی اوقات علم داده (Data Science) را با داده کاوی (Data Mining) و گاه با یادگیری ماشین (Machine Learning) مترادف در نظر می‌گیرند.

گاهی هم پیش می‌آید که آن را زیرمجموعه‌ی علم آمار فرض می‌کنند. اما منطقی‌تر است که برای علم داده تعریف گسترده‌تری در نظر بگیریم. زیرا:

  • علم داده ، بر خلاف داده کاوی، تمام فرایند مرتبط با داده، از گردآوری اولیه تا عرضه‌ی محصول مبتنی بر داده‌ها را در برمی‌گیرد و صرفاً به تحلیل داده محدود نیست.
  • علم داده بر خلاف روش غالب در آمار، معمولاً از جنبه‌ی توصیفی و استنتاجی فاصله می‌گیرد و می‌کوشد بر اساس داده‌های موجود، به پیش‌بینی و تجویز بپردازد.

بنابراین بهتر است علم داده را به معنای عام‌تر در نظر بگیریم و فرض کنیم سایر شاخه‌ها (مثل آمار، داده کاوی و یادگیری ماشینی) دستاوردهای خود را در اختیار علم داده قرار می‌دهند.

علم داده با چه دانش‌ها و مهارت‌هایی در ارتباط است؟

علم داده چنان گسترده است که معمولاً یک متخصص علم داده هم نمی‌تواند در همه‌ی زمینه‌های آن متخصص شود و مدعی باشد. معمولاً یک متخصص در یکی دو مورد از رشته‌ها، تخصص عمیق دارد و آشنایی‌اش با سایر حوزه‌ها، در حد عمومی باقی می‌ماند. در این‌جا چند مورد از دانش‌ها و مهارت‌های مرتبط با علم داده را مرور می‌کنیم (+):

سوالهای مصاحبه برای استخدام متخصص علوم داده

اگر واقعاً برایتان جذاب است که به عنوان یک Data Scientist فعالیت کنید، پیشنهاد می‌کنیم فایل PDF زیر را دانلود کرده و بخوانید:

120 Interview Questions for Data Scientists

کارل شان و همکارانش، متخصصان علوم داده هستند و کتابی هم با عنوان The Data Science Handbook نوشته‌اند. آن‌ها در این فایل، چارچوب سوال‌های مصاحبه استخدام متخصص علوم داده را آورده‌اند که می‌تواند هم برای مصاحبه‌کنندگان و هم مصاحبه‌شوندگان مفید باشد.

اگر به بازاریابی محتوا علاقه‌مند هستید، این کار را می‌توانید از زاویه‌ی بازاریابی محتوا هم ببینید. چون این نویسندگان در پایان این فایل PDF، کتاب‌شان را هم معرفی کرده‌اند و در واقع این محتوا، برای بازاریابی یک محصول دیگر تولید و عرضه شده است.

سری مطالب حوزه سواد دیجیتال

نوشته علم داده چیست و چه کاربردهایی دارد؟ اولین بار در متمم. پدیدار شد.

درباره نویسنده: administrator

ممکن است دوست داشته باشید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *