بسیاری از ما شنیدهایم که علم داده (Data Science) علمِ دنیای فرداست و متخصصان علم داده به سرعت توسط کسب و کارها جذب میشوند؛ اما شاید فرصتی پیش نیامده باشد تا دربارهی قلمرو علم داده و زیرمجموعههای آن مطالعه کنیم.
با این فرض، میخواهیم در این درس به صورت بسیار مختصر به تعریف علم داده و معرفی دانشها و مهارتهای وابسته به آن بپردازیم.
آیا ما هم با دستاوردهای علم داده سر و کار داریم؟
ممکن است در نگاه اول به نظر برسد که بحث علم داده، یک بحث تخصصی برای محققان است و انسانهای عادی، با دستاوردهای آن سر و کار ندارند (یا اینکه هنوز سر و کار ندارند)، اما چنین فرضی درست نیست:
هر بار که به جستجو در گوگل میپردازیم؛
هر بار که یک وبسایت را باز میکنیم و تبلیغاتی متناسب با سلیقهی ما نمایش داده میشود؛
هر بار که آمازون یا سایتهای خردهفروشی دیگر، بر اساس خریدهای قبلی و انتخابهای فعلی ما، پیشنهادهای جدیدی را مطرح میکنند (موتور توصیهگر)؛
در حال استفاده از دستاوردهای علم داده هستیم. ضمن اینکه در برخی کشورهای توسعهیافته، حق بیمه، مدیریت چراغهای راهنمایی و رانندگی و توزیع امکانات و فرصتهای شهری هم با تکیه بر علم داده انجام میشود.
واقعیت این است که علم داده به معنای خاص، چند دهه قدمت دارد و به معنای عام، ریشههای آن را میتوان در قرنهای گذشته هم جستجو کرد.
اما قدرت گرفتن چند «روند» طی سالهای اخیر، باعث شده که علم داده بیش از پیش مورد توجه قرار بگیرد. از جملهی این روندها میتوان به موارد زیر اشاره کرد:
- افزایش حجم دادهها (در حدی که بیگ دیتا به مسئلهی بسیاری از کسب و کارها تبدیل شد)
- افزایش قدرت محاسباتی سیستمهای سختافزاری (که پیادهسازی بسیاری از پروژههای علم داده را توجیهپذیر کرد)
- افزایش حجم تولید داده در اینترنت (از اطلاعات تراکنشهای انسانها و فعالیت در شبکههای اجتماعی تا دادههای گردآوری شده توسط سنسورها، مثلاً اطلاعات موقعیت فیزیکی انسانها در لحظات مختلف)
- خلق روشهای جدیدتر برای تحلیل دادهها
در حال حاضر، بسیاری از کسب و کارها برای حل مسائل خود و بهخصوص سیاستگذاری و انجام اقدامهای پیشگیرانه، از علم داده کمک میگیرند. به این مثال توجه کنید:
فرض کنید یک کسب و کار پوشاک، باشگاهی برای مشتریان خود راهاندازی کرده است. بیشتر مشتریانِ مکرر این کسب و کار، عضو باشگاه مشتریان هستند و از مزیتهای آن بهره میبرند.
اما اعضای هیچ باشگاهی، برای همیشه در آن باشگاه باقی نمیمانند. بلکه زمانی میرسد که تصمیم میگیرند به سراغ برندهای دیگر بروند و همهی امتیازهای جمعشده و مزایا و ساز و کارهای گیمیفیکیشن را که یک کسب و کار، برای درگیر کردن و افزایش وفاداری مشتریان خود طراحی کرده، رها کنند.
فرض کنید کسب و کار مد نظر ما، بنا به تجربه به نتیجه رسیده است که وقتی یک عضو باشگاه، برای یکسال از کارت عضویت خود هیچ استفادهای نمیکند، آن مشتری را میتوان از دست رفته دانست.
به واسطهی سیستم نرمافزاری باشگاه مشتریان، تمام دادههای مربوط به مشتریان قبلی که از دست رفتهاند نیز موجود است (از سن و جنسیت گرفته تا تعداد و زمان و مبلغ تراکنشها و نوع کالاهایی که خریدهاند و تخفیفها و مزایایی که استفاده کردهاند).
سوال اینجاست که چگونه میتوان همین امروز، کسانی را که عضو باشگاه مشتریان هستند و هنوز غیر فعال نشدهاند، اما «احتمال غیرفعالشدنشان در یک سال آینده بالاست» پیدا کرد؟
اگر این افراد با دقت نسبتاً خوبی تشخیص داده شوند، میتوان به شیوههای مختلف (از تماس تلفنی و نظرسنجی تا ارائهی امتیازها و تخفیفهای ویژه)، احتمال غیرفعالشدن آنها را کاهش داد.
این یکی از نمونه سوالهایی است که متخصص علوم داده میتواند به آن پاسخ دهد.
تعریف علم داده چیست؟
میگویند علم داده گرفتارِ جنگ تعریفها است (+). به این معنا که افراد مختلف، آن را به شکلهای متفاوتی تعریف کردهاند و چون هیچکس از تعریف دیگری راضی نیست، همه مشغول نقد تعریف یکدیگر هستند.
واقعیت این است که مدعیان تخصص علم داده هم در این میان بیتقصیر نیستند. در حدی که گاهی یک نفر که صرفاً توانایی ترسیم چند نمودار در اکسل را دارد، خود را متخصص علم داده معرفی میکند و نتیجه این میشود که عدهای میگویند: «متخصص علم داده، همان کارشناس آمار است که حقوق بیشتری میخواهد.»
اگر از این اختلافنظرها و افراطها بگذریم، میتوان گفت دو تعریف زیر تقریباً در میان غالب متخصصان علم داده پذیرفته شدهاند:
تعریف علم داده توسط براشلر و همکاران (منبع)
علم داده به ترکیب منحصربهفردی از اصول و روشها، اعم از تحلیل، مهندسی، کارآفرینی و علم ارتباطات اشاره دارد که میکوشد از دادهها، ارزش اقتصادی خلق کند.
تعریف علم داده توسط کِهِلِر (منبع)
علم داده شامل مجموعهای از اصول، مسائل، الگوریتمها و فرایندهاست که برای استخراج الگوهای غیرواضح و قابلاستفاده از حجم بزرگ دادهها بهکار گرفته میشود.
این الگوها واضح نیستند؛ به این معنا که غالباً با تحلیل شهودی کارشناسان، نمیتوان آنها را یافت و درک کرد.
این الگوها کاربردی هستند؛ به این معنا که صرفاً دادههای پیش رو را توصیف نمیکنند؛ بلکه مسیری برای اقدام عملی در اختیار ما میگذارند.
آیا علم داده همان داده کاوی است؟
گاهی اوقات علم داده (Data Science) را با داده کاوی (Data Mining) و گاه با یادگیری ماشین (Machine Learning) مترادف در نظر میگیرند.
گاهی هم پیش میآید که آن را زیرمجموعهی علم آمار فرض میکنند. اما منطقیتر است که برای علم داده تعریف گستردهتری در نظر بگیریم. زیرا:
- علم داده ، بر خلاف داده کاوی، تمام فرایند مرتبط با داده، از گردآوری اولیه تا عرضهی محصول مبتنی بر دادهها را در برمیگیرد و صرفاً به تحلیل داده محدود نیست.
- علم داده بر خلاف روش غالب در آمار، معمولاً از جنبهی توصیفی و استنتاجی فاصله میگیرد و میکوشد بر اساس دادههای موجود، به پیشبینی و تجویز بپردازد.
بنابراین بهتر است علم داده را به معنای عامتر در نظر بگیریم و فرض کنیم سایر شاخهها (مثل آمار، داده کاوی و یادگیری ماشینی) دستاوردهای خود را در اختیار علم داده قرار میدهند.
علم داده با چه دانشها و مهارتهایی در ارتباط است؟
علم داده چنان گسترده است که معمولاً یک متخصص علم داده هم نمیتواند در همهی زمینههای آن متخصص شود و مدعی باشد. معمولاً یک متخصص در یکی دو مورد از رشتهها، تخصص عمیق دارد و آشناییاش با سایر حوزهها، در حد عمومی باقی میماند. در اینجا چند مورد از دانشها و مهارتهای مرتبط با علم داده را مرور میکنیم (+):
سوالهای مصاحبه برای استخدام متخصص علوم داده
اگر واقعاً برایتان جذاب است که به عنوان یک Data Scientist فعالیت کنید، پیشنهاد میکنیم فایل PDF زیر را دانلود کرده و بخوانید:
120 Interview Questions for Data Scientists
کارل شان و همکارانش، متخصصان علوم داده هستند و کتابی هم با عنوان The Data Science Handbook نوشتهاند. آنها در این فایل، چارچوب سوالهای مصاحبه استخدام متخصص علوم داده را آوردهاند که میتواند هم برای مصاحبهکنندگان و هم مصاحبهشوندگان مفید باشد.
اگر به بازاریابی محتوا علاقهمند هستید، این کار را میتوانید از زاویهی بازاریابی محتوا هم ببینید. چون این نویسندگان در پایان این فایل PDF، کتابشان را هم معرفی کردهاند و در واقع این محتوا، برای بازاریابی یک محصول دیگر تولید و عرضه شده است.
سری مطالب حوزه سواد دیجیتالنوشته علم داده چیست و چه کاربردهایی دارد؟ اولین بار در متمم. پدیدار شد.