link:https://www.techtarget.com/searchenterpriseai/definition/data-scientist
مترجم: آرین رشتی باف
مقدمه
دانشمند داده یک متخصص تجزیه و تحلیل است که مسئولیت جمع آوری، تجزیه و تحلیل و تفسیر داده ها را برای کمک به تصمیم گیری در یک سازمان بر عهده دارد. نقش دانشمند علم داده ترکیبی از عناصر چندین شغل سنتی و فنی از جمله ریاضیدان، آماردان و برنامه نویس کامپیوتر است که شامل استفاده از تکنیک های پیشرفته تجزیه و تحلیل، مانند یادگیری ماشین و مدل سازی پیش بینی، همراه با استفاده از اصول علمی میباشد. به عنوان بخشی از ابتکارات علم داده، دانشمندان داده اغلب باید با حجم زیادی از داده ها برای توسعه و آزمایش فرضیه ها، استنباط و تجزیه و تحلیل مواردی مانند روندهای مشتری و بازار، ریسک های مالی، تهدیدات امنیت سایبری، معاملات سهام، نیازهای تعمیر و نگهداری تجهیزات و شرایط پزشکی کار کنند. در کسبوکارها، دانشمندان داده معمولاً دادهها را برای اطلاعاتی استخراج میکنند که میتواند برای پیشبینی رفتار مشتری، شناسایی فرصتهای درآمدی جدید، شناسایی تراکنشهای متقلبانه و رفع نیازهای دیگر کسبوکار مورد استفاده قرار گیرد. آنها همچنین کار تجزیه و تحلیل ارزشمندی را برای ارائه دهندگان مراقبت های بهداشتی، موسسات دانشگاهی، سازمان های دولتی، تیم های ورزشی و انواع دیگر سازمان ها انجام می دهند.
دانشمند داده برای اولین بار در سال 2008 به طور همزمان در فیسبوک و لینکدین به عنوان شغل مورد استفاده قرار گرفت. چهار سال بعد، مقالهای در هاروارد بیزینس آن را «جذابترین شغل قرن بیست و یکم» نامید. تقاضا برای مهارت های علم داده در طول سال ها به طور قابل توجهی افزایش یافته است، زیرا شرکت ها به دنبال جمع آوری اطلاعات مفید از افزایش حجم داده های بزرگ هستند و از فناوری های هوش مصنوعی (AI) و یادگیری ماشین برای فعال کردن انواع جدیدی از برنامه های تحلیلی استفاده می کنند.
نقش ها و مسئولیت های دانشمندان داده
دانشمندان داده نقش اصلی را در کاربردهای علم داده در سازمان ها ایفا می کنند. آنها معمولاً وظیفه یافتن اطلاعاتی را بر عهده دارند که باعث بازاریابی موثرتر، بهبود خدمات به مشتریان، مدیریت زنجیره تامین قوی تر و به طور کلی تصمیمات و استراتژی های تجاری بهتر میشود. برای انجام این کار، آنها مجموعه ای از داده های کمی و کیفی را، با توجه به نیازهایشان، تجزیه و تحلیل می کنند.
همچنین ممکن است از آنها خواسته شود که دادهها را کاوش کنند، بدون اینکه مسئله تجاری خاصی برای حل به آنها داده شود. در این سناریو، یک دانشمند داده باید هم داده ها و هم کسب و کار را به خوبی درک کند، کار تجزیه و تحلیل را انجام دهد و بینش هایی را در مورد تغییرات احتمالی در عملیات، محصولات یا خدمات تجاری به مدیران کسب و کار ارائه دهد.
مسئولیت های اساسی یک دانشمند داده شامل فعالیت های زیر است:
- جمع آوری و آماده سازی داده های مربوطه برای استفاده در کاربرد های تحلیلی
- استفاده از انواع مختلف ابزارهای تحلیلی برای تشخیص الگوها، روندها و روابط در مجموعه داده ها
- توسعه مدل های آماری و پیش بینی برای اجرا بر روی مجموعه داده ها
- مصورسازی های داده، داشبوردها و گزارش ها برای انتقال یافته هایشان
در بسیاری از سازمان ها، دانشمندان داده همچنین مسئول کمک به تعریف و ترویج بهترین شیوه ها برای جمع آوری، آماده سازی و تجزیه و تحلیل داده ها هستند.
ویژگی های یک دانشمند داده موثر
ویژگی های شخصی و مهارت های نرم مورد نیاز دانشمندان داده شامل کنجکاوی فکری، تفکر انتقادی، شهود خوب، توانایی های حل مسئله و خلاقیت است. توانایی همکاری با افراد دیگر نیز حیاتی است. دانشمندان داده معمولاً در یک تیم علم داده کار می کنند که شامل مهندسان داده، تحلیلگران داده و سایرین نیز می شود. و این نقش اغلب شامل کار با تیم های تجاری مختلف از جمله تیم مارکتینگ به طور منظم است. بسیاری از کارفرمایان از دانشمندان داده خود انتظار دارند که ارتباطات قوی ای داشته باشند تا بتوانند از قابلیت های داستان سرایی داده برای ارائه و توضیح بینش داده ها به مدیران تجاری، مدیران و کارگران استفاده کنند. آنها همچنین به قابلیت های رهبری و دانش تجاری برای کمک به هدایت فرآیندهای تصمیم گیری مبتنی بر داده در یک سازمان نیاز دارند.
صلاحیت ها و مهارت های مورد نیاز
دانشمندان داده باید بتوانند طیف گسترده ای از برنامه ریزی، مدل سازی و وظایف تحلیلی پیچیده را به موقع انجام دهند. این شغل نیازمند دانش ابزارها و کتابخانه های مختلف علوم داده است. پلتفرم های کلان داده، مانند Spark، Kafka، Hadoop و Hive و زبان های برنامه نویسی که شامل Python، R، Julia، Scala و SQL هستند. مهارتهای فنی مورد نیاز برای این شغل شامل دادهکاوی، مدلسازی پیشبینیکننده، یادگیری ماشینی و یادگیری عمیق، و همچنین پردازش دادههای اولیه و آمادهسازی دادهها است. توانایی کار با ترکیبی از داده های ساختاریافته، نیمه ساختاریافته و بدون ساختار نیز اغلب یک نیاز است، به ویژه در محیط های کلان داده که حاوی انواع مختلفی از داده ها هستند. تجربه در تحقیقات آماری و تکنیک های تحلیلی مانند طبقه بندی، خوشه بندی، رگرسیون و تقسیم بندی - نیز ضروری است. در برخی موارد، تخصص در پردازش زبان طبیعی (NLP) ، بینایی ماشین دیگر از پیش نیازها است.
نمونه هایی از مهارت های لازم ذکر شده در آگهی های شغلی عبارتند از:
- تخصص در تمام مراحل علم داده، از کشف داده های اولیه تا پاکسازی داده ها و انتخاب مدل، اعتبار سنجی و استقرار
- تجربه استفاده از روش های آماری برای حل مسائل تحلیلی
- مهارت در فریم ورک های معروف یادگیری ماشین
- آشنایی با علم داده رایج و تکنیکهای یادگیری ماشین، مانند درختهای تصمیم، K-نزدیکترین همسایگان، طبقهبندیکنندههای ساده بیز، جنگلهای تصادفی و ماشینهای بردار پشتیبانی
- تجربه کار با تکنیک هایی برای تجزیه و تحلیل کیفی و کمی
- توانایی شناسایی فرصت های جدید برای به کارگیری ابزارهای یادگیری ماشین و داده کاوی در فرآیندهای تجاری برای بهبود کارایی و اثربخشی آنها
- تجربه کار با پلتفرمها و خدمات ابر عمومی
- آشنایی با طیف گسترده ای از منابع داده، از جمله پایگاه های داده و پلتفرم های کلان داده، و همچنین API های عمومی یا خصوصی و فرمت های داده استاندارد، مانند JSON، YAML و XML
- توانایی جمع آوری داده ها از منابع متفاوت و آماده سازی آن برای تجزیه و تحلیل
- تجربه کار با ابزارهای مصور سازی داده ها، مانند Tableau و Power BI
- توانایی طراحی و پیاده سازی داشبوردهای گزارش دهی که می توانند معیارهای کلیدی کسب و کار را ردیابی کنند و بینش عملی ارائه دهند.
- توانایی انجام تجزیه و تحلیل موقت و ارائه نتایج به شیوه ای واضح
حوزه های اصلی علم داده
جنبه های کلیدی شغل یک دانشمند داده شامل رشته های زیر است:
- آماده سازی داده ها: اولین گام در کاربردهای علم داده جمع آوری و آماده سازی داده هایی است که مورد تجزیه و تحلیل قرار می گیرد. آماده سازی داده ها فرآیند جمع آوری، پاکسازی، سازماندهی، تبدیل و اعتبارسنجی مجموعه داده ها برای تجزیه و تحلیل است. دانشمندان داده اغلب با مهندسان داده در مرحله آماده سازی داده ها کار می کنند.
- تجزیه و تحلیل داده ها: تجزیه و تحلیل داده ها برای شناسایی روندها، همبستگی ها، ناهنجاری ها و سایر اطلاعات مفید، هدف اصلی ابتکارات علم داده است. به طور کلی، کار تجزیه و تحلیل انجام شده توسط دانشمندان داده با هدف بهبود عملکرد کسب و کار و کمک به سازمان ها برای به دست آوردن مزیت رقابتی نسبت به رقبای تجاری است.
- داده کاوی: به عنوان بخشی از تلاش های تجزیه و تحلیل داده ها، این شامل تلاش برای کشف الگوها و روابط در مجموعه داده های بزرگ است. داده کاوی معمولاً با اعمال الگوریتم های پیشرفته بر روی داده هایی که در حال تجزیه و تحلیل هستند انجام می شود. سپس دانشمندان داده از نتایج تولید شده توسط الگوریتم ها برای ایجاد مدل های تحلیلی استفاده می کنند.
- یادگیری ماشین: به طور فزاینده ای، داده کاوی و تجزیه و تحلیل توسط یادگیری ماشین هدایت می شوند، که در آن الگوریتم هایی برای یادگیری مجموعه داده ها و سپس یافتن اطلاعات مورد نظر در آنها ساخته می شوند. دانشمندان داده مسئول آموزش و نظارت بر الگوریتم های یادگیری ماشین در صورت لزوم هستند. یادگیری عمیق شکل پیشرفته تری است که از شبکه های عصبی مصنوعی استفاده می کند.
- ساختن مدل پیش بینی کننده؛ دانشمندان داده معمولاً باید بتوانند مدل های پیش بینی سناریوهای تجاری مختلف را برای تجزیه و تحلیل نتایج و رفتار بالقوه ایجاد کنند. برای مثال، مدلهایی را میتوان برای پیشبینی چگونگی پاسخ مشتریان مختلف به پیشنهادات بازاریابی یا ارزیابی شاخصهای احتمالی بیماریها ساخت.
- تحلیل آماری: کار علم داده همچنین شامل استفاده از تکنیک های تجزیه و تحلیل آماری برای تجزیه و تحلیل مجموعه داده ها است. تجزیه و تحلیل آماری جنبه اصلی کاری است که دانشمندان داده برای کشف داده ها و یافتن روندها و الگوهای اساسی برای تجزیه و تحلیل و تفسیر انجام می دهند.
- مصورسازی داده ها: یافتههای کاربردهای علم داده معمولاً در نمودارها یا انواع دیگر مجسم سازی دادهها سازماندهی میشوند تا مدیران تجاری و کارگران بتوانند به راحتی آنها را درک کنند. در بسیاری از موارد، دانشمندان داده تجسم های متعدد را در گزارش ها، داشبوردهای تعاملی یا داستان های داده های دقیق ترکیب می کنند.