link:https://www.freecodecamp.org/news/data-science-vs-data-engineering

مترجم: زهرا قمری

بسیاری از افراد تصور می‌کنند دانشمند داده و مهندس داده فرق چندانی با هم ندارند یا مهندسی داده زیرمجموعه‌ای از علم داده است. در این پست، تفاوت‌های علم داده و مهندسی داده و وظایف اصلی هر کدام را بررسی می‌کنیم.

"داده‌ها مانند روغن هستند. این روغن ارزشمند است، اما اگر تصفیه نشده باشد واقعا نمی‌توان از آن استفاده کرد." - کلایو هامبی

مهندسی_داده

منظور ما از داده چیست؟

برای درک کامل رابطه بین علم داده و مهندسی داده، باید چیزی که این دو را به هم مرتبط می‌کند درک کرد یعنی داده‌ها. داده کلمه‌ای است که امروزه زیاد به گوش می‌رسد، با عبارت‌هایی مثل نشت داده‌ها، جمع‌آوری نامناسب داده‌ها توسط شرکت‌های بزرگ فناوری و غیره. به اطلاعاتی که در قالبی جمع‌آوری و ذخیره می‌شوند و می‌توانند توسط رایانه پردازش شوند، داده می‌گویند. داده می‌تواند به اشکال مختلف مانند عدد، متن، تصویر و ویدئو باشد. برای استخراج بینش و تصمیم‌گیری می‌توان داده‌ها را جمع‌آوری، ذخیره و تجزیه و تحلیل کرد.

حال چرا بسیاری از شرکت‌ها دنبال داده هستند و چه ویژگی خاصی در مورد آن وجود دارد؟

داده‌ها برای شرکت‌ها مهم هستند زیرا به آن‌ها اجازه می‌دهد تا تصمیمات آگاهانه‌ای در مورد عملیات و استراتژی‌های خود بگیرند. با تجزیه و تحلیل داده‌ها، شرکت‌ها می‌توانند دید خوبی در مورد رفتار کاربران خود به دست آورند و با استفاده از آن‌ها محصولات خود را کارآمدتر و مطلوب‌تر کنند و در نهایت به ارزش افزوده بیشتری دست یابند. دانشمندان و مهندسان داده مسئول جمع‌آوری داده‌ها، قابل استفاده کردن آن‌ها، تجزیه و تحلیلشان، دستیابی به بینش و روند داده‌ها هستند. آن‌ها با انتقال اطلاعاتی که استخراج کرده‌اند به مدیریت این امکان را می‌دهند تا آگاهانه تصمیم‌گیری کند.

حال بیایید تفاوت دانشمندان و مهندسان داده را بررسی کنیم.

علم داده چیست؟

علم داده توسط مجله هاروارد بیزینس ریویو به عنوان جذاب‌ترین شغل قرن بیست و یکم نامگذاری شد که عنوانی منطقی است. علم داده فرآیند استفاده از روش‌های علمی، الگوریتم‌ها و سیستم‌های علمی برای تجزیه و تحلیل و استخراج ارزش از داده‌ها است. به عبارت دیگر، دانشمند داده مسئول به دست آوردن بینش از داده‌ها و ساختن مدل‌های ریاضی انتزاعی از داده‌ها با هدف ممکن ساختن پیش‌بینی است.

حال به سراغ مهندسی داده و مهندس داده می‌رویم.

مهندسی داده چیست؟

مهندسی داده فرآیند طراحی، ساخت و نگهداری پایپلاین و زیرساخت‌هایی است که داده‌ها را جمع‌آوری، ذخیره، پردازش و تجزیه و تحلیل می‌کند. وظیفه مهندس داده اطمینان بخشیدن به این است که داده‌های مورد نیاز دانشمندان داده در قالب صحیح و دقیق در دسترس است. داده‌ها هنگام جمع‌آوری به طرز وحشتناکی پیچیده و بی‌نظم هستند. برای اینکه دانشمندان داده بتوانند دید خوبی نسبت به داده‌ها پیدا کنند، لازم است داده‌ها از پیش پردازش شوند. پس از اینکه دانشمندان داده دید مناسبی نسبت به داده‌ها پیدا کردند، به سراغ مدل عنوان مدل یادگیری ماشین شناخته می‌شود. این مدل نیاز به پردازش نهایی‌ دارد تا در محصول به کار گرفته شود. تمام این وظایف توسط مهندسان داده انجام می‌شود.مهندسی داده فرآیند طراحی، ساخت و نگهداری پایپلاین و زیرساخت‌هایی است که داده‌ها را جمع‌آوری، ذخیره، پردازش و تجزیه و تحلیل می‌کند. وظیفه مهندس داده اطمینان بخشیدن به این است که داده‌های مورد نیاز دانشمندان داده در قالب صحیح و دقیق در دسترس است. داده‌ها هنگام جمع‌آوری به طرز وحشتناکی پیچیده و بی‌نظم هستند. برای اینکه دانشمندان داده بتوانند دید خوبی نسبت به داده‌ها پیدا کنند، لازم است داده‌ها از پیش پردازش شوند. پس از اینکه دانشمندان داده دید مناسبی نسبت به داده‌ها پیدا کردند، به سراغ مدل سازی ماشین لرنینگ می‌روند که این مدل نیاز به آماده سازی نهایی‌ دارد تا در محصول به کار گرفته شود. تمام این وظایف توسط مهندسان داده انجام می‌شود.

ارتباط بین دانشمندان داده و مهندسان داده

تصور کنید با دوستتان روی نتیجه یک بازی فوتبال شرط‌بندی کرده‌اید. اگر بتوانید عامل شانس را که همیشه در حدس‌های ناآگاهانه وجود دارد حذف کنید، می‌توانید تا حد زیادی مطمئن باشید که تیم شما برنده بازی و شما برنده شرط‌بندی هستید. یک مهندس داده، داده‌های دو تیم را جمع‌آوری می‌کند. تعداد برد و باخت‌های هر تیم، میزان مالکیت توپ در هر بازی و نتایج مسابقات قبلی بین دو تیم را در نظر می‌گیرد. سپس یک پایپلاین ایجاد می‌کند که در آن داده‌ها جمع‌آوری، پاکسازی و برای دانشمند داده ذخیره می‌شوند. سپس دانشمند داده، با استفاده از یادگیری ماشین داده‌ها را  تجزیه و تحلیل و پیش‌بینی می‌کند. این بدان معنی است که دانشمند داده، داده‌های تهیه شده توسط مهندس داده را در یک مدل یادگیری ماشین استفاده می‌کند. سپس مدل یادگیری ماشین، تیم برنده را به درستی پیش‌بینی می‌کند. به این ترتیب حدس شما، بیشتر از یک حدس و گمان ساده و تصمیمی مبتنی بر داده می‌شود.

یک دانشمند داده شبیه یک بازیکن فوتبال است و مهندس داده مانند مربی بسیار با استعداد بازیکنان که آن‌ها را با آمادگی جسمانی مناسب نگه می‌دارد و تاکتیک‌هایی را برای برنده شدن در یک بازی به آن‌ها آموزش می‌دهد.