link:https://www.freecodecamp.org/news/data-science-vs-data-engineering
مترجم: زهرا قمری
بسیاری از افراد تصور میکنند دانشمند داده و مهندس داده فرق چندانی با هم ندارند یا مهندسی داده زیرمجموعهای از علم داده است. در این پست، تفاوتهای علم داده و مهندسی داده و وظایف اصلی هر کدام را بررسی میکنیم.
"دادهها مانند روغن هستند. این روغن ارزشمند است، اما اگر تصفیه نشده باشد واقعا نمیتوان از آن استفاده کرد." - کلایو هامبی
منظور ما از داده چیست؟
برای درک کامل رابطه بین علم داده و مهندسی داده، باید چیزی که این دو را به هم مرتبط میکند درک کرد یعنی دادهها. داده کلمهای است که امروزه زیاد به گوش میرسد، با عبارتهایی مثل نشت دادهها، جمعآوری نامناسب دادهها توسط شرکتهای بزرگ فناوری و غیره. به اطلاعاتی که در قالبی جمعآوری و ذخیره میشوند و میتوانند توسط رایانه پردازش شوند، داده میگویند. داده میتواند به اشکال مختلف مانند عدد، متن، تصویر و ویدئو باشد. برای استخراج بینش و تصمیمگیری میتوان دادهها را جمعآوری، ذخیره و تجزیه و تحلیل کرد.
حال چرا بسیاری از شرکتها دنبال داده هستند و چه ویژگی خاصی در مورد آن وجود دارد؟
دادهها برای شرکتها مهم هستند زیرا به آنها اجازه میدهد تا تصمیمات آگاهانهای در مورد عملیات و استراتژیهای خود بگیرند. با تجزیه و تحلیل دادهها، شرکتها میتوانند دید خوبی در مورد رفتار کاربران خود به دست آورند و با استفاده از آنها محصولات خود را کارآمدتر و مطلوبتر کنند و در نهایت به ارزش افزوده بیشتری دست یابند. دانشمندان و مهندسان داده مسئول جمعآوری دادهها، قابل استفاده کردن آنها، تجزیه و تحلیلشان، دستیابی به بینش و روند دادهها هستند. آنها با انتقال اطلاعاتی که استخراج کردهاند به مدیریت این امکان را میدهند تا آگاهانه تصمیمگیری کند.
حال بیایید تفاوت دانشمندان و مهندسان داده را بررسی کنیم.
علم داده چیست؟
علم داده توسط مجله هاروارد بیزینس ریویو به عنوان جذابترین شغل قرن بیست و یکم نامگذاری شد که عنوانی منطقی است. علم داده فرآیند استفاده از روشهای علمی، الگوریتمها و سیستمهای علمی برای تجزیه و تحلیل و استخراج ارزش از دادهها است. به عبارت دیگر، دانشمند داده مسئول به دست آوردن بینش از دادهها و ساختن مدلهای ریاضی انتزاعی از دادهها با هدف ممکن ساختن پیشبینی است.
حال به سراغ مهندسی داده و مهندس داده میرویم.
مهندسی داده چیست؟
مهندسی داده فرآیند طراحی، ساخت و نگهداری پایپلاین و زیرساختهایی است که دادهها را جمعآوری، ذخیره، پردازش و تجزیه و تحلیل میکند. وظیفه مهندس داده اطمینان بخشیدن به این است که دادههای مورد نیاز دانشمندان داده در قالب صحیح و دقیق در دسترس است. دادهها هنگام جمعآوری به طرز وحشتناکی پیچیده و بینظم هستند. برای اینکه دانشمندان داده بتوانند دید خوبی نسبت به دادهها پیدا کنند، لازم است دادهها از پیش پردازش شوند. پس از اینکه دانشمندان داده دید مناسبی نسبت به دادهها پیدا کردند، به سراغ مدل عنوان مدل یادگیری ماشین شناخته میشود. این مدل نیاز به پردازش نهایی دارد تا در محصول به کار گرفته شود. تمام این وظایف توسط مهندسان داده انجام میشود.مهندسی داده فرآیند طراحی، ساخت و نگهداری پایپلاین و زیرساختهایی است که دادهها را جمعآوری، ذخیره، پردازش و تجزیه و تحلیل میکند. وظیفه مهندس داده اطمینان بخشیدن به این است که دادههای مورد نیاز دانشمندان داده در قالب صحیح و دقیق در دسترس است. دادهها هنگام جمعآوری به طرز وحشتناکی پیچیده و بینظم هستند. برای اینکه دانشمندان داده بتوانند دید خوبی نسبت به دادهها پیدا کنند، لازم است دادهها از پیش پردازش شوند. پس از اینکه دانشمندان داده دید مناسبی نسبت به دادهها پیدا کردند، به سراغ مدل سازی ماشین لرنینگ میروند که این مدل نیاز به آماده سازی نهایی دارد تا در محصول به کار گرفته شود. تمام این وظایف توسط مهندسان داده انجام میشود.
ارتباط بین دانشمندان داده و مهندسان داده
تصور کنید با دوستتان روی نتیجه یک بازی فوتبال شرطبندی کردهاید. اگر بتوانید عامل شانس را که همیشه در حدسهای ناآگاهانه وجود دارد حذف کنید، میتوانید تا حد زیادی مطمئن باشید که تیم شما برنده بازی و شما برنده شرطبندی هستید. یک مهندس داده، دادههای دو تیم را جمعآوری میکند. تعداد برد و باختهای هر تیم، میزان مالکیت توپ در هر بازی و نتایج مسابقات قبلی بین دو تیم را در نظر میگیرد. سپس یک پایپلاین ایجاد میکند که در آن دادهها جمعآوری، پاکسازی و برای دانشمند داده ذخیره میشوند. سپس دانشمند داده، با استفاده از یادگیری ماشین دادهها را تجزیه و تحلیل و پیشبینی میکند. این بدان معنی است که دانشمند داده، دادههای تهیه شده توسط مهندس داده را در یک مدل یادگیری ماشین استفاده میکند. سپس مدل یادگیری ماشین، تیم برنده را به درستی پیشبینی میکند. به این ترتیب حدس شما، بیشتر از یک حدس و گمان ساده و تصمیمی مبتنی بر داده میشود.
یک دانشمند داده شبیه یک بازیکن فوتبال است و مهندس داده مانند مربی بسیار با استعداد بازیکنان که آنها را با آمادگی جسمانی مناسب نگه میدارد و تاکتیکهایی را برای برنده شدن در یک بازی به آنها آموزش میدهد.