DataOps مجموعه ای از روشها، فرآیندها و تکنولوژیهایی است که دیدگاهی یکپارچه و فرآیندگرا در ارتباط با دادهها را با خودکارسازی روشهای سریع مهندسی نرمافزار برای توسعه و بهبود کیفیت، سرعت و همکاری و ترویج فرهنگ توسعه مداوم در زمینه تحلیل دادهها ترکیب میکند.[۱] DataOps که بصورت مجموعه ای از بهترین شیوهها شروع بکار کرد، اکنون به یک رویکرد جدید و مستقل برای تحلیل دادهها تبدیل شده است.[۲] DataOpsبرای کل چرخه داده[۳] از آمادهسازی داده تا گزارشدادن اعمال میشود و ماهیت بههمپیوسته تیم تحلیل دادهها و عملیات فناوری اطلاعات را نیز تشخیص میدهد.[۴]
DataOps اصول Agile را برای کوتاهتر کردن چرخه زمانی توسعه تجزیه و تحلیل در راستای اهداف تجاری ترکیب میکند.[۳]
DevOps با استفاده از منابع IT بر پایه تقاضا و خودکارسازی آزمونها و گسترش نرمافزارها بر تحویل مداوم و یکپارچه تمرکز دارد. این ادغام توسعه نرمافزار و عملیاتهای IT، سرعت، کیفیت، قابلیت پیشبینی و مقیاس مهندسی نرمافزار و گسترش و استقرار را بهبود بخشیده است. DataOps با استفاده از روشهای DevOps، به دنبال ایجاد همین پیشرفتها در تحلیل دادهها است.[۴]
DataOps از کنترل آماری فرایندها (SPC) برای نظارت و کنترل بر خط لوله تحلیل دادهها استفاده میکند. باوجود SPC داده هایی که از طریق یک سیستم عملیاتی جریان میابند، دائماً تحت نظارت هستند و فعال بودن آنها تأیید میشود. اگر ناهنجاریای رخ دهد، تیم تحلیل داده توسط هشدار خودکاری مطلع میشوند.[۵]
DataOps به یک فناوری، معماری، ابزار، زبان و یا چهارچوب خاص وابسته نیست. ابزارهایی که از DataOps پشتیبانی میکنند، همکاری، هماهنگی، کیفیت، امنیت، دسترسی و آسانی استفاده را بهبود بهبود میبخشند و ارتقاء میدهند.[۶]
تاریخچه
DataOps اولین بار توسط Lenny Liebman، ویراستار کمکی در مجله اینفورمیشنویک، در یک پست وبلاگی در IBM Big Data & Analytics Hub با عنوان " ۳ دلیل برای اینکه چرا DataOps برای موفقیت کلانداده ضروری است" در ۱۹ ژوئن ۲۰۱۴ معرفی شد.[۷] اصطلاح DataOps بعدها توسط Andy Palmer از Tamr and Steph رایج شد.[۸][۴] DataOps کوتاه شده و نام خودمانی "Data Operations" است.[۳] سال ۲۰۱۷ با توسعه قابل توجه اکوسیستم، پوشش تحلیلگران، افزایش جستجوی کلمات کلیدی، نظرسنجیها، انتشارات و پروژههای منبعباز، سال مهمی برای DataOps بود.[۹] گارتنر DataOps را در چرخه محبوبیت برای مدیریت داده در سال ۲۰۱۸ نام برد.[۱۰]
اهداف و فلسفه
پیشبینی میشود که حجم دادهها تا سال ۲۰۲۵ با نرخ ۳۲ درصد CAGR به ۱۸۰ زتابایت افزایش یابد( منبع: IDC).[۶] DataOps بهدنبال ارائه ابزارها، فرآیندها و ساختارهای سازمانی است تا از عهده این افزایش قابلتوجه دادهها بربیاید.[۶] خودکارسازی، نیازهای روزانه مدیریت پایگاه دادههای یکپارچه بزرگ را ساده میکند و تیم داده را آزاد میکند تا تجزیه و تحلیلهای جدید را به روشی کارآمدتر و مؤثرتر توسعه دهند.[۱۱][۴] DataOps به دنبال افزایش سرعت، قابلیت اطمینان و کیفیت تحلیل دادهها است.[۱۲] این بر ارتباط، همکاری، ادغام، خودکارسازی، اندازهگیری و همکاری بین دانشمندان داده، تحلیلگران داده، مهندسین داده/ETL(extract, transform, load)، فناوری اطلاعات(IT) و تضمین کیفیت/نظارت تأکید دارد.
اجرا
Toph Whitmore در Blue Hill Research این اصول رهبری DataOps را برای بخش فناوری اطلاعات ارائه میدهد:[۲]
"اندازه گیری پیشرفت و عملکرد را در هر مرحله از گردش داده تصدیق کنید. در صورت امکان، زمانهای چرخه گردش دادهها را در معیار قرار دهید.
با انجام "eyeball test" اعتبارسنجی کنید: حلقههای بازخورد انسانی مبتنی بر بهبود مستمر را شامل شود. مصرفکنندگان باید بتوانند به دادهها اعتماد کنند و این فقط با اعتبارسنجی افزایشی حاصی میشود.
تا جایی که ممکن است مراحل گردش داده از جمله هوش تجاری، علم داده و تحلیل داده را خودکار کنید.
با استفاده از معیار اطلاعات عملکرد، تنگناها را شناسایی کرده و سپس آنها را بهینه کنید. این ممکن است نیاز به سرمایهگذاری در لوازم سختافزار یا خودکارسازی یک مرحله علومداده که قبلاً توسط انسان در این فرآیند ارائه میشد داشته باشد.
سعی در ایجاد نظم در نظارت، با تمرکز ویژه بر کنترل دو طرفه داده، شفافیت و ردیابی کامل اصالت سنجی داده ها در کل گردش کار کنید.
فرآیندی برای رشد و توسعهپذیری طراحی کنید. مدل گردش داده باید طوری طراحی شود که حجم و تنوع دادهها را در خود جای دهد. اطمینان حاصی کنید که فناوریهای فعال قیمت مقرون به صرفهای دارند تا با رشد دادههای آن سازمان تناسب داشته باشند."