دریاچه داده (انگلیسی: Data lake) سیستم یا مخزن دادهای است که در قالب خام یا طبیعی و معمولاً به شکل بلابهای شیئی یا فایل ذخیره شدهاست،[۱] دریاچه داده معمولاً یک ذخیره واحد از دادهها شامل نسخههای خام دادههای سیستم منبع، دادههای حسگر، دادههای اجتماعی و غیره است،[۲] و دادههای تبدیلشده که برای کارهایی مانند گزارشدهی، مصورسازی داده، تجزیه و تحلیل پیشرفته و یادگیری ماشین استفاده میشود. یک دریاچه داده میتواند شامل دادههای ساختاریافته از پایگاههای داده رابطهای (ردیفها و ستونها)، دادههای نیمه ساختاریافته (CSV، گزارشها، XML، JSON)، دادههای بدون ساختار (ایمیلها، اسناد، فایلهای PDF) و دادههای باینری (تصاویر، صدا، ویدئو) باشد.[۳] یک دریاچه داده را میتوان «در محل» (در مراکز داده سازمان) یا «در فضای ابری» (با استفاده از خدمات ابری از فروشندگانی مانند آمازون، مایکروسافت، یا گوگل) ایجاد کرد.
دریاچههای دادهای که مدیریت ضعیفی دارند، بهطور ظاهری باتلاق داده نامیده میشوند.[۴]
مثالها
بسیاری از شرکتها از سرویسهای ذخیرهسازی ابری مانند Google Cloud Storage و Amazon S3 یا یک سیستم فایل توزیعشده مانند سیستم فایل توزیعشده Apache Hadoop (ADFS) استفاده میکنند.[۵] علاقهٔ عمومی در حال ازدیاد دانشگاهی به مفهوم دریاچههای داده وجود دارد. به عنوان مثال، Personal DataLake در دانشگاه کاردیف نوع جدیدی از دریاچه دادهاست که هدف آن مدیریت کلان دادههای کاربران با ارائه یک نقطه واحد جمعآوری، سازماندهی و اشتراکگذاری دادههای شخصی است.
جستارهای وابسته
منابع