data

دریاچه داده چیست؟

امروزه انواع جدیدی از داده‌ ها با رشد سرسام‌آوری در حال شکل‌گیری هستند. داده‌هایی که توسط وب‌سایت‌های سازمان‌ها، صفحات شبکه‌های اجتماعی، سنسورها و دستگاه‌های متصل به وب، اطلاعات مسیرهای حرکتی با دستگاه‌های GPS و به‌طور عمومی اینترنت اشیاء و شبکه‌های اجتماعی یا سازوکارهای نظیر آن‌ها ایجاد می شوند، این پرسش را به وجود آورده‌اند که آیا اساساً استفاده از فناوری «انبار داده» به منظور ذخیره و تحلیل این اطلاعات از اثربخشی ِ لازم برخوردارند یا خیر. یکی از موضوعاتی که در تحلیل انواع جدید داده‌ها اهمیت دارد، حجم بالایی از داده‌هاست که با سرعتی سرسام‌آور رشد می‌کنند و مدل‌های ذخیره‌سازی و تحلیل‌های مبتنی بر رایانه‌های منفرد، پاسخ‌گوی آن‌ها نیستند. از طرفی توسعه پلتفرم‌های مختلف ذخیره‌سازی داده‌ها مانند فایل سیستم‌های توزیع‌شده در داده‌های بزرگ (مانند Hadoop) یا سیستم‌های ذخیره سازی ابری (مانند Amazon S۳) که انواع مختلفی از داده‌های ساخت یافته یا غیر ساخت‌یافته را در خود ذخیره می‌کنند و لزوم تحلیل دقیق و سریع آن‌ها، مدل انبار داده سنتی را به صورت جدی به چالش کشیده است. مفهوم دریاچه داده (Data lake) در پاسخ‌گویی به نیاز مذکور به تدریج توسعه پیدا کرده است. به منظور تشریح این مفهوم از تمثیلی استفاده می‌کنیم که جیمز دیکسون (James Dixon) مدیر ارشد فناوری پنتاهو (Pentaho) برای اولین بار به کار...
Read More