Data Lake Nedir ?

Data Lake , Tek store da structure , semi-structure veya raw dataların tutulması ve raporlama , analitik , görselleştirme gibi çeşitli görevler için kullanmasıdır. Aslında Data Lake bir bir teknoloji önermez, yalnızca gereksinimler. Data Lakes genellikle Hadoop’la ele alınabilir ama aslında Hadoop, NoSQL, S3, RDBMS veya bunların kombinasyonları gibi çoklu teknolojiler üzerine kurulabilir

 

Screen Shot 2018-02-14 at 15.27.51

Data lakes can be based on HDFS, but are not limited to that environment; for example, object stores such as Amazon Simple Storage Service (S3)/Microsoft Azure or NoSQL DBMSs like HBase or Cassandra can also be environments for data lakes.” — Gartner

Gartnerın yukarıdaki tanımlaması günümüzde dahada gelişti diyebiliriz.

Günümüzde Data Lake ‘in

Bazı ana design kuralları vardır.

Öncelikle Data ingestion sistemi otomatikleştirilmeli ve güvenilir olmalıdır.

Tüm filelar içine çekilebilmelidir.

Bu ingest işlemi en günlük sıklıkta olmalıdır.

Orjinal formda saklanan veriler olmalıdır.

Governance ve  güvenlik agile ile dengelenmelidir.

Düşük maliyetli teknolojilerle sağlanmalıdır.

Peki firmalar Data Lake neden ihtiyaç duyarlar?

Birçok farklı ve önemli başlığı var aslında ama bunlardan bazıları yazmak gerekirse

Çoğu zaman  çok büyük, çok küçük, çok hızlı, çok yavaş, bozuk, yanlış veya yanlış biçimde veri alabiliriz.

Bugün kurumların öncelikleri hızla değişiyor yeni flowlar oluşturma mevcut olanları değiştirme hızlı olmalıdır.

Protokol ve formatlar her zaman değişebilirler. Dataflow ,esas itibariyle birlikte çalışmak için gevşek olan veya olmayan bileşenlerden oluşan bir sistemi birleştirmek için kullanılır.

Kanunlar, düzenlemeler ve policyler  değişir. İşletmeler arası anlaşmalar değişir. Sistemden sisteme ve sistemle kullanıcı arasındaki etkileşimler güvenli, güvenilir ve hesap verebilir olmalıdır.

DATA Lake sayesinde yeni firsatlar nelerdir?

  • Data önceden kullanılmayan , imkansız görünen  farklı kaynaklardaki verileri eklemek , Farklı büyüklükteki veri setlerini önceden toplama / işleme koyma. Büyük volumelerde ve geçmişteki datayla analitik çalışabilme
  • Veri bilimi oluşması ve iyileştirilmesi. Predictive analitik ve machine learning işlemlerinin kolaylaştırılması.
  • Ve tabiki maliyetler. Operasyonel ve analitik sistemlerin offloading i
    Uzun vadeli saklama için geçmiş verilerini arşivleme
    Düşük maliyetli temizlik, validation  ve profil oluşturma

Bir Data Lake projesi muhtemelen birkaç milyon dolarlık bir yatırım olacaktır. Kurumlarda başarılı bir Data Lake programı oluşturmak için yeterli tecrübeye sahip uzman sayısının az olmasıda bunda etkendir.

Tabi birde günün sonunda bu Data Lake ‘i business userlarının kolay kullanacağı bir hale getirmek var. Günümüzde IT mutlaka Spark ,Kafka , Hadoop Nifi öğrenmelidir. Ancak bu teknolojilerin çok kolay olduğunu tam doğru olmaz. Doğru design edilmiş Data lake çözümünde kolay monitor edilen data pipelines ve data profiling ve discover aşamaları olmalıdır.

Bu konunun ana başlıklarına baktığımızda Hadoop Ortamına ek olarak

Kylo Data Lake sofware platformu ile

Screen Shot 2018-02-14 at 15.04.34

 

Screen Shot 2018-02-14 at 15.22.17

 

Bu konuda detay bilgi istiyorsanız bana ulaşabilirsiniz . Her zaman destek olmak isterim.

Saygılar.

 

 

 

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s