Merhaba Arkadaşlar,
Geçtiğimiz aylarda karşımıza çıkan yeni hadoop 3.1 ve Hortownorks 3.0 data platformunu bir kaç projede kullandıktan sonra kendime göre öenmli özellikleri sizlerle paylaşmak istedim.
Öncelikle Platformun ana odak noktaları Faster-Smarter ve Hybrid. Bunların dışındaki odaklarımız ise her zaman oldugu gibi büyük veri , Real-time database ,Security ve Governance.
Önümüzdeki yıllarda hedeflerimizin Büyük veri ,IOT ,Streaming , Data science olacağını net bir şekilde görüyoruz bu izlenimi Hortonworks tarafında da bu şekilde olduğu net bir şekilde gözüküyor.
Data platformun çok daha agile olması Containerized Micro-Services sayesinde operational data store , data science , EDW , security ve governance özellikleri olmalı.
Deep learning & GPU desteği ve kullanımı deep learning frameworkleri Tensorflow ve Caffe başta olmak üzere Gpu pooling ve Isolation yapacak şekilde konumlanıyor.
Çok daha iyi security ve Governance barındıran Data swamplardan Data Lake geçiş yine önemli başlıklardan
Real Time EDW başlığında ise Bir SQL katmanı sayesinde Geçmiş ve anlık verilere ulaşmak çok önemli ve tabiki Hadoop Ecosystemi.
Gelelim biraz daha detaylara
Faster Time to Deployment— Containerization.
-Çok daha esnek bir veri mimarisi
-Çok daha hızlı ,çevik ve esnek bir veri işleme
-Developerlar için hızlı veri uygulamalarını oluşturabilme
-Applicationların , deployment ortamlarında hızlı, güvenilir ve tutarlı bir şekilde dağıtılması
GPU Desteği
Gpu desteği bizim için DL/ML uygulamalarının performansı için son derece önemli bir yer tutuyor.
Veri bilimcilerin günler ve aylar sürebilecek işleri saatler ve dakikalara indirmesini sağlayacak güçlü mimari
Spark ve TensorFlow beraber çalışması , tensorflow Yarn entegrasyonu.
Sadece on premise HDFS değil de ADLS (azure Data lake storage) , Windows Azure Storage BLOB(WASB) , Amazon S3 , Google Cloud storage kullanabilme. Cloud agnostic bir mimariye sahip olma.
Binlerce Nodenun beraber daha iyi bir şekilde çalışmasını sağlayan NameNode federation özellikleri.
Erasure Coding özelliği sayesinde TCO maliyetleri azaltma.
Real Time Database özelliği
Real time ve historical datayı SQL analitikleri ile kolaylıkla kullanabilme.
Materialized View özellikleri.
Hive query optimizer sayesinde otomatik olarak materialized viewsların ayaga kaldırılması ve hızlanan sorgular.
Workload management ve Default gelen ACID.
Yeni real time Database özellikleri sayesinde çok daha kolay Streaming datasını real time analiz ediyoruz.
Auditten Time-based policilere Tag propagation kadar Güvenlik ve governance özellikleri , harika entegre bir ranger.
Ve tabiki Ambari 2.7 . Bambaşka bir interface . Bence çok daha güzel olmuş . İlk bir iki saatten sonra alışılan ve gerek görsel gerek kullanım olarak daha iyi olulşturulmuş bir ambari yönetim birimi.
Kısacası Hive 3.0 , Compute&GPU platform Yarn in Apache Hadoop 3.1 , Hbase 2.0 , Druid , Spark 2.3 , Atlas 1.0 , Ranger 1.0 , Knox 1.0 , Ambari 2.7 ve HDFS on Hadoop 3.1 en önemli ürünler olarak ortaya çıkıyor.
Büyük veri platformu tercihi konusunda gerek Hortonworks gerek Cloudera ve Mapr arasında benim tercihim Hortonworks oldu. Ben Yeşil Filleri seviyorum. Bu konuda benim tercihimi %100 Open Source olma 1300 üzerinde enterprise müşteri geçtiğimiz sene ABD de en hızlı büyüyen şirketlerden olma ve tabiki data in motion & Data at rest bağlantısı var.
Bir sonraki yazımda ön plana çıkan özellikler ile iligili tek tek detaylar ve örnekler paylaşacağım. Bu konularla ilgilenen şirketlerdeki uzman arkadaşlarım benimle temasa geçebilirsiniz. Şirketinizde sizle daha fazla bilgi paylaşmamız mümkün olabilir.
Üniversitelerdeki arkadaşlarımda takvimim el verdiği fırsatlarda seminerlerde bulusabiliriz
Selamlar.