Data Engineer Kimdir , Nasıl Data Engineer olunur? Bir data Engineer kariyer planı nasıl olmalıdır?

Sevgili arkadaşlar bu yazımda sizlere çok önemli ve şirketler için vazgeçilmez bir rol üstlenen Data Engineer lardan bahsetmek istiyorum. Data önceki yazımda Data Scientist (veri bilimci) kimdir ne iş yapar detaylı paylaşmıştım. Ufak tefek farklılıklar göstersede Data scientist bence bir software engineer dan daha fazla istatistik bilgisi olan ve bir istatistikçiden de daha fazla yazılım … Continue reading Data Engineer Kimdir , Nasıl Data Engineer olunur? Bir data Engineer kariyer planı nasıl olmalıdır?

Dataworks Summit 2019-Barcelona

Değerli dostlarım. Bu sene open source tarafında Dünyanın en önemli zirvelerinden olan Dataworks Summit te Bizde Türkiye Cumhuriyeti Merkez Bankasındaki değerli dostlarım  Emre Tokel , Kerem Basol , Yağmur Sahin ile beraber Developing High Frequency Indicators Using Real-Time Tick Data on Apache Superset and Druid başlıklı bir sunumda konuşmacı olarak yer alacağız. Airbustan Clouderaya  IBM den … Continue reading Dataworks Summit 2019-Barcelona

Büyük Veri ile Yeni trendler

Sevgili dostlarım , bugün büyük veri'nin önemini anlamayan şirketlerin çok yakın bir zaman içerisinde bulundukları konumları kaybedeceklerini düşünüyorum. Bir çok yazımda belirtiğim gibi büyük veri illaki şu kadar TB bu kadar PB demek değil. Sizin ulaşabileceğiniz toplayabileceğiniz verileri daha doğru analiz etmek bunları çöp veri veya incelenmeyen veriden kurtarmak bizim firmalara sağladığımız en önemli katkıların … Continue reading Büyük Veri ile Yeni trendler

Yeni Hadoop 3.1 ve Hortonworks Data Platform 3.0 önemli özellikler

Merhaba Arkadaşlar, Geçtiğimiz aylarda karşımıza çıkan yeni hadoop 3.1 ve Hortownorks 3.0 data platformunu bir kaç projede kullandıktan sonra kendime göre öenmli özellikleri sizlerle paylaşmak istedim. Öncelikle Platformun ana odak noktaları Faster-Smarter ve Hybrid. Bunların dışındaki odaklarımız ise her zaman oldugu gibi büyük veri , Real-time database ,Security ve Governance. Önümüzdeki yıllarda hedeflerimizin  Büyük veri … Continue reading Yeni Hadoop 3.1 ve Hortonworks Data Platform 3.0 önemli özellikler

Data Lake Nedir ?

Data Lake , Tek store da structure , semi-structure veya raw dataların tutulması ve raporlama , analitik , görselleştirme gibi çeşitli görevler için kullanmasıdır. Aslında Data Lake bir bir teknoloji önermez, yalnızca gereksinimler. Data Lakes genellikle Hadoop'la ele alınabilir ama aslında Hadoop, NoSQL, S3, RDBMS veya bunların kombinasyonları gibi çoklu teknolojiler üzerine kurulabilir   Data lakes … Continue reading Data Lake Nedir ?

Presto Nedir? Facebook , Netflix neden Prestoyu tercih ediyor

  Arkadaşlar Merhaba Bugün size Big data Teknolojileri üzerinde Processing tarafındaki çok önemli bir teknolojiden bahsedeceğim. Daha önceki yazılarımda Hive ve Spark tan bu alanda bahsetmiştim. Hive Analytics tarafında , Pig ETL tarafında , Spark Real Time Analytics , Machine Learning , streaming tarafında çok önemli oyuncular. Presto is Interactive Data&Ad/hoc anlamında ön plana çıkıyor.  … Continue reading Presto Nedir? Facebook , Netflix neden Prestoyu tercih ediyor

Yeni Nesil Datawarehouse . Apache Hive LLAP ile çok daha hızlı Interactive Query , Impala mı Hive mı?

Merhaba arkadaşlar. Hadoop platformu içerisinde çıktığı ilk günden bu yana en önemli servislerden biri Hive dersek yanılmamış oluruz. Hive bugune kadar bir çok şirkette modern Datawarehouse yapılanmasında inanılmaz avantajlar sundu. Kimi zaman performans sorunları ile eleştiriler olsada Hive 'ın tune edilebileceğini ve bu tuning işleminin inanılmaz önemli farklar yarattıgını söylemek lazım. Türkiye'de TBlarca veriyi hive … Continue reading Yeni Nesil Datawarehouse . Apache Hive LLAP ile çok daha hızlı Interactive Query , Impala mı Hive mı?

AWS servisleri ile Big Data (Kinesis, Lambda, Elasticsearch,Kibana)

Sevgili Dostlarım Big Data üzerinde bütün Cloud servis sağlıyacalarının sahane çözümleri ile karşı karşıyayız. Bu yazımda Amazon AWS nin bir takım önemli ürünlerinden bahsedeceğim. Bu yazımda AWS servislerinin hepsini ele almam mümkün değil onlar hakkında da yakında açıklamalar yapmaya çalışacağım. Bir sonraki yazı Google ve Oracle üstüne olacak.  Kendime göre hangi teknolojiyi neden tercih etmemiz … Continue reading AWS servisleri ile Big Data (Kinesis, Lambda, Elasticsearch,Kibana)

Python dili Collection Data typeları

Gerek Data Science eğitimlerinde , Yapay zeka çalışmalarında hatta klasik database yönetiminde python dili son derece önemli. Hazır sağladığı paketleri kullanım ve öğrenim kolaylıkları ile beraber en iyi diller arasında sürekli yükselişte. Python dili ile ilgili birbirine benzeyen ama dikkat edilmesi gereken ufak bir detay paylaşmak istiyorum. Collection data typelarında List deneme = ['guzel','iyi','super','kotu','berbat'] derece … Continue reading Python dili Collection Data typeları

Apache Spark ile Oracle Database ine bağlanma ve sorgu çekme.

  Big data teknolojileri içerisinde Apache Spark son derece önemli bir yer tutuyor. Apache ile neler yapabileceğimiz konusunda  linki tıklayabilirsiniz. Bugun Spark üzerinden Oracle Database imize nasıl bağlanabiliriz , oradaki verileri alıp ne şekilde kullanabiliriz. bir örnekle paylaşmak istedim. Makinamızda Hadoop platformunun yüklü olduğunu ve spark servisinin olduğunu varsayıyorum. Spark kurulumunu http://spark.apache.org/downloads.html gerçekleştirebilirsiniz.     orcl isminde … Continue reading Apache Spark ile Oracle Database ine bağlanma ve sorgu çekme.