Hadoop nedir?
Hadoop bir frameworktur. Uzerinde buyuk uygulamaları calıstıran cluster mimarisinden olusur.
Hadoop Apachide develop edilmiştir.
Open sourcedur
javada yazılmıştır
Mapreduce sayesinde datayı parçalar.
Hadoop files system kullanarak datamızı makinalar arasında kopyalara dağıtabiliriz.
Hadoop namenode,jobtracker,datanode ve HDFS bileşenlerinden oluşur.
Namenode:Tek makina. Görevi metadatayı ve ulaşım kontrolunu sağlamaktır.
JobTracker:Tasktrackers yaptıgı görevleri takip eder.
Datanodes:Datayı tutan ve işleyen makinalar. Birçok makina arasında data kopyalanır.
HDFS: Data giriş çıkışını tutar.
HDFS özellikleri nelerdir.
Büyümesi kolay hatayı tolere edebilen bir sistemdir. Bir kere yazılır birçok kere okunur. Hiyeraşık bir yapısı vardır.
akıllı clientlardan oluşur.Butun sistem için bir ad alanı vardır.
Raid gibi bir sistem olmadan data kopyalanır.Genelde iki hiyeraşık yapıdan oluşur.
1. namenode(master)
2. datanodes(slave)
Client datası chunklara ayrılıp(genelde 64mb) datanodelara dagıtılır. datanodelar arasındada kopyalanır.
Nameenode dediğimiz sistem metadatayı tutar. İmage fileların (fsimage) durumu,file sistem değişiklikleri
loglar (edits) namenode sorumludur.
Birde checkpoint node kavramı vardır. Bu makina namenodeun yedeğidir. Başka bir makinada çalışır ama namenode memory gibi
özelliklerini barındırır.Direcory yapısı namenode aynısıdır.
Datanodelar ise okuma ve yazma isteklerine cevap verirler. Namenodedan aldıkları komut neticesinde block yaratır,siler yada başka datanode kopyalarlar.
HDFS bir replikasyon factoru vardır.
Örnek vermek gerekirse factorun 3 olduğu durumda
Bir kopya bir makinada lokal rackta
bir kopya farklı remote rackta
bir kopya ise farklı makinada aynı remote rackta durur.
Bir sonraki yazım Mapreduce nedir olacak
Advertisements