Tags

Veri ile uğraşıyorsanız her türlü data tipine hazırlıklı olmalısınız. Data artık birçok farklı formattan gelebiliyor. Datanın formatını doğru belirleyebilmek son derece önemli oluyor. Bu formatları incelemek gerekirse

LOG Files: log fileları büyük projelerde son derece önemli başlık oluyorlar. Log filelarına örnek vermek gerekirse web serverlar, hadoop , sensorler ve cep telefonlarını verebiliriz. Şirketler bu tarz dataları maliyetten dolayı transactional dblerde tutmak istemezler.Bu tarz verilerin ETL processlerini beklemesine gerek yoktur.

Fixed yada Delimited files: Bu tarz formatlar ile çokça karşılasabiliyoruz. Genelde bir satırda bir kayıt bulunan CSV örneğinde formatlardır.

XML tipi: Bu tarz veri tipleri oldukça bilinen kolay bir formattır.

<musteri>

<id>0001</id>

<adı type=”display”>besiroglu, zekeriya</adı>

</müsteri>

JSON formatı:xml alternatif bir formattır diyebiliriz. Json amacı veri alış verişi yaparken daha küçük boyutlarda veri alıp göndermektir.

{

“id”:0001,

“adı”:”zekeriya besiroglu”,

“address”:”sariyer”,

“email”:”zekeriyabesiroglu@gmail.com”,

“phone_numbers”: [

{ “type”:”mobil”, “no”:”111 111 1111″ },

{ “type”:”is”, “n0″:”222 222 22 2222” },

{ “type”:”ev”, “number”:”333 333 3333″ },

],

}

Aynı kodu xml yazsaydım çok daha fazla kod olacaktı.

Binary formatı: Büyük veri için oldukça önemli bir formattır.

Video,Ses,resim pdf ve word processor bile örnek olarak verilebilir.

Sequence Files: Hadoop specific bir formattır. binary key/value pairs den oluşur.Hadoop hive ve pig bu formatı destekler. text based formatlarda iyi performans saglar. Hadoopun yapısı gereği küçük filelarla verimli bir şekilde çalışamaz. Sequence files sayesinden küçük fileları konteynarda toplayıp daha kolay ve performanslı tutabiliriz.

Avro:Data serialization için uygundur. C,C++,C#,java,perl,Python gibi dilleri destekler.Hadoop Mapreduce Avro ile çalısabilir. Avro Flume,Hive ve Pig ile beraberde kullanılabilir.