Bugun Big Datayı anlat dediğinizde en çok kullandığımız Vlerden bahsedeceğim. kimine göre 3 V kimene göre 4 V olarak tanımlanabiliyor. Ben bugunku sartlarda 4V tarafında inananlardanım.
Peki Nedir Bu 4 V?
VOLUME: DATA AT REST
Volume datanın hacmi yani bundan 3-5 sene önce Türkiye’de Gb seviyesinde veresi olan şirketler Giga klupleri olabiliyordu ve sayıları son derece azdı. Bugun is baktığımızda Giga artık bir ölçek olmaktan çıkıp sıradanlaştı artık şirketlet Terabytelardan Exabytelara varan verilerle uğraşır oldu. Bu boyutlrdaki veriyi process etmemiz gerekiyor. Danışmanlık yaptığım şirketleri incelediğimizde bu V de genelde kuvvetli olduğumuzu görüyoruz.
VELOCITY: DATA IN MOTION
Hız, Sürat ,Streaming datası artık inanılmaz önemli. Mili saniyelerden saniyelere kadar real time yada near real time günümüzde fark yaratma olacak. Klasik DWH&Data mining modelleri ile bir müşteriye geçen ayki alışverişine göre ,geçen yılki davranışlarına göre tabiki önermeler yapmaya devam edeceğiz ama günümüzde güvenlikten satışa birçok ana başlık Data reste gitmeden daha Motion seviyesindeyken incelenmesi, üzerinde çalışması ile farklı hale gelecek. Bu boyutta çok eksiğimiz olduğunu söylemeliyim.
VARIETY: DATA IN MANY FORMS
Artık datalarımız structured dışında semi-structured, unstructured,text ve multimedia formatlarından oluşuyor. Bir gün içerisinde ürettiğiniz veriyi düşünün bu verinin ne kadarı Structured formatta. Muhtemelen %3-%5 arasında olacaktır. Insanlar gönüllü olarak önemli bilgileri paylaşıyorlar, cihazlar inanılmaz önemli ve analiz edilebilir veriler üretiyorlar bütün bu verileri standart bir database de tutmak birçok sebebten mantık dışı. Hadoop ve Nosql çözümleri artık fark yaratmak isteyen şirketlerimizin en önemli projeleri haline gelmiş durumda.
VERACITY: DATA IN DOUBT
Bu boyutta verinin içine girince tutarsızlık, eksiklik, kusurluluk, belirsizlik, gizlilik, hile, daha tahmin edilir olmak zorunda ve ona göre yaklaşılmalı.
Bugun Modern Data Architecture
Data In motion kısmında ise Hortonworksun inanılmaz başarılı gördüğüm ilk çıkışı ABDdeki NCA dayanan Apache NIFI teknolojisi Hortonworks Data Flow ile Data Platformun birleşmesi ile yapılırsa klasik Big Data teknolojilerine göre inanılmaz avantajlar sağlayacaktır.
Kaynak:hortonworks