Öncelikle Neden Apache Spark sorusuna cevap bulalım.
IT dünyasında çözüm olarak Büyük bilgisayarlar dönemini geride bıraktık. Yani daha hızlı processor ve daha fazla memory çözümleri bugunun ihtiyaçlarını karşılayamayacağı ortaya çıkmıştır. Günümüzde Distributed sistemler ön plana çıkıyorlar.
Distributed Systemlerde birçok makinadan oluşan bir yapı söz konusudur. Bu yapı iyi gibi gözükmekle beraber datanin merkezi bir yerde durması,çalıştırılma zamanı processorlere kopyalanması gerektiğinden özellikle verinin büyük olduğu senaryolarda yeni bir açılıma gidilmesi gerektiği ortaya çıkmıştır.
Hadoop bu konuda datayı process edileceği yerde tutan yaklaşımı ile çözüm olmuştur.
Spark ise bunun bir ileri seviyesi olarak datayı memoryde distribute eden bir çözüm olmuştur.
Spark frameworku üç safhadan oluşur.
1-API SPARK
2-Storage HDFS
3-Cluster Spark standalone ,YARN
Sparkı ön plana çıkartan temel avantajlar nelerdir?
Programlaması daha kolay olması
Datanın memoryde olması ve tekrar eden süreçlerde inanılmaz hızlı olması
Cluster avantajları
Dünyadaki birçok firmada Spark çözümlerini görebiliyoruz. Spark hangi projelerde kullanabiliriz.
ETL,Sentiment Analysis,Risk Analizleri,Kredi analizleri,text mining başta olmak üzere birçok farklı çözümler olabilir.
Bazı örneklerden daha önceki yazımda biraz bahsetmiştim.
https://zekeriyabesiroglu.com/2015/04/29/apache-spark-resilent-distributed-dataset-rdd/