Tags

, , , , , ,

Ekran Resmi 2015-04-29 10.53.12

Öncelikle Neden Apache Spark sorusuna cevap bulalım.

IT dünyasında çözüm olarak Büyük bilgisayarlar dönemini geride bıraktık. Yani daha hızlı processor ve daha fazla memory çözümleri bugunun ihtiyaçlarını karşılayamayacağı ortaya çıkmıştır. Günümüzde Distributed sistemler ön plana çıkıyorlar.

Ekran Resmi 2015-07-07 10.08.54

Distributed Systemlerde birçok makinadan oluşan bir yapı söz konusudur. Bu yapı iyi gibi gözükmekle beraber datanin merkezi bir yerde durması,çalıştırılma zamanı processorlere kopyalanması gerektiğinden özellikle verinin büyük olduğu senaryolarda yeni bir açılıma gidilmesi gerektiği ortaya çıkmıştır.

Hadoop bu konuda datayı process edileceği yerde tutan yaklaşımı ile çözüm olmuştur.

Ekran Resmi 2015-07-07 10.14.43

Spark ise bunun bir ileri seviyesi olarak datayı memoryde distribute eden bir çözüm olmuştur.

Spark frameworku üç safhadan oluşur.

1-API SPARK

2-Storage HDFS

3-Cluster Spark standalone ,YARN

Sparkı ön plana çıkartan temel avantajlar nelerdir?

Programlaması daha kolay olması

Datanın memoryde olması ve tekrar eden süreçlerde inanılmaz hızlı olması

Cluster avantajları

Ekran Resmi 2015-04-29 10.17.29

Dünyadaki birçok firmada Spark çözümlerini görebiliyoruz. Spark hangi projelerde kullanabiliriz.

ETL,Sentiment Analysis,Risk Analizleri,Kredi analizleri,text mining başta olmak üzere birçok farklı çözümler olabilir.

Bazı örneklerden daha önceki yazımda biraz bahsetmiştim.

https://zekeriyabesiroglu.com/2015/04/29/apache-spark-resilent-distributed-dataset-rdd/