Apache Spark, Resilent Distributed Dataset RDD.

Apache Spark is a fast, general engine for large scale data processing on a  cluster. Advantages of Spark High level programming framework Write applications quickly in  Scala, Python or Java. Cluster computing Combine SQL, streaming, and complex analytics Distributed storage Data in memory Easier Development Near real time processing In-Memory Data Storage We can use … Continue reading Apache Spark, Resilent Distributed Dataset RDD.

Hadoop Nedir? Mapreduce Nedir?

Hadoop'un başlangıcı 1990ların sonu 2000lerin başında Google çalışmalarına gidiyor. Google 2003 senesinde Google File Sistemini çıkarıyor. 2004 yılında Map Reduce ortaya çıkıyor. Ana prensipleri Developerlar'ın network programlamasında çok uğraşmamaları, Developerların nodeların birbiri ile konuşmaları için minimum uğraşmaları,Nodeların birbiri ile minimum haberleşmeleri, Datanın kopyalanması sayesinde hem kullanılabilirlik hemde ulaşılabilirlik artacaktır. Hadoopda datayı sisteme yüklediğimizde bloklara ayırarak … Continue reading Hadoop Nedir? Mapreduce Nedir?

What is Yarn?

YARN is a Yet Another Resource Negotiator. Yarn goal is to facilitate applications to achieve 100% utilization of all resources on the physical system while letting every application execute at its maximum potential. YARN multi node cluster has an aggregate pool of computer resources memory and cpu.  YARN uses scheduler policy. Compare Hadoop 1 & YARN. … Continue reading What is Yarn?