Merhaba arkadaşlar

 

Big Data , Hadoop ortamında elimizdeki SQL seceneklerini güçlü oldukları alanlar,use caseleri ve essiz yetenekleri anladımda karşılaştırmak istedim.

 

Apache Hive : SQL in HADOOP

Facebook ekibi tarafından yaratılmış , Hadoop ortamında tuttuğumuz datalara standart SQL ile ulaşmamızı sağlayan, raw data file hızlı analiz edebilen, petabyte ölçeğinde bile kendini ispat etmiş , Onemli bütün BI tooları ile entegre çalışan (Tableau,Business Object,excel,Microstrategy vb)

Spark – Spark SQL : In memory with Spark

Hızlı bir şekilde çalışan data access engine dir. Buyuk ölçekte datayı process edebilir. Process tarafında Map Reduce alternatif olabilecek en önemli teknolojidir. Birçok dilde apisi vardır. Iterative in-memory computation için design edilmiştir. Interactive Data mining son derece başarılıdır.

 

Apache Phoenix : Relational Database layer Over HBase

Hbase için SQL çalışma arayüzüdür. Hbase de tuttuğumuz datalara SQL arayüzü sağlar.JDBC driverı son derece kolaydır.Phoenix sayesinde Hbase çok daha iyi hale gelmiştir.

 

 

Project Strengths Use Cases Unique Capabilities
Apache Hive Most comprehensive SQL

Scale

Maturity

ETL Offload

Reporting

Large-scale aggregations

Robust cost-based optimizer

Mature ecosystem (BI, backup, security and replication)

SparkSQL In-memory

Low latency

Exploratory analytics

Dashboards

Language-integrated Query
Apache Phoenix Real-time read / write

Transactions

High concurrency

Dashboards

System-of-engagement

Drill-down / Drill-up

Real-time read / write