Hadoop ortamında hangi SQL ne zaman tercih edilmeli

Merhaba arkadaşlar

 

Big Data , Hadoop ortamında elimizdeki SQL seceneklerini güçlü oldukları alanlar,use caseleri ve essiz yetenekleri anladımda karşılaştırmak istedim.

 

Apache Hive : SQL in HADOOP

Facebook ekibi tarafından yaratılmış , Hadoop ortamında tuttuğumuz datalara standart SQL ile ulaşmamızı sağlayan, raw data file hızlı analiz edebilen, petabyte ölçeğinde bile kendini ispat etmiş , Onemli bütün BI tooları ile entegre çalışan (Tableau,Business Object,excel,Microstrategy vb)

Spark – Spark SQL : In memory with Spark

Hızlı bir şekilde çalışan data access engine dir. Buyuk ölçekte datayı process edebilir. Process tarafında Map Reduce alternatif olabilecek en önemli teknolojidir. Birçok dilde apisi vardır. Iterative in-memory computation için design edilmiştir. Interactive Data mining son derece başarılıdır.

 

Apache Phoenix : Relational Database layer Over HBase

Hbase için SQL çalışma arayüzüdür. Hbase de tuttuğumuz datalara SQL arayüzü sağlar.JDBC driverı son derece kolaydır.Phoenix sayesinde Hbase çok daha iyi hale gelmiştir.

 

 

Project Strengths Use Cases Unique Capabilities
Apache Hive Most comprehensive SQL

Scale

Maturity

ETL Offload

Reporting

Large-scale aggregations

Robust cost-based optimizer

Mature ecosystem (BI, backup, security and replication)

SparkSQL In-memory

Low latency

Exploratory analytics

Dashboards

Language-integrated Query
Apache Phoenix Real-time read / write

Transactions

High concurrency

Dashboards

System-of-engagement

Drill-down / Drill-up

Real-time read / write

 

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s