Merhaba arkadaşlar
Big Data , Hadoop ortamında elimizdeki SQL seceneklerini güçlü oldukları alanlar,use caseleri ve essiz yetenekleri anladımda karşılaştırmak istedim.
Apache Hive : SQL in HADOOP
Facebook ekibi tarafından yaratılmış , Hadoop ortamında tuttuğumuz datalara standart SQL ile ulaşmamızı sağlayan, raw data file hızlı analiz edebilen, petabyte ölçeğinde bile kendini ispat etmiş , Onemli bütün BI tooları ile entegre çalışan (Tableau,Business Object,excel,Microstrategy vb)
Spark – Spark SQL : In memory with Spark
Hızlı bir şekilde çalışan data access engine dir. Buyuk ölçekte datayı process edebilir. Process tarafında Map Reduce alternatif olabilecek en önemli teknolojidir. Birçok dilde apisi vardır. Iterative in-memory computation için design edilmiştir. Interactive Data mining son derece başarılıdır.
Apache Phoenix : Relational Database layer Over HBase
Hbase için SQL çalışma arayüzüdür. Hbase de tuttuğumuz datalara SQL arayüzü sağlar.JDBC driverı son derece kolaydır.Phoenix sayesinde Hbase çok daha iyi hale gelmiştir.
Project | Strengths | Use Cases | Unique Capabilities |
Apache Hive | Most comprehensive SQL
Scale Maturity |
ETL Offload
Reporting Large-scale aggregations |
Robust cost-based optimizer
Mature ecosystem (BI, backup, security and replication) |
SparkSQL | In-memory
Low latency |
Exploratory analytics
Dashboards |
Language-integrated Query |
Apache Phoenix | Real-time read / write
Transactions High concurrency |
Dashboards
System-of-engagement Drill-down / Drill-up |
Real-time read / write |