Yeni Nesil Datawarehouse . Apache Hive LLAP ile çok daha hızlı Interactive Query , Impala mı Hive mı?

Merhaba arkadaşlar.

Hadoop platformu içerisinde çıktığı ilk günden bu yana en önemli servislerden biri Hive dersek yanılmamış oluruz. Hive bugune kadar bir çok şirkette modern Datawarehouse yapılanmasında inanılmaz avantajlar sundu. Kimi zaman performans sorunları ile eleştiriler olsada Hive ‘ın tune edilebileceğini ve bu tuning işleminin inanılmaz önemli farklar yarattıgını söylemek lazım. Türkiye’de TBlarca veriyi hive 2 ve LLap ile gayet efektif bir şekilde çalıştığımızı söylemek istiyorum.

Hortonwork HDP 2.6 en önemli özelliklerinden bir tanesi Apache hive ile LLAP. TPC-DS raporlarında da açık bir şekilde sonuçlarını gördüğümüz bu sonuçları sizlerle paylaşmak istedim.

İlk sonuç HDP 2.5 ile HDP 2.6 karsılaştırması

Hive-Impala-Blog_1

Düşük olan sonuçlar daha iyi demek. Rapor sonucunda HDP 2.6 5155 saniyede HDP 2.5 ise 14983 saniyede onlarca queryden oluşan seti çalıştırmış. nerdeyse her türlü queryde hdp 2.6 daha başarılı kalmış. Bazı sorgularda 5 katından fazla hızlı kalmış. HDP 2.6 with LLAP ile ciddi bu avantaja aşagıdaki özellikler sayesinde ulaştığını söyleyebiliriz.

Hive-Impala-Blog-2B

Gelelim Meshur HİVE & IMPALA karşılaştırmasına. Bir çok ortamda impalanın hivedan daha hızlı olduğuna dair bazı şehir efsaneleri duyuyoruz.  Aşağıda göreceğiniz TPC-DS raporunda kafa kafaya hatta bir çok sorguda Hive LLAP ile impaladan iyi olduğunu görüyoruz.

Hive-Impala-Blog-3

Cloudera 5.12 ile Hortonworks 2.6 platformlarında yapılan testlere göre çıkan sonuçlarda 60 tane query her iki ortamlarda çalıştırılmış ve tek tek sonuçlar açıklanmış.

Hive-Impala-Blog-4-1

Toplam Runtimede Hortonworks’un 11.217 saniyesine Cloudera 12.149 saniye ile karşılık vermiş. Az olanın daha hızlı olduğunu söylemek lazım. Bir başka önemli konu ise Impalanın SQL GAPleri

Hive-Impala-Blog-5.png

Yapılan bu testlerde kullanılan donanımlara bakarsak her iki platforda aynı donanımda olmak kaydı ile Hortonworks ORC file ile Cloudera Parquet ile konfigure olmuş durumda. Sonuç mu bence galip OPEN SOURCE 🙂 Hive konusunda sizde  Geisinger Health System gibi yapabilirsiniz. Healthcare tarafında data ve analytics tarafında lider olan bu şirkette son 1.5 senede EDW tarafında hive kullanan bu şirket nisan 2017den beri Hive 2.0 with lldp kullanıyor. 9000 den fazla büyük tablo 600 Tbdan fazla bir data üzerinde aldıkları sonuçlar aşağıda görebilirsiniz. 7-8 saatlik data yükleme işleminin HDP yle beraber 2.5 saate düşmüş.

Teradataya göre çok daha iyi sonuçları elde etmişler. Maliyet tarafında da ciddi avantajlarla beraber.

LLAP-Statistics-V2

9 WORKER NODES, EACH WITH:

  • 256 GB RAM
  • Intel(R) Xeon(R) CPU E5-2630 v3 @ 2.40GHz
  • 2x HGST HUS726060AL4210 A7J0 disks for HDFS and YARN storage
  • Cisco VIC 1227 10 Gigabit Network Connection

HDP 2.6 SOFTWARE CONFIGURATION

  • Ambari-managed HDP 2.6.2 stack
  • Hive version = 2.1.0.2.6.2.4-4
  • Tez version = 0.8.4.2.6.2.4-4
  • LLAP container size: 180GB (per node)
  • LLAP Heap Size: 128GB (per daemon)
  • LLAP Cache Size: 32GB (per daemon)
  • OS Setting: net.core.somaxconn set to 16k, ntpd and nscd running
  • Data: ORCFile format, scale 10,000, with daily partitions on fact tables (load scripts available in the GitHub repository).
  • Note: This HDP build will also be available in Hortonworks Data Cloud for AWS as version 1.16.5 within 7 days from this blog publication.

CDH 5.12 SOFTWARE CONFIGURATION

  • CDH-managed CDH 5.12 stack
  • Impala version = 2.9
  • Impala was given all memory on the worker nodes, using all defaults provided by Cloudera Manager.
  • Data: Parquet format, scale 10,000, with daily partitions on fact tables.

 

Yazının orjinel kaynagı: hortonworks.com

Arastırma :tpc.org

Hive konusunda daha fazla öğrenmek detaya inmek tuning çalışmak daha modern yeni nesil bir datawarehouse sahip olmak isterseniz sizde

https://bilgincitacademy.com/index.php?route=product/product&product_id=374&search=hive

katılabilirsiniz. Bana zekeriyab@bilginc.com dan ulaşabilirsiniz.

 

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s