Introduction to HDP and Hadoop 2.X

Tags

,

What is Big Data?

Big data is when the volume, velocity and/or variety of data gets to the point where it is too difficult or expensive for traditional systems to work with.

Big-Data-2

Volume:Data coming in from new sources as well as increased regulation in multiple areas means storing larger sets of data for longer periods of time.

Variety:Unstructured and semi-structured data is becoming as strategic as traditional structured data  and is growing at faster rates.

Velocity:Social media, RFID, machine data, etc. are needing to be ingested at speeds not even imagined a few years ago.

Market For Big data

The big data and analytics market will reach $125 billion worldwide in 2015, according to IDC.

The Big Data technology and services market represents a fast-growing multibillion-dollar worldwide opportunity. In fact, a recent IDC forecast shows that the Big Data technology and services market will grow at a 26.4% compound annual growth rate to $41.5 billion through 2018, or about six times the growth rate of the overall information technology market.

Big data revenue will reach $135 billion by the end of 2019

Big Data, New Data Types 

Sentiment
Understand how your customers feel about your brand and products 

Clickstream
Capture and analyze website visitors’ data trails and optimize your website

Sensor/Machine
Discover patterns in data streaming automatically from remote sensors and machines

Geographic
Analyze location-based data to manage operations where they occur

Server Logs
Research logs to diagnose process failures and prevent security breaches

Unstructured (txt, video, pictures, etc..)
Understand patterns in files across millions of web pages, emails, and documents

What is Hadoop

Hadoop is a High Performance Super Computer environment that is horizontally scalable with commodity hardware . Hadoop does parallel processing across data nodes on a highly available distributed file system.

Hadoop zekeriyabesiroglu

Compare Traditional Systems vs. Hadoop

Data Types Structured  & Multi and unstructured

Speed Read as Fast & Write as Fast

Schema Required on write & Required on read

For Use 

Interactive OLAP Analytics ,Complex ACID Transactions,Operational Data Store & Data Discovery,Processing unstructured data,Massive Storage/Processing

Hortonworks

Ekran Resmi 2015-03-12 21.13.48

Hadoop 2.6.0 is the fourth major release for the year 2014 in the hadoop-2.x
line, and brings a huge number of enhancements to the core platform – both HDFS
& YARN. This release has nearly 900 resolved issues:

• Hadoop Common: 231 JIRAs resolved

• Hadoop HDFS: 305 JIRAs resolved

• Hadoop YARN: 290 JIRAs resolved

• Hadoop MapReduce: 70 JIRAs resolved

Some highlights:

• Hadoop Common • HADOOP-10433 – Key management server (beta)

• HADOOP-10607 – Credential provider (beta)

• Hadoop HDFS

• Heterogeneous Storage Tiers – Phase 2

• HDFS-5682 – Application APIs for heterogeneous storage

• HDFS-7228 – SSD storage tier

• HDFS-5851 – Memory as a storage tier (beta)

• HDFS-6584 – Support for Archival Storage

• HDFS-6134 – Transparent data at rest encryption (beta)

• HDFS-2856 – Operating secure DataNode without requiring root access

• HDFS-6740 – Hot swap drive: support add/remove data node volumes without
restarting data node (beta)

• HDFS-6606 – AES support for faster wire encryption

Hadoop YARN

• YARN-896 – Support for long running services in YARN

• YARN-913 – Service Registry for applications

• YARN-666 – Support for rolling upgrades

• YARN-556 – Work-preserving restarts of ResourceManager

• YARN-1336 – Container-preserving restart of NodeManager

• YARN-796 – Support node labels during scheduling

• YARN-1051 – Support for time-based resource reservations in Capacity
Scheduler (beta)

• YARN-1492 – Global, shared cache for application artifacts (beta)

• YARN-1964 – Support running of applications natively in Docker containers
(alpha)

Source:Hortonworks,IDC,apache

Oracle Big Data Discovery nedir?

Tags

,

Oracle’ın Big Data ile ilgili ürünlüleri gelişerek devam ediyor. Bu ürün serisinin son parçası Big data discovery.

Hadoop’un görsel yüzü olarak açıklanan ürünü inceleme fırsatı buldum. Çok önemli özellikleri olduğunu ve süreçleri kısaltmada inanılmaz işe yarayacağını düşünüyorum.

Bugün 10 milyarın üzerinde internete bağlanmış cihaz var. Bilgisayar,tablet mobil telefon giyebilir teknolojiler saatler gözlükler araç içi sistemler. Hepimizin tahmin edebileceği üzerine bu cihaz sayısı önümüzdeki yıllarda çok hızlı artış gösterecek. Durum böyle olunca üretilen veri miktarıda inanılmaz bir artış gösterecektir.

Bir BI projesinin belirli safhaları vardır. Biz bu safhaları

İhtiyaçları belirleme,datayı elde etme,datayı anlama,Datayı kullanılabilir hale getirme,analiz etme ve sonuc çıkarma olarak belirleyebiliriz. Bu süreçlerin herbiri başlı başına önemlidir ve zamanımızı alır.

Bir Big Data projesinde ise aynı safhalar olmasına rağmen veriyi elde ederken,datayı anlarken ve manipule ederken çok masraf yaparız. Asıl olan veriden bir sonuç çıkarmak iken verinin hazırlık aşamaları verinin analiz aşamaşının kat ve kat üstünde zamanımız alır.

Oracle bu rakamı %80 hazırlık %20 analiz olarak açıklıyor. Big data konusundaki çalışmalarınıda bu noktada yoğunlaştırıyor. bu yüzdeleri tersine çevirmek için uğraşıyor. Hazırlık aşamasında %20 analiz aşamasında %80 zaman harcamamız için çok daha hızlı işlenen datalar otomatikleştirilmiş işlemler,kullanıcı dostu programlar çıkartıyor.

Oracle Big Data discovery find,explore,transform,discover ve share aşalamalarından oluşuyor. Find aşamasında projelerimizi ve datasetlerimizi görüyoruz.

Oracle Big Data find

Explore aşaması data tipleri ve data değerlerini kolayca anlamamız için hazırlanmış durumda. Sıralama işlemleride bu aşamada çok önemli bir özellik

oracle big data explore

Transform aşamasında datayı dönüştürme ,temizleme,çevirme,gruplama gibi bütün önemli özellikleri gerekli kopyalarını alarak gerçekleştirebiliyoruz.

oracşe big data transform

Discover aşaması datayı her detayı ile incelediğimiz aşama

oracle big data discover

Publish ve Share aşamasında oluşturduğumuz veriyi dışarıya çıkarttıp ecosistemde Hive, R veya Oracle Big data SQL ile üzerinde çalışılmasını sağlayabiliriz.

Ekran Resmi 2015-03-09 10.31.35

Oracle Big Data Discovery veri atmamızda olçukça kolay. Attığımız bu verilemiz indexlemeye ve her türlü hızlı aramaya uygun hale geliyor.

Ekran Resmi 2015-03-09 10.39.09

Özetle söylemek gerekirse Oracle Big Data Discovery sayesinde  veriyi hazırlama aşamalarımızda çok ciddi zaman kazanacağız.

kaynak. Oracle.

Oracle Exadata X5-2 Nedir? Teknik Özellikler

Tags

,

exadata&exalogic

Oracle Geçtiğimiz hafta Exadata Database Machine X5-2 versiyonunun tanıtımını yaptı. Bütünleşik sistemlerinin liderlerinden olan Oracle’ın amiral ürünü olan Exadata’ın son versiyonuna yakından bakalım istedim.

Öncelikle Exadata üzerinde Database makinaları ve Storage serverları barından bir bütünleşik sistem. Exadata X5-2 Database machine almaya karar verdiğinizde önünüze 1/8,çeyrek,yarım ve tam olmak üzere farklı donanımlarda makinalar çıkıyor.

Biraz aradaki farklardan bahsetmek gerekirse tam bir Exadata makinasında 8 tane Database server var. Yarımda 4 çeyrek ve çeyrek yarısında 2 tane database server var.

Her bir Database server’ın özelliklerine gelince

2 x Eighteen-Core Intel® Xeon® E5-2699 v3 Processors (2.3 GHz)

256GB Memory (expandable to 768GB)

Disk Controller HBA with 1 GB Supercap-backed Write Cache

4 x 600 GB 10,000 RPM Disks

2 x QDR (40Gb/s) InfiniBand Ports

4 x 1/10 Gb Ethernet Ports (copper)

2 x 10 Gb Ethernet Ports (optical) •

1 x ILOM Ethernet Port

2 x Redundant Hot-Swappable Power Supplies

Makinaların teknik özelliklerindende anlaşılacağı gibi donanımsal olarak inanılmaz güçlü makinalar değilller. Exadatayı oluşturan hem yazılım hem donanım olarak çalışan ürünlerin beraber optimum performansı her yerde rahatlıkla yakalıyor olabilmesi. Yukarıdaki özellikler tek bir database makinası için gecerli çeyrek exadata almanız durumunda 2 tane database serverınız var ve siz bunları RAC yapabilirsiniz.

Gelelim Storage serverlarımıza. Exadatayı tam satın alanlar 14 yarım alanlar 7 ceyrek alanlar 3 ve ceyrek yarısı alanlar 3 storage servera sahip olabiliyorlar.

Peki bu Storage serverların özelliklerinde neler var.

Tam satın alanlar

224 CPU cores for SQL processing

56 PCI flash cards with 89.6 TB (raw) Exadata Smart Flash Cache , 168 x 4 TB 7,200 RPM High Capacity disks veya 112 x 1.6 TB NVMe PCI Flash Drives

yarım satın alanlar

112 CPU cores for SQL processing

28 PCI flash cards with 44.8 TB (raw) Exadata Smart Flash Cache, 84 x 4 TB 7,200 RPM High Capacity disks veya  56 x 1.6 TB NVMe PCI Flash Drives

ceyrek satın alanlar

48 CPU cores for SQL processing

12 PCI flash cards with 19.2 TB (raw) Exadata Smart Flash Cache, 36 x 4 TB 7,200 RPM High Capacity disks veya 24 x 1.6 TB NVMe PCI Flash Drives

1/8 satın alanlar

48 CPU cores for SQL processing (24 cores hazır)

6 PCI flash cards with 9.6 TB (raw) Exadata Smart Flash Cache, 18 x 4 TB 7,200 RPM High Capacity disks  veya 12 x 1.6 TB NVMe PCI Flash Drives

Benim exadata en çok beğendiğim ürün 2 tane 36 port QDR (40 Gb/sec) InfiniBand Switchler. Bu bütün versiyonlarda standart olarak geliyor.

Bütün bunların neticesinde ben full rack bir Exadata aldım aceba nasıl bir performans elde edebilirim? Exadata ürünü standart donanım ve yazılımdan oluştuğu için aynı standart üretim bir araba gibi performans rakamları net bir şekilde belli.

Bu rakamları birkaç dala ayırırsak

Maximum SQL flash bandwidth  te Hihg Capacity disk tercihi ile 140 GB/s Extreme Flash tercihse  263 GB/s

Maximum SQL flash read IOPS HC de 4,144,000 EF de 4,144,000(I/O per second)

Maximum SQL flash write IOPS HC de 2,688,000  EF de 4,144,000.

Peki bu bütünleşik sistemde hangi Oracle ürünleri alabiliyoruz.

Database server tarafında  Oracle Database 11g Release 2 Enterprise Edition and Oracle Database 12c Enterprise Edition Oracle Real Application Clusters, Oracle Partitioning, Oracle Multitenant ve diğer database server seçenekleri.Oracle Linux 6 Update 6 with the Unbreakable Enterprise Kernel 2.

Storage servers tarafında Oracle Exadata Storage Server Software. Smart Scan Technology • Smart Flash Cache • Smart Flash Logging • Columnar Flash Cache • Exadata Snapshots • Exafusion Direct to Wire OLTP Protocol • IO and Network Resource Management • Storage Index • Hybrid Columnar Compression • Smart Scans of Data Mining model scoring • Exadata Virtual Machines • I/O Analysis in AWR reports

Storage server tarafındaki her bir özellik zaten tek başına bile EXADATA kullanmak için neden olabilir.

exadata_certified_logo

Exadata Konsolisdasyon Tavsiyeleri

Öncelikle Teknik terimlerin fazlalığı ve direk Türkçe karşılığı ile uyuşmamalarından dolayı özür diliyorum.

Oracle Exadata ürünü nü satın aldığınızda elinizdeki yapınızı konsolide etmeniz mümkün.

Nasıl Exadata üzerinde konsolidasyon yapabilirim?

1-Application Schema:

Birçok Application Schemayı tek bir database altında toplayabilirsiniz.

Tek Database ve/veya Rac database üzerinde yapabilirsiniz.

Tek Database yönetmemiz yeterli olacaktır.

2-Database Konsolidasyonu:

Birçok database tek bir platformda toplayabilirsiniz

Her Database için gerekirse ayrı bir instance oluşturabiliriz.

Platformun kaynaklarını databaseler tarafında paylaştırabiliriz.

Veritabanı Konsolidasyonu temel ilkeleri neler olmalıdır

Database availibility olarak benzer sekilde olan databaseleri belirlemek lazım.

Performans,Güvenlik,sistem ihtiyacları ve organizasyon ihtiyaclarını belirlemek lazım.

Application Konsolidasyonu DATABASE MACHİNE de tavsiye ettiğimiz bir iş değildir.

İhtiyaclarınıza göre hardware pool yaratmatnızı tavsiye ediyoruz. Veritabanlarınız her hardware poolda bir veya iki Database machine kullanmasını tavsiye ediyoruz. Bir veritabanınızın ikiden rack ihtiyacı olması durumunda ona dedicate bir hardware pool yapmanızı tavsiye ederim.

Bir tane shared Exadata storage grid her hardware pool için uygundur.

Data disk groupu Datafiler için

Reco disk groupu FRA için

DBFS disk grubu Clusterware shared fileları ve DBFS için. yapılmalıdır.

Partition By Cell ve Partition by Disk olmak üzere alternatif storage konfigurasyon seceneklerimiz var.

Peki Partition Storage yönteminin artıları eksileri nelerdir?

Artıları Storage isolation sağlar.

Farklı disk grouplar ve databaseler ayrı celleri ve diskleri doldururlar.

başka bir artısıda Patch isolation sağlar. Farklı Cell setleri farklı seviyelerde patchlenebilirler.

Eksileri nelerdir.

Manuel Konfigurasyon ,daha düşük I/O bandwith,extra management gibi belirtebiliriz.

Cluster Konfigurasyon tavsiyeleri

tavsiye ettiğimiz

Her hardware poola bir cluster.

Database servis kullanımı

Alternatif yöntem ise

Her hardware poola birden fazla cluster yapmak olabilir.

Bu yöntem Cluster fail durumları ve patch işlerinde iyi olsada Manuel konfigurasyon ve extra yönetim gerektirmesi eksi olarak yazılabilir.

Oracle Exadata Operating Sistem Tavsiyeleri.

Shared memory segments (SHMMNI) sayısı databaselerin sayısında fazla olmalıdır.

Maximum shared memory segment size (SHMMAX) fiziksel memory boyutunun %85 olmalıdır.

Maximum total number of system semaphores (SEMMNS) sayısı bütün databaselerinizin toplam processes sayısından fazla olmalıdır.

Maximum number of semaphores  (SEMMSL) greater than the tek databasedeki en büyük sayılı  processeslerden fazla olmalıdır.

Ve  Linux larda , eğer  PageTables  /proc/meminfo  > 2% fiziksel memory, HugePages bütün  shared memory segments toplamına eşitleyelim.

Exadata Release 12.1.1.1.0 New Features

Exadata Database Machine supports Oracle Database 12c Release 1.

Database Machine can run a mixture of 11.2 and 12.1 databases.

All new features of Oracle Database 12c Release 1 are supported.

Exadata Storage Server version 11.2.3.2.1 (or later) required

Full offload support:

Smart scan

Fast file creation

Fast incremental backup

Full IORM support:

Non-CDB

Multitenant architecture

Support for Mixed Database Versions

New CELLSRV architecture to support mixed database versions: 11.2 and 12.1

Separate offload servers 

No additional configuration or maintenance

Cell to Cell transfer in 11.2:

Database server sends read request to Cell A

Cell 1 sends data to database server

Data is stored in the database
server memory

Database server sends data to Cell 2

Cell to Cell transfer in 12.1:

Database server sends transfer request to Cell 2

Cell 2 reads data from Cell 1

So lower network bandwidth consumption

Lower database server resource usage

Used by ASM resynchronization and rebalance operations

Oracle OSM (Oracle Order and Service Management)

What is Oracle Order and Service Management?

OSM manages the order fulfillment functions that are required to complete an order that is created in a customer relationship management (CRM) system or other order-source system.

OSM central place in your order management solution

Oracle OSM Operates in two distinct layers in telecommunications:

—  Central Order Management

—  Service Order Management

 

Oracle OSM functions:

Order execution manual and automated processing

Order visibility

Aggregated status calculation and notification

Supplemental and cancellation order handling

Order decomposition

Order relationships and dependency management

Order fallout management

Order risk notification

Order reporting

OSM Architecture:

- OSM Server: J2EE application that is deployed to an Oracle WebLogic server

- OSM Web Clients: Order management personnel to examine and manage orders

- Design Studio: Design-time environment(Eclipse)

- Administrative Tool

- Oracle Database

- Software Development Kit: XQuery, XSLT, or Java configuration,Web service WSDL,XML API schemas

We can use design studio to configure,build and deploy OSM solutions. We can use web clients to monitor order execution.

Oracle Grid and Rac startup&configuration scripts

Two important Command . Crsctl and Srvctl.

Crsctl commands. Manage clusterware related operations

start-stop cluster

Srvctl commands. manage Oracle related operations.

start-stop instances and services

Start or stop Oracle Clusterware on a specific node:

crsctl start cluster

crsctl stop cluster

Determine the overall health on a specific node:

crsctl check crs

CRS-4638: Oracle High Availability Services is online

CRS-4537: Cluster Ready Services is online

CRS-4529: Cluster Synchronization Services is online

CRS-4533: Event Manager is online

Determine the location of the voting disk:

crsctl query css votedisk

crsctl query crs activeversion

Oracle Clusterware active version on cluster is [11.2.0.1.0]

Stop the Oracle Clusterware stack on all nodes:

crsctl stop cluster -all

Determine the list of interfaces available to the cluster:

oifcfg iflist –p -n

Stop Clusterware on all nodes:

crsctl stop crs

Start Clusterware on all nodes:

crsctl start crs

View SCAN VIP configuration

srvctl config scan

View SCAN LISTENER configuration

srvctl config scan_listener

grid@host01 bin$ ./crsctl stat res -t

You can view resource name , target,state,status

Start and Stop Asm instances

$ srvctl start asm -n host01

$ srvctl status asm -n host01

ASM is running on host01.

$ srvctl stop asm

Oracle Exadata Eğitimleri

Tags

, , ,

thy exadata_certified_logo

Türkiye’nin en büyük firmalarından Turk Hava Yolları Exadata eğitimleri için bizi tercih etti.

2011 yılından beri Türkiye’de onlarca firmaya Exadata konusunda eğitim ve danışmanlık yaptım.

Dünyanın sayılı firmalarından olan Turk Hava Yolları ile bu eğitimleri gerçekleştirmek, Turk Hava Yollarının uzman dba ekibiyle birlikte daha ileri teknolojiyi planlamak benim içinde bir zevk olacak.

Weblogic 12c & Oracle Database 12c beraber nasıl çalışır.

Tags

Oracle’ın dünyada lider durumda olan iki ürünü. Gerek Weblogic gerekese database sektörün en büyük özelliklerini üzerlerinde barındırıyorlar.

Bu iki alanlarının lider ürünleri beraber çalışmak durumundalar. Bu iki ürünü beraber kullanan bir çok firma var. Bugün bu iki ürünü beraber çalıştırırken yapmamız gerekenlerden bahsedeceğim.

Weblogic server Database 12c üzerinde bazı temel özelliklerle geldi.

-High Availability application continuity

-Multitenant database scalibity

-Database resident connection pool

-Global data services geldi.

Application Contiunity ile yüksek seviyede çalışan durmayan uygulamalardan bahsediyoruz. Oracle Rac & Rac one node ve Dataguard özellikleri elimizi çok güçlendiriyor.

Weblogic Multitenant Database ile beraber çalışabilirmi?

Evet çalışır hatta daha iyi çalışır.

Weblogic domainimizde datasourcelarımız ayrı databaselere bağlarız. Bütün databaselerimizi bir Container database sapkası altında birleştirelim.

Pluggable databaseler weblogic tarafında normal database gibi gözükür. Böylece gereksiz dataları izole edip daha iyi kaynak kullanımı sağlarız.

DRCP Database resident connection pool özelliği çok faydalı bir özellik. Bu özellikle beraber bir connection broker var. Daha iyi bir kaynak paylaşımı bu özellikle sağlanıyor.

Global data servis özelliği sayesinden dünyanın neresinde olursa olsun runtime load balancing ve failover özellikleri data centerlar arasında yapılabiliyor.

Bu özelliklerin hepsini ancak   WLS 12.1.2 ve Db 12c olduğunda kullanabiliyoruz.

Oracle Weblogic 12C kuracagız Database Active Grid Link ile bağlayacağız. database tarafında 12c Rac kullanacagız ve Dataguard yapacagız.

Weblogic için  11g Rac + Generic Datasource veya 12c Rac +Active Grid link arasında ne Fark var?

11g tarafında timeouttan kaynaklı uzun beklemeler ve uygulama hata dönüşleri alırken

12c tarafında FAN dolayısı ile çok hızlı hata tespiti ve SQL replay ile beraber uygulama hata dönüşü almaz.

Özetle 12c Weblogic ve 12c Database için zamanın yavaş yavaş geldiğini görüyoruz.

Follow

Get every new post delivered to your Inbox.