Neden Apache Spark ? Apache Spark Nedir?

Tags

, , , , , ,

Ekran Resmi 2015-04-29 10.53.12

Öncelikle Neden Apache Spark sorusuna cevap bulalım.

IT dünyasında çözüm olarak Büyük bilgisayarlar dönemini geride bıraktık. Yani daha hızlı processor ve daha fazla memory çözümleri bugunun ihtiyaçlarını karşılayamayacağı ortaya çıkmıştır. Günümüzde Distributed sistemler ön plana çıkıyorlar.

Ekran Resmi 2015-07-07 10.08.54

Distributed Systemlerde birçok makinadan oluşan bir yapı söz konusudur. Bu yapı iyi gibi gözükmekle beraber datanin merkezi bir yerde durması,çalıştırılma zamanı processorlere kopyalanması gerektiğinden özellikle verinin büyük olduğu senaryolarda yeni bir açılıma gidilmesi gerektiği ortaya çıkmıştır.

Hadoop bu konuda datayı process edileceği yerde tutan yaklaşımı ile çözüm olmuştur.

Ekran Resmi 2015-07-07 10.14.43

Spark ise bunun bir ileri seviyesi olarak datayı memoryde distribute eden bir çözüm olmuştur.

Spark frameworku üç safhadan oluşur.

1-API SPARK

2-Storage HDFS

3-Cluster Spark standalone ,YARN

Sparkı ön plana çıkartan temel avantajlar nelerdir?

Programlaması daha kolay olması

Datanın memoryde olması ve tekrar eden süreçlerde inanılmaz hızlı olması

Cluster avantajları

Ekran Resmi 2015-04-29 10.17.29

Dünyadaki birçok firmada Spark çözümlerini görebiliyoruz. Spark hangi projelerde kullanabiliriz.

ETL,Sentiment Analysis,Risk Analizleri,Kredi analizleri,text mining başta olmak üzere birçok farklı çözümler olabilir.

Bazı örneklerden daha önceki yazımda biraz bahsetmiştim.

http://zekeriyabesiroglu.com/2015/04/29/apache-spark-resilent-distributed-dataset-rdd/

Apache Spark, Resilent Distributed Dataset RDD.

Tags

, , ,

Ekran Resmi 2015-04-29 10.53.12

Apache Spark is a fast, general engine for large scale data processing on a  cluster.

Advantages of Spark

High level programming framework

Write applications quickly in  Scala, Python or Java.

Ekran Resmi 2015-04-29 10.13.23

Cluster computing

Combine SQL, streaming, and complex analytics

Ekran Resmi 2015-04-29 10.09.54

Distributed storage

Data in memory

Ekran Resmi 2015-04-29 10.17.29

Easier Development

Near real time processing

In-Memory Data Storage

We can use Apache Spark for

Personalization and ad analytics

Real time video stream optimization

Real time analytics for telco clients

Cross device personalized video experience

Extract/Transform/Load (ETL)

Text mining

Index building

Graph creation and analysis  

Patterrn recogniton

Collaborative filtering

Prediction models

Sentiment analysis

Risk assessment

We can use Python Shell(pyspark),Scala Shell (spark-shell)

What is Resilent Distributed Dataset.

Which is a fault-tolerant collection of elements that can be operated on in parallel. There are two ways to create RDDs: parallelizing an existing collection in your driver program, or referencing a dataset in an external storage system, such as a shared filesystem, HDFS, HBase, or any data source offering a Hadoop InputFormat.

if data in memory is lost, it can be recreated. Stored in memory across the cluster.

How to create Resilent Distributed Dataset?

From a file or set of files – From data in memory – From another RDD

Example.

Sports.txt

Bayern Munich missed all four of their penalties as Borussia Dortmund reached the German Cup final after a shootout.

Bayern midfielder Xabi Alonso also slipped at the crucial moment – straight after Lahm

Klopp will now have a chance to win the German Cup for a second time with Dortmund in his last match in charge

mydata = sc.textFile(“sport.txt”)

mydata_uc = mydata.map(lambda line: line.upper())

mydata_filt = \

     mydata_uc.filter(lambda line: \

     line.startswith(‘B’))

mydata_filt.count()

2

Download Apache Spark

https://spark.apache.org/downloads.html

Hadoop Nedir? Mapreduce Nedir?

Tags

, , , , , ,

Hadoop’un başlangıcı 1990ların sonu 2000lerin başında Google çalışmalarına gidiyor. Google 2003 senesinde Google File Sistemini çıkarıyor. 2004 yılında Map Reduce ortaya çıkıyor.

Ana prensipleri Developerlar’ın network programlamasında çok uğraşmamaları, Developerların nodeların birbiri ile konuşmaları için minimum uğraşmaları,Nodeların birbiri ile minimum haberleşmeleri, Datanın kopyalanması sayesinde hem kullanılabilirlik hemde ulaşılabilirlik artacaktır.

Hadoopda datayı sisteme yüklediğimizde bloklara ayırarak yazar. Örnek vermek gerekirse 64Mb blocklar diyebiliriz. bir çok node paralel bir şekilde çalışır.

Yukarıda bir master node altlarında ise data nodeları vardır. Data nodelarından bir tanesinin çökmesi durumunda master node bunu anlar ve diğerleri ile devam eder.

Hadoop Apache Software foundation’in open source bir projesidir.

Hadoop Facebook,Linkedin,Yahoo gibi dünya devi şirketlerle gelişmektedir.

Hadoop iki ana yapıdan oluşur.

HDFS(Hadoop Distributed File system)

Map Reduce

Hadoop Cluster’i ne demektir?

Hadoop cluster’i tek tek makinalardan oluşan mimaridir. Node sayısı günümüzde binlerce olan birçok şirket vardır. Daha fazla Node daha iyi performans demektir.

HDFS sayesinde Hadoop Clusterinda dataları tutarız. Daha önce blocklara yazdığımızdan bahsetmiştim. Data block block farklı nodelara yazılır. Her block farklı nodelara kopyası yazılır. Örneğin 3 kopya.

MapReduce Nedir?

MapReduce Hadoop Clusterinda datanın işlenmesi sürecidir. İki aşamalı bir süreçtir.

peki Nedir bu HDFS? HDFS Nedir?

HDFS Java’da yazılmış bir file sistemidir. Temeli Google FS dayanır.

Oluşturulması itibarı ile write once yapar. Karışık,rastgele yazma yoktur.Kesintisiz veri okumayı rastgele okumaya tercih edecektir.

daha önce belirttiğim gibi Master Node yani NameNode ve DataNodelardan oluşur. Data Namenodelara block block yazılır. NameNode blockların takibini yaparlar .

HDFS.

örnek vermek gerekirse Namenodeda deneme.txt dosyasının 1,2,3,4,5 nolu blockları oldugu yazar, her block 3 kopya ve farklı farklı nodelara yazılır.

NameNodeların kesintisiz çalışması çok önemlidir. NameNode durarsa cluster ulaşılmaz olur.Bu yüzdende NameNodeları seçerken çok dikkatli davranmak gerekir. Sağlam bir donanım önemlidir. Secondary NameNode Çok önemlidir. Standby nameNode Namenode backup değildir. Active namenode bir problem yaşadığında Standby NameNode otomatik olarak devreye girecektir. Bu yüzden High Availability şeçilmelidir.

HDFS ye nasil ulaşabilirim?

HDFS ye local file sistem üzerinden ulaşabilirsiniz. komutlar linux benzeridir.

hadoop fs -put deneme.txt deneme.txt (deneme.txt dosyasını local file sistemden Hadoopa kopyaladık) /user/zekeriya/deneme.txt

hadoop fs -ls (user home directory)

hadoop fs -ls / (root directory)

hadoop fs -cat /user/zekeriya/deneme.txt

hadoop fs -mkdir veri (yaratma)

hadoop fs -rm -r veri (silme)

MAP REDUCE programlamanın başlangıç örneği

map(String input_key, String input_value)

foreach word w in input_value:

emit(w, 1)

reduce(String output_key,

                    Iterator<int> intermediate_vals)

   set count = 0

   foreach v in intermediate_vals:

       count += v

emit(output_key, count)

(1000,’Galatasaray sampiyon olur’)

(2000,’beşiktas sampiyon olur’)

(2200,’Galatasaray Türkiyedir’)

Output Mapper

(‘Galatasaray’, 1), (‘sampiyon’, 1), (‘olur’, 1), (‘beşiktas’, 1),

(‘sampiyon, 1), (‘olur’, 1), (‘Galatasaray’, 1), (‘Türkiyedir’, 1)

Intermediate Data Reducer’a gönderilen

(‘Galatasaray’,[1,1])

(‘sampiyon’,[1,1])

(‘olur’,[1])

(‘beşiktas’,[1])

(‘Türkiyedir’,[1])

Reducer’ın son cıktısı

(‘Galatasaray’,2)

(‘sampiyon’,2)

(‘olur’,1)

(‘beşiktas’,1)

(‘Türkiyedir’,1)

What is Yarn?

Tags

, , , ,

YARN is a Yet Another Resource Negotiator. Yarn goal is to facilitate applications to achieve 100% utilization of all resources on the physical system while letting every application execute at its maximum potential.

YARN multi node cluster has an aggregate pool of computer resources memory and cpu.  YARN uses scheduler policy.

Compare Hadoop 1 & YARN.

HADOOP 1 HADOOP 2

Scalability: Hadoop 1 , Hadoop cluster deployed on 3500 nodes . YARN has been successfully deployed on 35,000+ nodes

Availbility: Hadoop1 use JobTracker, If jobtracker failed, then all jobs failed. There was single point of failure. YARN use Resource manager and Task management separated concern.

Hadoop 1 was meant to solve batch-processing scenarios, and MapReduce was the only programming paradigm available. YARN has new programming models & services.

HADOOP YARN

YARN are not limited to Java. Applications written in any language, as long as the binaries are installed on the cluster, can run natively, all while requesting resources from YARN and utilizing HDFS.

MapReduce in Hadoop 2 (MRv2)  each job has its own ApplicationMaster. Each MRv2 job’s resource requests are dynamically sized for its Map and Reduce processes.

How to configure YARN?

YARN has one core configuration file:

/etc/hadoop/conf/yarn-site.xml

What can we do in yarn-site.xml?

We configure how resource allocation work. There are two types of resources. Physical: total physical resources (memory) allocate per container.

yarn.scheduler.maximum-allocation-mb 8GB per container default

yarn.scheduler.minumum-allocation-mb 1GB per container default

Virtual: Total virtual resources (memory) that a container

Oracle Database 12c Database for Developer&Sysadmins-1

Tags

,

Oracle 12c veritabani ile yonetim anlamında birtakim farklılıklara gitti. Bu farklılıklardan bir taneside yönetim ekranı, daha önceden veritabanının hertürlü işini gerçekleştirdiğimiz console yerini iki farklı secenege birakti.

Database Express ve/veya agent kurarak Cloud Controle bağlanma.

Enterprise Manager database express üzerinden monitoring,administration ve bir takım özellikleri yapabiliriz.

SQL ile bağlanıp

SQL> exec DBMS_XDB_CONFIG.setHTTPSPort (5500);

https://hostname:5500/em yazarak bağlanabiliriz.

12c oracle express

12c oracle express

Ekran Resmi 2015-03-31 09.12.00

Güvenlik tarafında user admin rolune sahip olmasa bile EM_EXPRESS_BASIC ,EM_EXPRESS_ALL roleleri yeterli oluyor.

Diğer taraftan SQLPLUS herzaman oldugu gibi devam ediyor.

SQLPLUS ile database management ve administration işleri, ve sql komutları çalıştırılabilir.

SQL>connect zekeriya(kullanıcıadı)/oracle(sifre)@orcl(databaseadı) ; ile bağlanıyoruz

SQL>Select * from hr.employees; gibi komut gönderebiliriz.

Oracle SQL Developer.

Oracle’ın geliştirdiği modern arayüz diyebiliriz. Bedava olması büyük avantaj. Her gecen gün Oracle mühendisleri urunu gelistiriyorlar.

sqldeveloperi Oracle’in sayfasından ücretsiz indirebilirsiniz.

SQLDEVELOPER'a yeni database bağlama ekranı

SQLDEVELOPER’a yeni database bağlama ekranı

veritabanınızın user ve ip bilgileri

veritabanınızın user ve ip bilgileri

Yeni DBA Navigator ekranları

Yeni DBA Navigator ekranları

Yetkileriniz musade ediyorsa Oracle 12c veritabanında yedek alma işlemlerinden tutunda güvenlik süreçlerine kadar Sqldeveloperdan yapabilirsiniz.

Oracle veritabanına yeni başlayan arkadaşlarda çokca

ora-12541: TNS : no listener hatası ile karşılaştıklarını görüyoruz.

bu durumda listener(database dinleyicisi database tarafında) çalıştığından emin olmalısınız.

$lsnrctl START yazıp kontrol etmeliyiz. Bu komutu yazdıgınızda databasedeki servis isminizin ready oldugunu görmelisiniz.

Bir baska önemli hususta network ayarlamızdan servera ulaşmaktır.

ORA-12154: TNS:could not resolve the connect identifier specified

kendi makinamızdaki tnsnames.ora dosyamızı kontrol etmeliyiz.

orcl =(DESCRIPTION=

  (ADDRESS=(PROTOCOL=tcp)(HOST=makinadi)(PORT=1521))

  (CONNECT_DATA=

    (SERVICE_NAME=orcl.oracle.com)))

Dikkat edilecek hususlar ilk orcl takma isim yani database bağlantısı sırasında @sonrayazdıgımız

host database server makinası

port genelde Oracle portu 1521 ve servis adı dba’in belirlediği database adı diyebiliriz.

önce database makinasına ping atın eğer cevap alıyorsanız bu sefer

tnsping orcl diyip cevap alıp almadığımızı kontrol edelim.

tnsnames doğru ve listener dinliyorsa sorunsuz bir şekilde bağlantınız gerçekleşecektir.

HDFS Commands Examples

Tags

,

Hi all

HDFS commands examples

View the usage of hadoop fs

# hadoop fs

Enter the following -ls command to view the contents of the user’s root directory in HDFS, which is /user/root:

# hadoop fs -ls

View the contents of the /user directory in HDFS:

# hadoop fs -ls /user

-ls command again, but this time specify the root HDFS folder:

# hadoop fs -ls / 

The output should look like:

Found 6 items

drwxrwxrwt – yarn hdfs 0 2013-08-20 13:59 /app-logs

drwxr-xr-x – hdfs hdfs 0 2013-08-20 13:53 /apps

Switch to  user:

# su – hdfs

Make a new directory in HDFS named /user/root:

$ hadoop fs -mkdir /user/root

Change the permissions to make root the owner of the directory:

$ hadoop fs -chown root /user/root

Switch back to the root user:

$ exit

Create a directory named sample in HDFS:

hadoop fs -mkdir sample

Verify the folder was created successfully:

# hadoop fs -ls Found 1 items

Create a couple of subdirectories of sample:

# hadoop fs -mkdir sample/sample1

Delete the sample2 folder (and recursively its subcontents)

# hadoop fs -rm -R sample/sample2

run the ls -R command:

# hadoop fs -ls -R 

The directory structure of the output

.Trash

.Trash/Current

.Trash/Current/user

.Trash/Current/user/root

Put a file into the sample folder. Change directories to

/var/log/hadoop/hdfs:

# cd /var/log/hadoop/hdfs 

Notice this folder contains a file named hdfs-audit.log:

# tail hdfs-audit.log 

Run the following -put command to copy hdfs-audit.log into the sample folder in HDFS:

# hadoop fs -put hdfs-audit.log sample/

Verify the file is in HDFS by listing the contents of sample:

# hadoop fs -ls sample

Copy the hdfs-audit.log file in sample to another folder in HDFS:

# hadoop fs -cp sample/hdfs-audit.log sample/sample1/copy.log

# hadoop fs -getmerge sample /tmp/merged.txt

Hive

Tags

,

– Designed for batch processing.

Real time query capabilities added to Hive (Tez)

– HiveQL query language 

Allows data stored in HDFS to be accessed from within Hadoop or from databases and datawarehouses 

Compare Hive & RDBMS

Hive

Focused on analytics.

Supports sequential inserts and appends.

Low cost storage using local disks

Many Nodes

Fast data access with data skipping and sorting

Map/reduce.

RDBMS

Focused on real-time queries and analytics.

Random INSERT and UPDATE supported

Expensive storage using SAN technology

Few Nodes

Fast data access through indexing

Parallel queries

$ hive
hive> CREATE TABLE sample(id  INT);

hive> DESCRIBE sample;

How to process Hive Sql Statements?

Clients connect to hive server instance.

Execute Query

Hive parse and plan query

Query convert to map reduce

Map Reduce run Hadoop

Table smaples

CREATE TABLE customer (custID INT,fName STRING,lName STRING,birthday TIMESTAMP,) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,';

CREATE EXTERNAL TABLE SALARIES (

   gender string,age int,salary int,code int) ROW FORMAT DELIMITED

   FIELDS TERMINATED BY ‘,’ LOCATION ‘/home/custsalaries/’;

LOAD DATA INPATH ‘/home/custsalaries.csv’ OVERWRITE INTO TABLE customers;

Introduction to HDP and Hadoop 2.X

Tags

,

What is Big Data?

Big data is when the volume, velocity and/or variety of data gets to the point where it is too difficult or expensive for traditional systems to work with.

Big-Data-2

Volume:Data coming in from new sources as well as increased regulation in multiple areas means storing larger sets of data for longer periods of time.

Variety:Unstructured and semi-structured data is becoming as strategic as traditional structured data  and is growing at faster rates.

Velocity:Social media, RFID, machine data, etc. are needing to be ingested at speeds not even imagined a few years ago.

Market For Big data

The big data and analytics market will reach $125 billion worldwide in 2015, according to IDC.

The Big Data technology and services market represents a fast-growing multibillion-dollar worldwide opportunity. In fact, a recent IDC forecast shows that the Big Data technology and services market will grow at a 26.4% compound annual growth rate to $41.5 billion through 2018, or about six times the growth rate of the overall information technology market.

Big data revenue will reach $135 billion by the end of 2019

Big Data, New Data Types 

Sentiment
Understand how your customers feel about your brand and products 

Clickstream
Capture and analyze website visitors’ data trails and optimize your website

Sensor/Machine
Discover patterns in data streaming automatically from remote sensors and machines

Geographic
Analyze location-based data to manage operations where they occur

Server Logs
Research logs to diagnose process failures and prevent security breaches

Unstructured (txt, video, pictures, etc..)
Understand patterns in files across millions of web pages, emails, and documents

What is Hadoop

Hadoop is a High Performance Super Computer environment that is horizontally scalable with commodity hardware . Hadoop does parallel processing across data nodes on a highly available distributed file system.

Hadoop zekeriyabesiroglu

Compare Traditional Systems vs. Hadoop

Data Types Structured  & Multi and unstructured

Speed Read as Fast & Write as Fast

Schema Required on write & Required on read

For Use 

Interactive OLAP Analytics ,Complex ACID Transactions,Operational Data Store & Data Discovery,Processing unstructured data,Massive Storage/Processing

Hortonworks

Ekran Resmi 2015-03-12 21.13.48

Hadoop 2.6.0 is the fourth major release for the year 2014 in the hadoop-2.x
line, and brings a huge number of enhancements to the core platform – both HDFS
& YARN. This release has nearly 900 resolved issues:

• Hadoop Common: 231 JIRAs resolved

• Hadoop HDFS: 305 JIRAs resolved

• Hadoop YARN: 290 JIRAs resolved

• Hadoop MapReduce: 70 JIRAs resolved

Some highlights:

• Hadoop Common • HADOOP-10433 – Key management server (beta)

• HADOOP-10607 – Credential provider (beta)

• Hadoop HDFS

• Heterogeneous Storage Tiers – Phase 2

• HDFS-5682 – Application APIs for heterogeneous storage

• HDFS-7228 – SSD storage tier

• HDFS-5851 – Memory as a storage tier (beta)

• HDFS-6584 – Support for Archival Storage

• HDFS-6134 – Transparent data at rest encryption (beta)

• HDFS-2856 – Operating secure DataNode without requiring root access

• HDFS-6740 – Hot swap drive: support add/remove data node volumes without
restarting data node (beta)

• HDFS-6606 – AES support for faster wire encryption

Hadoop YARN

• YARN-896 – Support for long running services in YARN

• YARN-913 – Service Registry for applications

• YARN-666 – Support for rolling upgrades

• YARN-556 – Work-preserving restarts of ResourceManager

• YARN-1336 – Container-preserving restart of NodeManager

• YARN-796 – Support node labels during scheduling

• YARN-1051 – Support for time-based resource reservations in Capacity
Scheduler (beta)

• YARN-1492 – Global, shared cache for application artifacts (beta)

• YARN-1964 – Support running of applications natively in Docker containers
(alpha)

Source:Hortonworks,IDC,apache

Oracle Big Data Discovery nedir?

Tags

,

Oracle’ın Big Data ile ilgili ürünlüleri gelişerek devam ediyor. Bu ürün serisinin son parçası Big data discovery.

Hadoop’un görsel yüzü olarak açıklanan ürünü inceleme fırsatı buldum. Çok önemli özellikleri olduğunu ve süreçleri kısaltmada inanılmaz işe yarayacağını düşünüyorum.

Bugün 10 milyarın üzerinde internete bağlanmış cihaz var. Bilgisayar,tablet mobil telefon giyebilir teknolojiler saatler gözlükler araç içi sistemler. Hepimizin tahmin edebileceği üzerine bu cihaz sayısı önümüzdeki yıllarda çok hızlı artış gösterecek. Durum böyle olunca üretilen veri miktarıda inanılmaz bir artış gösterecektir.

Bir BI projesinin belirli safhaları vardır. Biz bu safhaları

İhtiyaçları belirleme,datayı elde etme,datayı anlama,Datayı kullanılabilir hale getirme,analiz etme ve sonuc çıkarma olarak belirleyebiliriz. Bu süreçlerin herbiri başlı başına önemlidir ve zamanımızı alır.

Bir Big Data projesinde ise aynı safhalar olmasına rağmen veriyi elde ederken,datayı anlarken ve manipule ederken çok masraf yaparız. Asıl olan veriden bir sonuç çıkarmak iken verinin hazırlık aşamaları verinin analiz aşamaşının kat ve kat üstünde zamanımız alır.

Oracle bu rakamı %80 hazırlık %20 analiz olarak açıklıyor. Big data konusundaki çalışmalarınıda bu noktada yoğunlaştırıyor. bu yüzdeleri tersine çevirmek için uğraşıyor. Hazırlık aşamasında %20 analiz aşamasında %80 zaman harcamamız için çok daha hızlı işlenen datalar otomatikleştirilmiş işlemler,kullanıcı dostu programlar çıkartıyor.

Oracle Big Data discovery find,explore,transform,discover ve share aşalamalarından oluşuyor. Find aşamasında projelerimizi ve datasetlerimizi görüyoruz.

Oracle Big Data find

Explore aşaması data tipleri ve data değerlerini kolayca anlamamız için hazırlanmış durumda. Sıralama işlemleride bu aşamada çok önemli bir özellik

oracle big data explore

Transform aşamasında datayı dönüştürme ,temizleme,çevirme,gruplama gibi bütün önemli özellikleri gerekli kopyalarını alarak gerçekleştirebiliyoruz.

oracşe big data transform

Discover aşaması datayı her detayı ile incelediğimiz aşama

oracle big data discover

Publish ve Share aşamasında oluşturduğumuz veriyi dışarıya çıkarttıp ecosistemde Hive, R veya Oracle Big data SQL ile üzerinde çalışılmasını sağlayabiliriz.

Ekran Resmi 2015-03-09 10.31.35

Oracle Big Data Discovery veri atmamızda olçukça kolay. Attığımız bu verilemiz indexlemeye ve her türlü hızlı aramaya uygun hale geliyor.

Ekran Resmi 2015-03-09 10.39.09

Özetle söylemek gerekirse Oracle Big Data Discovery sayesinde  veriyi hazırlama aşamalarımızda çok ciddi zaman kazanacağız.

kaynak. Oracle.

Oracle Exadata X5-2 Nedir? Teknik Özellikler

Tags

,

exadata&exalogic

Oracle Geçtiğimiz hafta Exadata Database Machine X5-2 versiyonunun tanıtımını yaptı. Bütünleşik sistemlerinin liderlerinden olan Oracle’ın amiral ürünü olan Exadata’ın son versiyonuna yakından bakalım istedim.

Öncelikle Exadata üzerinde Database makinaları ve Storage serverları barından bir bütünleşik sistem. Exadata X5-2 Database machine almaya karar verdiğinizde önünüze 1/8,çeyrek,yarım ve tam olmak üzere farklı donanımlarda makinalar çıkıyor.

Biraz aradaki farklardan bahsetmek gerekirse tam bir Exadata makinasında 8 tane Database server var. Yarımda 4 çeyrek ve çeyrek yarısında 2 tane database server var.

Her bir Database server’ın özelliklerine gelince

2 x Eighteen-Core Intel® Xeon® E5-2699 v3 Processors (2.3 GHz)

256GB Memory (expandable to 768GB)

Disk Controller HBA with 1 GB Supercap-backed Write Cache

4 x 600 GB 10,000 RPM Disks

2 x QDR (40Gb/s) InfiniBand Ports

4 x 1/10 Gb Ethernet Ports (copper)

2 x 10 Gb Ethernet Ports (optical) •

1 x ILOM Ethernet Port

2 x Redundant Hot-Swappable Power Supplies

Makinaların teknik özelliklerindende anlaşılacağı gibi donanımsal olarak inanılmaz güçlü makinalar değilller. Exadatayı oluşturan hem yazılım hem donanım olarak çalışan ürünlerin beraber optimum performansı her yerde rahatlıkla yakalıyor olabilmesi. Yukarıdaki özellikler tek bir database makinası için gecerli çeyrek exadata almanız durumunda 2 tane database serverınız var ve siz bunları RAC yapabilirsiniz.

Gelelim Storage serverlarımıza. Exadatayı tam satın alanlar 14 yarım alanlar 7 ceyrek alanlar 3 ve ceyrek yarısı alanlar 3 storage servera sahip olabiliyorlar.

Peki bu Storage serverların özelliklerinde neler var.

Tam satın alanlar

224 CPU cores for SQL processing

56 PCI flash cards with 89.6 TB (raw) Exadata Smart Flash Cache , 168 x 4 TB 7,200 RPM High Capacity disks veya 112 x 1.6 TB NVMe PCI Flash Drives

yarım satın alanlar

112 CPU cores for SQL processing

28 PCI flash cards with 44.8 TB (raw) Exadata Smart Flash Cache, 84 x 4 TB 7,200 RPM High Capacity disks veya  56 x 1.6 TB NVMe PCI Flash Drives

ceyrek satın alanlar

48 CPU cores for SQL processing

12 PCI flash cards with 19.2 TB (raw) Exadata Smart Flash Cache, 36 x 4 TB 7,200 RPM High Capacity disks veya 24 x 1.6 TB NVMe PCI Flash Drives

1/8 satın alanlar

48 CPU cores for SQL processing (24 cores hazır)

6 PCI flash cards with 9.6 TB (raw) Exadata Smart Flash Cache, 18 x 4 TB 7,200 RPM High Capacity disks  veya 12 x 1.6 TB NVMe PCI Flash Drives

Benim exadata en çok beğendiğim ürün 2 tane 36 port QDR (40 Gb/sec) InfiniBand Switchler. Bu bütün versiyonlarda standart olarak geliyor.

Bütün bunların neticesinde ben full rack bir Exadata aldım aceba nasıl bir performans elde edebilirim? Exadata ürünü standart donanım ve yazılımdan oluştuğu için aynı standart üretim bir araba gibi performans rakamları net bir şekilde belli.

Bu rakamları birkaç dala ayırırsak

Maximum SQL flash bandwidth  te Hihg Capacity disk tercihi ile 140 GB/s Extreme Flash tercihse  263 GB/s

Maximum SQL flash read IOPS HC de 4,144,000 EF de 4,144,000(I/O per second)

Maximum SQL flash write IOPS HC de 2,688,000  EF de 4,144,000.

Peki bu bütünleşik sistemde hangi Oracle ürünleri alabiliyoruz.

Database server tarafında  Oracle Database 11g Release 2 Enterprise Edition and Oracle Database 12c Enterprise Edition Oracle Real Application Clusters, Oracle Partitioning, Oracle Multitenant ve diğer database server seçenekleri.Oracle Linux 6 Update 6 with the Unbreakable Enterprise Kernel 2.

Storage servers tarafında Oracle Exadata Storage Server Software. Smart Scan Technology • Smart Flash Cache • Smart Flash Logging • Columnar Flash Cache • Exadata Snapshots • Exafusion Direct to Wire OLTP Protocol • IO and Network Resource Management • Storage Index • Hybrid Columnar Compression • Smart Scans of Data Mining model scoring • Exadata Virtual Machines • I/O Analysis in AWR reports

Storage server tarafındaki her bir özellik zaten tek başına bile EXADATA kullanmak için neden olabilir.

exadata_certified_logo

Follow

Get every new post delivered to your Inbox.