Hive and Hbase integration, How to use Hive for Hbase table

UvGsu3AFuXc2AAAAAASUVORK5CYII=

Hive ile Hbase database nasil entegre ederim. Hive uzerinden Hbase databasedeki tablomu nasil baglarim

 

set up necessary path and jar configuration

login root user

su –

hbase shell

hbase(main):001:0> list
TABLE

users

 

hbase(main):002:0> describe ‘users’
DESCRIPTION                                          ENABLED
‘users’, {NAME => ‘a’, DATA_BLOCK_ENCODING => ‘NONE true
‘, BLOOMFILTER => ‘ROW’, REPLICATION_SCOPE => ‘0’,
VERSIONS => ‘1’, COMPRESSION => ‘NONE’, MIN_VERSION
S => ‘0’, TTL => ‘2147483647’, KEEP_DELETED_CELLS =
> ‘false’, BLOCKSIZE => ‘65536’, IN_MEMORY => ‘fals
e’, BLOCKCACHE => ‘true’}
1 row(s) in 0.4510 seconds

hbase(main):003:0> get ‘users’,’1′
COLUMN                CELL
a:address            timestamp=1462368843466, value=3084 Cody Ridge Road
a:city               timestamp=1462368843466, value=Loco
a:email              timestamp=1462368843466, value=LarryESchwarz@teleworm.us
a:name               timestamp=1462368843466, value=Larry E Schwarz
a:phone              timestamp=1462368843466, value=580-537-8691
a:state              timestamp=1462368843466, value=OK
a:zipcode            timestamp=1462368843466, value=73442
7 row(s) in 0.0670 seconds

sudo cp /usr/lib/hbase/lib/hbase*.jar /usr/lib/hive/lib

if needed you can set zookeeper conf.

set hbase.zookeeper.com=127.0.0.1;
set hbase.master=127.0.0.1:60000;

connect hive

create external table users(key int,address string,city string,email string,name string,phone string,state string, zipcode string) stored by ‘org.apache.hadoop.hive.hbase.HBaseStorageHandler’ with serdeproperties (‘hbase.columns.mapping’ = ‘:key,a:address,a:city,a:email,a:name,a:phone,a:state,a:zipcode’);

 

hive> describe users
> ;
OK
key                     int                     from deserializer
address                 string                  from deserializer
city                    string                  from deserializer
email                   string                  from deserializer
name                    string                  from deserializer
phone                   string                  from deserializer
state                   string                  from deserializer
zipcode                 string                  from deserializer
Time taken: 3.19 seconds, Fetched: 8 row(s)

hive> select * from users;
OK
1    3084 Cody Ridge Road    Loco    LarryESchwarz@teleworm.us    Larry E Schwarz    580-537-8691    OK    73442
10    3917 Rardin Drive    Santa Clara    TomSDuckett@gustr.com    Tom S Duckett    650-642-6293    CA    95050
11    3406 Ashmor Drive    Kettle River    TheresaRWilliams@dayrep.com    Theresa R Williams    218-273-3304    MN    55757
12    2586 Brighton Circle Road    Wahkon    MildredTBrewer@superrito.com    Mildred T Brewer    320-495-4127    MN    56386
13    4621 Warner Street    Miami    AmandaJWright@cuvox.de    Amanda J Wright305-972-9928    FL    33176
14    4655 Emeral Dreams Drive    Rockford    PamelaRSpinelli@teleworm.us    Pamela R Spinelli    815-226-7633    IL    61108
15    1481 Coolidge Street    Corvallis    GloriaCBewley@einrot.com    Gloria C Bewley    406-961-9478    MT    59828
16    1192 Woodlawn Drive    Sheboygan Falls    GenaDMarshall@dayrep.com    Gena D Marshall    414-596-9264    WI    53085
17    4509 Lang Avenue    Salt Lake City    JamesMWilliams@armyspy.com    James M Williams    435-818-2733    UT    84116
18    2425 Horner Street    Cuyahoga Falls    ChristopherASchneider@fleckens.hu    Christopher A Schneider    330-905-1625    OH    44221
19    90 Willison Street    Golden Valley    SamathaDMcDaniel@dayrep.com    Samatha D McDaniel    763-293-9310    MN    55427
20    3132 Sugarfoot Lane    Indianapolis    KennethLDean@cuvox.de    Kenneth L Dean    765-466-9472    IN    46225
4    4093 Adonais Way    Atlanta    MaryODuprey@jourrapide.com    Mary O Duprey    678-398-6820    GA    30308

 

Oracle Big Data Appliance incelemesi

Tags

, , , , , ,

Geçtiğimiz günlerde Oracle BDA incelemesi için Oracle’ın organize ettiği Oracle yöneticileri ve blog yazarları etkinliğinde bir araya geldik. Oracle’dan arkadaşlarımız Murat Yeşil, Mehmet Gökmen ve Emrah Uysal sorularımız cevapladı.

 

20160330_141538

Öncelikle bu tarz bir etkinlik düzenlenmesi son derece önemli bu etkinliği düzenliyen Deniz Sağçıya ve ITadvisor dergisi ekibine teşekkürlerimi iletiyorum.

Oracle Big data appliance ürününü çıktığı ilk günden beri takip ediyorum. Konu Hakkındaki 2013 senesindeki teknik incelememi aşağıdaki linkten bulabilirsiniz.

Oracle Big Data Nedir

ve yine Big data ve SQL analizleri ile alakalı yazılarımı 2014 senesindeki paylaşımım olan

https://zekeriyabesiroglu.com/2014/09/03/big-data-ve-sql-analizleri/ takip edebilirsiniz.

Big data konusunda 2012-2013 senesinden beri yoğun olarak çalışan bir uzman olarak ve Oracle University bünyesindeki Oracle Big Data appliance eğitimlerini Turkiye’de ve Avrupa’da ilk veren uzman olarak yorumum Oracle bu Teknoloji devrimi konusunda konumunu ve yerini bu defa zamanında aldı. Bence Dünyanın en iyi veritabanı makinası olan EXADATA ile hem pazarda hemde teknik anlamda inanılmaz iyi işler çıkaran Oracle Oracle BDA ilede Big Data Treninin en güçlü oyuncularından olacaktır.

Oracle’ın bu konudaki en büyük avantajları dediğim gibi exadata ve Bir big data projesinin hemen her aşamasında olan lider ürünledir.

Çevremdeki bütün dostlarıma ve öğrencilerime Big Data teknolojilerini mutlaka öğrenmeleri gerektiğini zira Big Data teknolojilerin sadece büyük veri ile alakası olmadığını artık hayatımızda yer alan 6 yeni datanın (sentiment,clickstream,log,geolocation,sensor,text) her şirketi ilgilenlendireceğini ve bu datayı iyi analiz edebilen şirketlerin inanılmaz fark yaratacaklarını biliyoruz.

Günümüzde bir bankanın yerinin ne kadar önemi kaldıki? En son ne zaman şubeye gittiniz? Ama eminim hepimiz en teknolojik bankayı biliyoruz ve tercih ediyoruz. Bundan sonrası böyle devam edecek müşterisini iyi analiz eden firmalar büyüyecek.

Arkadaşlar bir big data projesi için önünüzde 3 seçenek var

1-Appliance tercihleri: Burada Makinalarla yazılım hazır bir şekilde alırsınız bir bedel ödersiniz ama anahtar teslim bir çözüm olur. Bu konuda kişisel fikrim Oracle ve Teradatanın güçlü oldukları yönünde.

2- Makinaları siz satın alırsınız neticede Hadoop mantığı ucuz sıradan sayılabilecek donanımlardan oluşmasıdır beraberinde Hortonworks ,Cloudera gibi lider Big data firmalarından birini tercih edersiniz.

Benim kişisel fikrim Hortonworkten yana zira lisans ücreti yok sadece isterseniz support için bedel ödersiniz. Ayrıca Hortonworks Data Flow inanılmaz önemli bir yenilik Apache NIFI ile beraber Hortonwork’ün birkaç adım öne geçtiğini düşünüyorum.

3-Herhangi bir  vendorı tercih etmeden hem makinaları satın alıp hemde tek tek yazılımları kurmak . Bu çözümün zor olduğunu düşünüyorum. Her çözüm için size seytanın avukatlığını yapabilirim.

Big Data ile ilgileniyorsanız bugüne kadar onlarca firmada seminerler, eğitimler ve projeler yapmış bir arkadaşınız olarak size destek olmak isterim bana zekeriyab@bilginc.com veya zekeriyabesiroglu@gmail.com dan ulaşabilirseniz.

13007164_10154122954318739_420303094261128769_n

Teşekkürler.

Data Scientist Kimdir? Data Scientist ne iş yapar? Nasıl Öğrenilir

Merhaba arkadaşlar.

Oyun artık değişiyor. Veri her zamankinden daha kıymetli , daha çok ve daha değerli oluyor. Günümüzde insanlar artık gönüllü bir şekilde veri üretiyorlar. Ürettikleri veri doğru analiz edilir ve yorumlarınırsa bundan memnun oluyorlar.

Örneğin ben A marka akıllı saat aldığıma çok memnunum. Bu saatin ürettiği kişisel aktivite ve nabız gibi bilgilerimin toplanması ve bana rapor olarak dönmesini çok beğeniyorum.

Bisiklet kullanmayı hobi haline getirmiş olan bir kişi olarak , gittiğim yerlerde bana kiralık bisiklet önerebilecek şirketler beni kızdırmaz aksine mutlu eder. Günümüzde reklama harcana milyonlarca liraya rağmen asıl reklamın çok daha az kaynakla “Doğru reklamı Doğru kişiye yaparak” başarıya ulaşılabilir.

Firmalar için çıkardığım bir söz var “Müşterisinin DNAsını analiz etmek zorundalar”

Müşterisinin DNAsını analiz etmek isteyen şirketler Data Scientist aramaya başlasınlar.

Bu konuda dünyadan birçok örnek verebilmek mümkün. Obamanın seçim çalışmalarında veriyi et etkili şekilde kullandığını ve ekibinde onlarca Data Scientist barındırdığını biliyoruz. Amerikada özellikle sağlı sektöründe veriyi iyi kullanıp milyonlarca dolar kar eden ve bilime inanılmaz önemli katkısı olan birçok örnek mevcut. Bu olayı kaf dağının arkası olarak görmemek lazım takımındaki oyuncuları iyi analiz eden ve rakip takımı iyi analiz eden bir spor takımının başarılı olacağını hepimiz biliyoruz.

 

Ekran Resmi 2016-01-15 10.43.40

Data scientistler ne iş yaparlar ?

Şirket /Müşteri sorularına cevap bulurlar.

En uygun veriyi bulurlar,ortaya çıkarırlar.

Veriye nasıl ulaşacağımıza karar verirler.

Veriye elde edip temiz bir hale getirirler.

Veriyi detaylı analiz ederler.

Istatistiksel model ve tahmin oluştururlar.

Sorunları bulup çözüm üretirler. Yani Ham veriyi bir şekilde alıp bundan analiz edilebilir akıllı ve optimum avantajlar sunan bir sonuç çıkarırlar.

Ekran Resmi 2016-01-15 11.05.07

Bu konuda dünyada inanılmaz bir ivme yakalanmış durumda, ne yazıkki ülkemizde bu konuda yapılan çalışmalar çok az ve neredeyse aranan eleman bile yok. Harvard tarafından 21st yüzyılın en ilgi çekiçi işi olarak gösterilen bu başlıkta yapılan çalışmalar oldukça az.

 

Harvard

Bu işleri yaparken Data scientistler hangi toolları yada programları kullanabilirler?

Bu konuda benim açımda iki seçenek ön plana çıkıyor R ve Python . Birbirlerine artı eksileri var, daha sonra bir yazımda bu konuyu detaylı değerlendirebilirim.

Yazımı bu bölüme kadar okuduysanız bende artık biraz reklam yapabilirim. 17 yıllık IT tecrübemle son 3 yıldır Big Data ve Data Science konuları üzerine gece gündüz çalışmalar yapıyorum. Bu konuya inanmış arkadaşlarımıza uygulayabileceğimiz bir sertifika programı olacak ve yakın zamanda mümkünse seçilmiş kişilerle Data Scientist olma alanında eğitimler gerçekleştireceğiz.

Daha detaylı bilgiyi

BILGINC IT ACADEMY dan ulaşabilirisiniz.

Bana ulaşmak isterseniz

zekeriyab@bilginc.com

zekeriyabesiroglu@gmail.com

facebook/zekeriyabesiroglu

twitter/zbesiroglu kullanabilirsiniz.

 

 

 

 

 

Data Science Data Formats

Tags

Veri ile uğraşıyorsanız her türlü data tipine hazırlıklı olmalısınız. Data artık birçok farklı formattan gelebiliyor. Datanın formatını doğru belirleyebilmek son derece önemli oluyor. Bu formatları incelemek gerekirse

LOG Files: log fileları büyük projelerde son derece önemli başlık oluyorlar. Log filelarına örnek vermek gerekirse web serverlar, hadoop , sensorler ve cep telefonlarını verebiliriz. Şirketler bu tarz dataları maliyetten dolayı transactional dblerde tutmak istemezler.Bu tarz verilerin ETL processlerini beklemesine gerek yoktur.

Fixed yada Delimited files: Bu tarz formatlar ile çokça karşılasabiliyoruz. Genelde bir satırda bir kayıt bulunan CSV örneğinde formatlardır.

XML tipi: Bu tarz veri tipleri oldukça bilinen kolay bir formattır.

<musteri>

<id>0001</id>

<adı type=”display”>besiroglu, zekeriya</adı>

</müsteri>

JSON formatı:xml alternatif bir formattır diyebiliriz. Json amacı veri alış verişi yaparken daha küçük boyutlarda veri alıp göndermektir.

{

“id”:0001,

“adı”:”zekeriya besiroglu”,

“address”:”sariyer”,

“email”:”zekeriyabesiroglu@gmail.com”,

“phone_numbers”: [

{ “type”:”mobil”, “no”:”111 111 1111″ },

{ “type”:”is”, “n0″:”222 222 22 2222” },

{ “type”:”ev”, “number”:”333 333 3333″ },

],

}

Aynı kodu xml yazsaydım çok daha fazla kod olacaktı.

Binary formatı: Büyük veri için oldukça önemli bir formattır.

Video,Ses,resim pdf ve word processor bile örnek olarak verilebilir.

Sequence Files: Hadoop specific bir formattır. binary key/value pairs den oluşur.Hadoop hive ve pig bu formatı destekler. text based formatlarda iyi performans saglar. Hadoopun yapısı gereği küçük filelarla verimli bir şekilde çalışamaz. Sequence files sayesinden küçük fileları konteynarda toplayıp daha kolay ve performanslı tutabiliriz.

Avro:Data serialization için uygundur. C,C++,C#,java,perl,Python gibi dilleri destekler.Hadoop Mapreduce Avro ile çalısabilir. Avro Flume,Hive ve Pig ile beraberde kullanılabilir.

Spark Day,Istanbul Spark Meetup, TRSUG

Ekran Resmi 2015-04-29 10.53.12

Istanbulda düzenlenecek Spark Istanbul Meetup ‘da bende konuşmacı olarak yer alacağım. Sınırlı sayıda yer için http://www.eventbrite.com/e/spark-day-tickets-19144747455?aff=linkedin2

Wednesday, November 4, 2015 from 9:00 AM to 5:00 PM (EET)

Ajanda
09:00 – 09:30 Kayıt
09:30 – 09:45 Hoş geldiniz

 Şafak Serdar Kapçı, Kora  –   Büyük Veri Mimarı

09:45 – 10:15 Büyük Veride İstatistiğin Önemi
Prof. Seniye Ümit Oktay Fırat, Marmara Üniversitesi Endüstri Mühendisliği Bölümü
10:15 – 10:25 Kısa Ara
10:25 – 11:00 Oracle Büyük Veri Mimarisi 
Kübra Fenerci, Oracle – Büyük Veri Çözümleri Satış Yöneticisi
11:00 – 12:00 Panel    – Nasıl Yapabilirim?  —

Moderatör     Sina Onat    –  Kora

Oracle            Şafak Serdar Kapçı, Kora  –   Büyük Veri Mimarı

Açık Kaynak  Hakan İlter  – Gitti Gidiyor

12:00 – 13:00 Öğle Yemeği
13:00 – 14:00 SparkR
Hossein Falaki, Databricks
14:00 – 14:10 Kısa  Ara
14:10 – 15:00 SparkR
Hossein Falaki, Databricks
15:00 – 15:15 Kahve Arası
15:15 – 16:00 Customer Predictive Analytics 
Yasemin Kaya
16:00 – 16:10 Kısa Ara
16:10 – 17:00 Spark Streaming sayesinde Real Time data Processing and Fraud Detection
Zekeriya Beşiroğlu

Oracle Open World 2015

oracle zekeriyabesiroglu

I am speaking Oracle Open World at San Francisco below mention subjects.
Session ID

UGF1723
Title

Ten Vital Tips for Oracle Real Application Clusters Performance
Abstract

In this session, learn about analyzing cache fusion impact in Oracle Real Application Clusters (Oracle RAC), long full-table scans in online transaction processing (OLTP) systems, Automatic Segment Space Management, sequence caches, partitioning to reduce interinstance traffic, how to prevent unnecessary parsing, how to prevent locking issues, how to configure interconnect properly, and how to use the Automatic Workload Repository feature in Oracle Enterprise Manager 12<i>c</i> and the Automatic Database Diagnostic Monitor feature in Oracle Database on Oracle RAC systems to identify performance problems. This is a technical session aimed at database administrators and developers.

Neden Apache Spark ? Apache Spark Nedir?

Tags

, , , , , ,

Ekran Resmi 2015-04-29 10.53.12

Öncelikle Neden Apache Spark sorusuna cevap bulalım.

IT dünyasında çözüm olarak Büyük bilgisayarlar dönemini geride bıraktık. Yani daha hızlı processor ve daha fazla memory çözümleri bugunun ihtiyaçlarını karşılayamayacağı ortaya çıkmıştır. Günümüzde Distributed sistemler ön plana çıkıyorlar.

Ekran Resmi 2015-07-07 10.08.54

Distributed Systemlerde birçok makinadan oluşan bir yapı söz konusudur. Bu yapı iyi gibi gözükmekle beraber datanin merkezi bir yerde durması,çalıştırılma zamanı processorlere kopyalanması gerektiğinden özellikle verinin büyük olduğu senaryolarda yeni bir açılıma gidilmesi gerektiği ortaya çıkmıştır.

Hadoop bu konuda datayı process edileceği yerde tutan yaklaşımı ile çözüm olmuştur.

Ekran Resmi 2015-07-07 10.14.43

Spark ise bunun bir ileri seviyesi olarak datayı memoryde distribute eden bir çözüm olmuştur.

Spark frameworku üç safhadan oluşur.

1-API SPARK

2-Storage HDFS

3-Cluster Spark standalone ,YARN

Sparkı ön plana çıkartan temel avantajlar nelerdir?

Programlaması daha kolay olması

Datanın memoryde olması ve tekrar eden süreçlerde inanılmaz hızlı olması

Cluster avantajları

Ekran Resmi 2015-04-29 10.17.29

Dünyadaki birçok firmada Spark çözümlerini görebiliyoruz. Spark hangi projelerde kullanabiliriz.

ETL,Sentiment Analysis,Risk Analizleri,Kredi analizleri,text mining başta olmak üzere birçok farklı çözümler olabilir.

Bazı örneklerden daha önceki yazımda biraz bahsetmiştim.

https://zekeriyabesiroglu.com/2015/04/29/apache-spark-resilent-distributed-dataset-rdd/

Apache Spark, Resilent Distributed Dataset RDD.

Tags

, , ,

Ekran Resmi 2015-04-29 10.53.12

Apache Spark is a fast, general engine for large scale data processing on a  cluster.

Advantages of Spark

High level programming framework

Write applications quickly in  Scala, Python or Java.

Ekran Resmi 2015-04-29 10.13.23

Cluster computing

Combine SQL, streaming, and complex analytics

Ekran Resmi 2015-04-29 10.09.54

Distributed storage

Data in memory

Ekran Resmi 2015-04-29 10.17.29

Easier Development

Near real time processing

In-Memory Data Storage

We can use Apache Spark for

Personalization and ad analytics

Real time video stream optimization

Real time analytics for telco clients

Cross device personalized video experience

Extract/Transform/Load (ETL)

Text mining

Index building

Graph creation and analysis  

Patterrn recogniton

Collaborative filtering

Prediction models

Sentiment analysis

Risk assessment

We can use Python Shell(pyspark),Scala Shell (spark-shell)

What is Resilent Distributed Dataset.

Which is a fault-tolerant collection of elements that can be operated on in parallel. There are two ways to create RDDs: parallelizing an existing collection in your driver program, or referencing a dataset in an external storage system, such as a shared filesystem, HDFS, HBase, or any data source offering a Hadoop InputFormat.

if data in memory is lost, it can be recreated. Stored in memory across the cluster.

How to create Resilent Distributed Dataset?

From a file or set of files – From data in memory – From another RDD

Example.

Sports.txt

Bayern Munich missed all four of their penalties as Borussia Dortmund reached the German Cup final after a shootout.

Bayern midfielder Xabi Alonso also slipped at the crucial moment – straight after Lahm

Klopp will now have a chance to win the German Cup for a second time with Dortmund in his last match in charge

mydata = sc.textFile(“sport.txt”)

mydata_uc = mydata.map(lambda line: line.upper())

mydata_filt = \

     mydata_uc.filter(lambda line: \

     line.startswith(‘B’))

mydata_filt.count()

2

Download Apache Spark

https://spark.apache.org/downloads.html

Hadoop Nedir? Mapreduce Nedir?

Tags

, , , , , ,

Hadoop’un başlangıcı 1990ların sonu 2000lerin başında Google çalışmalarına gidiyor. Google 2003 senesinde Google File Sistemini çıkarıyor. 2004 yılında Map Reduce ortaya çıkıyor.

Ana prensipleri Developerlar’ın network programlamasında çok uğraşmamaları, Developerların nodeların birbiri ile konuşmaları için minimum uğraşmaları,Nodeların birbiri ile minimum haberleşmeleri, Datanın kopyalanması sayesinde hem kullanılabilirlik hemde ulaşılabilirlik artacaktır.

Hadoopda datayı sisteme yüklediğimizde bloklara ayırarak yazar. Örnek vermek gerekirse 64Mb blocklar diyebiliriz. bir çok node paralel bir şekilde çalışır.

Yukarıda bir master node altlarında ise data nodeları vardır. Data nodelarından bir tanesinin çökmesi durumunda master node bunu anlar ve diğerleri ile devam eder.

Hadoop Apache Software foundation’in open source bir projesidir.

Hadoop Facebook,Linkedin,Yahoo gibi dünya devi şirketlerle gelişmektedir.

Hadoop iki ana yapıdan oluşur.

HDFS(Hadoop Distributed File system)

Map Reduce

Hadoop Cluster’i ne demektir?

Hadoop cluster’i tek tek makinalardan oluşan mimaridir. Node sayısı günümüzde binlerce olan birçok şirket vardır. Daha fazla Node daha iyi performans demektir.

HDFS sayesinde Hadoop Clusterinda dataları tutarız. Daha önce blocklara yazdığımızdan bahsetmiştim. Data block block farklı nodelara yazılır. Her block farklı nodelara kopyası yazılır. Örneğin 3 kopya.

MapReduce Nedir?

MapReduce Hadoop Clusterinda datanın işlenmesi sürecidir. İki aşamalı bir süreçtir.

peki Nedir bu HDFS? HDFS Nedir?

HDFS Java’da yazılmış bir file sistemidir. Temeli Google FS dayanır.

Oluşturulması itibarı ile write once yapar. Karışık,rastgele yazma yoktur.Kesintisiz veri okumayı rastgele okumaya tercih edecektir.

daha önce belirttiğim gibi Master Node yani NameNode ve DataNodelardan oluşur. Data Namenodelara block block yazılır. NameNode blockların takibini yaparlar .

HDFS.

örnek vermek gerekirse Namenodeda deneme.txt dosyasının 1,2,3,4,5 nolu blockları oldugu yazar, her block 3 kopya ve farklı farklı nodelara yazılır.

NameNodeların kesintisiz çalışması çok önemlidir. NameNode durarsa cluster ulaşılmaz olur.Bu yüzdende NameNodeları seçerken çok dikkatli davranmak gerekir. Sağlam bir donanım önemlidir. Secondary NameNode Çok önemlidir. Standby nameNode Namenode backup değildir. Active namenode bir problem yaşadığında Standby NameNode otomatik olarak devreye girecektir. Bu yüzden High Availability şeçilmelidir.

HDFS ye nasil ulaşabilirim?

HDFS ye local file sistem üzerinden ulaşabilirsiniz. komutlar linux benzeridir.

hadoop fs -put deneme.txt deneme.txt (deneme.txt dosyasını local file sistemden Hadoopa kopyaladık) /user/zekeriya/deneme.txt

hadoop fs -ls (user home directory)

hadoop fs -ls / (root directory)

hadoop fs -cat /user/zekeriya/deneme.txt

hadoop fs -mkdir veri (yaratma)

hadoop fs -rm -r veri (silme)

MAP REDUCE programlamanın başlangıç örneği

map(String input_key, String input_value)

foreach word w in input_value:

emit(w, 1)

reduce(String output_key,

                    Iterator<int> intermediate_vals)

   set count = 0

   foreach v in intermediate_vals:

       count += v

emit(output_key, count)

(1000,’Galatasaray sampiyon olur’)

(2000,’beşiktas sampiyon olur’)

(2200,’Galatasaray Türkiyedir’)

Output Mapper

(‘Galatasaray’, 1), (‘sampiyon’, 1), (‘olur’, 1), (‘beşiktas’, 1),

(‘sampiyon, 1), (‘olur’, 1), (‘Galatasaray’, 1), (‘Türkiyedir’, 1)

Intermediate Data Reducer’a gönderilen

(‘Galatasaray’,[1,1])

(‘sampiyon’,[1,1])

(‘olur’,[1])

(‘beşiktas’,[1])

(‘Türkiyedir’,[1])

Reducer’ın son cıktısı

(‘Galatasaray’,2)

(‘sampiyon’,2)

(‘olur’,1)

(‘beşiktas’,1)

(‘Türkiyedir’,1)

What is Yarn?

Tags

, , , ,

YARN is a Yet Another Resource Negotiator. Yarn goal is to facilitate applications to achieve 100% utilization of all resources on the physical system while letting every application execute at its maximum potential.

YARN multi node cluster has an aggregate pool of computer resources memory and cpu.  YARN uses scheduler policy.

Compare Hadoop 1 & YARN.

HADOOP 1 HADOOP 2

Scalability: Hadoop 1 , Hadoop cluster deployed on 3500 nodes . YARN has been successfully deployed on 35,000+ nodes

Availbility: Hadoop1 use JobTracker, If jobtracker failed, then all jobs failed. There was single point of failure. YARN use Resource manager and Task management separated concern.

Hadoop 1 was meant to solve batch-processing scenarios, and MapReduce was the only programming paradigm available. YARN has new programming models & services.

HADOOP YARN

YARN are not limited to Java. Applications written in any language, as long as the binaries are installed on the cluster, can run natively, all while requesting resources from YARN and utilizing HDFS.

MapReduce in Hadoop 2 (MRv2)  each job has its own ApplicationMaster. Each MRv2 job’s resource requests are dynamically sized for its Map and Reduce processes.

How to configure YARN?

YARN has one core configuration file:

/etc/hadoop/conf/yarn-site.xml

What can we do in yarn-site.xml?

We configure how resource allocation work. There are two types of resources. Physical: total physical resources (memory) allocate per container.

yarn.scheduler.maximum-allocation-mb 8GB per container default

yarn.scheduler.minumum-allocation-mb 1GB per container default

Virtual: Total virtual resources (memory) that a container