Data Scientist Kimdir? Data Scientist ne iş yapar? Nasıl Öğrenilir

Merhaba arkadaşlar. Oyun artık değişiyor. Veri her zamankinden daha kıymetli , daha çok ve daha değerli oluyor. Günümüzde insanlar artık gönüllü bir şekilde veri üretiyorlar. Ürettikleri veri doğru analiz edilir ve yorumlarınırsa bundan memnun oluyorlar. Örneğin ben A marka akıllı saat aldığıma çok memnunum. Bu saatin ürettiği kişisel aktivite ve nabız gibi bilgilerimin toplanması ve bana … Continue reading Data Scientist Kimdir? Data Scientist ne iş yapar? Nasıl Öğrenilir

Data Science Data Formats

Veri ile uğraşıyorsanız her türlü data tipine hazırlıklı olmalısınız. Data artık birçok farklı formattan gelebiliyor. Datanın formatını doğru belirleyebilmek son derece önemli oluyor. Bu formatları incelemek gerekirse LOG Files: log fileları büyük projelerde son derece önemli başlık oluyorlar. Log filelarına örnek vermek gerekirse web serverlar, hadoop , sensorler ve cep telefonlarını verebiliriz. Şirketler bu tarz … Continue reading Data Science Data Formats

Apache Spark, Resilent Distributed Dataset RDD.

Apache Spark is a fast, general engine for large scale data processing on a  cluster. Advantages of Spark High level programming framework Write applications quickly in  Scala, Python or Java. Cluster computing Combine SQL, streaming, and complex analytics Distributed storage Data in memory Easier Development Near real time processing In-Memory Data Storage We can use … Continue reading Apache Spark, Resilent Distributed Dataset RDD.

Hadoop Nedir? Mapreduce Nedir?

Hadoop'un başlangıcı 1990ların sonu 2000lerin başında Google çalışmalarına gidiyor. Google 2003 senesinde Google File Sistemini çıkarıyor. 2004 yılında Map Reduce ortaya çıkıyor. Ana prensipleri Developerlar'ın network programlamasında çok uğraşmamaları, Developerların nodeların birbiri ile konuşmaları için minimum uğraşmaları,Nodeların birbiri ile minimum haberleşmeleri, Datanın kopyalanması sayesinde hem kullanılabilirlik hemde ulaşılabilirlik artacaktır. Hadoopda datayı sisteme yüklediğimizde bloklara ayırarak … Continue reading Hadoop Nedir? Mapreduce Nedir?

What is Yarn?

YARN is a Yet Another Resource Negotiator. Yarn goal is to facilitate applications to achieve 100% utilization of all resources on the physical system while letting every application execute at its maximum potential. YARN multi node cluster has an aggregate pool of computer resources memory and cpu.  YARN uses scheduler policy. Compare Hadoop 1 & YARN. … Continue reading What is Yarn?

Hive

- Designed for batch processing. - Real time query capabilities added to Hive (Tez) - HiveQL query language  Allows data stored in HDFS to be accessed from within Hadoop or from databases and datawarehouses  Compare Hive & RDBMS Hive Focused on analytics. Supports sequential inserts and appends. Low cost storage using local disks Many Nodes Fast … Continue reading Hive

Introduction to HDP and Hadoop 2.X

What is Big Data? Big data is when the volume, velocity and/or variety of data gets to the point where it is too difficult or expensive for traditional systems to work with. Volume:Data coming in from new sources as well as increased regulation in multiple areas means storing larger sets of data for longer periods … Continue reading Introduction to HDP and Hadoop 2.X

Oracle Big Data Discovery nedir?

Oracle'ın Big Data ile ilgili ürünlüleri gelişerek devam ediyor. Bu ürün serisinin son parçası Big data discovery. Hadoop'un görsel yüzü olarak açıklanan ürünü inceleme fırsatı buldum. Çok önemli özellikleri olduğunu ve süreçleri kısaltmada inanılmaz işe yarayacağını düşünüyorum. Bugün 10 milyarın üzerinde internete bağlanmış cihaz var. Bilgisayar,tablet mobil telefon giyebilir teknolojiler saatler gözlükler araç içi sistemler. … Continue reading Oracle Big Data Discovery nedir?

What is NoSql Database ?

RDBMS DATABASE Compare NOSQL Database RDBMS: Complex data,important data NOSQL:Simple Data,less important data ---- RDBMS:Join data,Complex relation NOSQL:Avoid join,simple data ---- RDBMS:Schema important NOSQL:Schema free ---- RDBMS:Scale up NOSQL:Distributed Storage NOSQL DATABASE COMPARE HDFS NOSQL: DATABASE,Read,write,delete,update HDFS: File system, write once,read many ---- NOSQL: Real Time HDFS: Batch WHY I CHOOSE NOSQL DATABASE? Your data … Continue reading What is NoSql Database ?