Data Scientist Nedir ? Nasıl Data Scientist olunur ? Data Scientist olmak için öğrenilmesi gerekenler

Ekran Resmi 2017-03-30 09.34.15

Data Scientist Kimdir? Bir kaç farklı tanımı var ama en beğendiğim bir iki tanımlamayı buraya yazmak istedim.

What is Data science? ‘Building software products (aka data products) whose core functionality relies on applying statistical or Machine learning methods to data.’ What is Data scientist? A person who do above

Bir başka önemli Linkedin mensubu Rogati söyle tanımlamış

“They are half Hacker , Half analyst, They Use DATA to build Products  and find insights”.

Peki nedir bu Data Product? yada Software Product Nedir?

En bilinen örnek Google . Yaşınız benimkine yakında Altavistayı hatırlarsınız. Search engine olarak Googledan çok daha önce çıkmıştı ve pazar lideriydi. Google ne yaptı ? Yeni data productlar oluşturdu. Bunun en büyük örneği Pagerank yapısı. Devamında Adwords ve Google Analytics i örnek verebiliriz. Linkedin i bu kadar populer yapanın “People yo may know” demesi ve doğal olarak data product ‘ı olduğunu söyleyebilirim.

Bu örnekler dünya çapında biz bunları nasıl yapalım diyebilirsiniz ama şirketinizde Amazonun yaptığı gibi bir product recommendations yapısı oluşturmak sandığınız kadar zor değil. Veriden şirketinize artı sağlayabilecek bir ürün üretebilmek önemli. Bunu yapabilmek için günümüzde ve gelecekde daha fazla fırsatımız olacak zira her geçen gün daha fazla veri oluşuyor.

Data Scientistleri diğer işlerden ayıran en önemli nokta ise Geleceğe yönelik sorgulama yapabilmesi.  🙂 . Yani bizler yıllardır Database kullanıyoruz . Bu databaselerimizde verilemizi sorguluyoruz. Bu sorgulamalar geçmise yapılan sorgulamalar oysa Data scientistler bu verileri doğru kullanarak geleceğe yönelik tahminler yapabilirler.

Data Scientist olacak bir arkadaşımızın Analitik düşünce yapısında olması, Database bilgisi olması, Matematik ve istatistik bilgisi,temel programcılık bilgisi Teknik ve Business tarafında kolay ve etkili iletişim kurması artı özellikler diyebiliriz.

 

iş1

Bu tanımların sonunda Data Scientist olmak için neler öğrenmeliyim.

Data Scientist için kendimce öğrenilmesi gereken başlıkları çıkardım Öğrenilmesi gerekenler

1-Bir takım araclar ve diller . Öncelikle SQL ile başlayalım. SQL bilmeyi bu işlerin en üstüne yazmalı diye düşünüyorum. R ve Python öğrenmek. Rstudio ,Zeppelin  iyi toollar. Notebook , Docker üzerinde çalışmak github kullanmayı öğrenmek başlangıç aşamasında önemli

http://www.github.com

https://hub.docker.com/

https://www.rstudio.com/products/rstudio/download/

2-Hadoop a yatkın olacaksınki terabyte – petabyte range inde datalarda çalışabilesin. HDFS temel özellikleri öğrenilmeli. HDFS file sisteme data nasıl atarım veriyi nasıl çekerim gibi temel komutlara çalışmak lazım.

HDFS özelikle batch işlerde artık en önemli platform. Verinin saklanması için tercih edilebilecek en ucuz platform olan bu mimari sayesinde maliyeti son derece düşük serverlardan yatay büyüyebilen Clusterlar oluşturuyoruz. Temeli Google’ın file sistemine dayanıyor ve Hadoop platformu günümüzde en büyük 6 Telco şirketinin 5 inde 7 en büyük bankanın 6 sında tercih edilmiş durumda. Her geçen gün hadoop platformunu tercih eden firma sayısı artıyor. Bizler Spark da kullansak sc.textfile(”) ile verilerimizi bu platformdan direk okuyabiliyoruz. Hadoop platformunu tercih eden ve Türkiye’de de aktif danışmanlığını yaptığım ve / veya eğitimler verdiğim onlarca firma olduğunu söyleyebilirim. Bu konuda Hortonworks ve Cloudera temel platform sağlayıcı şirketler.

 

3- Sqoopu öğrenilmeli. Apache Sqoop Databaseden Hdfs e ve yine hdfs den database verilerimizi aktarabilir. Örneğin Oracle database imizde duran bir tablomuzu Sqoop sayesinde HDFS platformumuza ve/veya Hive a aktarabiliriz.

http://sqoop.apache.org/

4-Dogru dataya ulaşmak lazım Doğru datanın formatı, quantitysi ve qualitysi çok önemli. Basit bir örnek vermek gerekirse 05-Nisan-2017 ile Nis-05 ,IST istanbul ISTANBUl IStanBUL gibi (bu verileri temizlemek ve düzenli tek formatlar oluşturmak) Bu konulara eğilmek lazım.

 

5-Hive ve Pig’ı iyi bileceksinki data transformationda zorlanma. Hadoop platformunda belkide ilk öğrenilmesi gereken Hive. Hive konusu aynı SQL gibi herkes kolay yazdığını düşünebilir ama yapısı gereği ciddi tuning ihtiyaçları olan bir mimari.

6-Spark ı iyi öğreneceksin . SPARK ve yine Spark. Alternatif olarak üretilen platformlara rağmen Sparkın vazgeçilmez olduğunu düşünüyorum. Daha önce öğrendiğiniz Pyhton ve R size bu konuda büyük avaentaj sağlayacaktır. ML ve Mllibleri sayesinde Machine Learning tarafında da iddalı olan bu platform son derece önemli bir başlığımız.

7-Datayı doğru analiz etmek için istatiksel methodları ve Machine Learning algoritmalarını iyi öğreneceksin.

Bir iki madde daha ekleyebilirim ama Data science ın tek bir disiplinden olusmadığı açık o yüzden kendini doğru yetiştirmiş Veri bilimcileri IT sektörünün en aranan isimleri olacaklar. #datascience #datascientist #veribilimi #hortonworks #hadoop #zeppelin #nifi #spark #Cloudera #hive #machinelearning

 

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s