Sevgili arkadaşlar bu yazımda sizlere çok önemli ve şirketler için vazgeçilmez bir rol üstlenen Data Engineer lardan bahsetmek istiyorum.
Data önceki yazımda Data Scientist (veri bilimci) kimdir ne iş yapar detaylı paylaşmıştım.
Ufak tefek farklılıklar göstersede Data scientist bence bir software engineer dan daha fazla istatistik bilgisi olan ve bir istatistikçiden de daha fazla yazılım bilen kişi olarak başlayabiliriz.
Bu doğrultuda Data Engineer ne bilmelidir. Data scientist ve Data engineer lar birbirlerine yakın çalışması gereken roller.
Data engineer konusuna gelirsek çok beğendiğim bir tanımı sizlerle paylaşmak istiyorum. Klasik software engineer a göre daha fazla istatistik bilmesi ve bir Data Scientist ten daha fazla sistem ve yazılım bilmesi gerekiyor.
Veri bilimi olarak basit bir şekil çizersek
Veriyi Hazırlama —–> Test ve Train set ler —–> Model —–> değerlendirme gibi bir yol izleyebiliriz.
Data engineering ise Ham data kısmından başlayabilir. Veriyi Data scientist arkadaşlarımızın rahatlıkla kullanabilceği hale getirme ve birlikte çalışmaya kadar devam eder.
Bu roller bazı şirketlerde aynı kişiler tarafından götürülebilir ama şirket büyüdükçe bu mümkün ve doğru olmayacaktır. Günümüzde her şirket data engineer a ve data scientist te inanılmaz ihtiyaç duyacaktır. Bu roller klasik IT rolleri gibi değildir. Business a direk Katma Değer sağlayan rollerden bahsediyoruz.
Peki Neden Data Engineering lazım.
Sadece basit analitik yetmez Datayı bir asset haline getirmemiz lazım.
Inanılmaz büyük fakat nasıl analiz edileceği bilinmeyen yada bu büyük veri içerisinden anlamlı bir veri çıkarılamamış binlerce şirket var. Diğer taraftan en başarılı şirketlere baktığınızda aslında veriyi iyi kullanan , veriden ürün çıkartan şirketler olduklarını görüyoruz. Ülkemizin bu alanda ciddi ihtiyaçları var. Benim gördüğüm kadarı ile veriyi iyi kullanıp bir product çıkaran şirket sayımız çok az.
Gerçek Veri bilimi için çok iyi data engineering lazım. Verinin çok çeşitli oluştuğunu düşündüğümüzde bu ihtiyacı daha iyi anlayabiliriz. Bu işleri otomatize etmemiz de ayrı bir önemli konu.
Günümüzde sistemleri özetlemek gerekirse
SOURCE DATA
Batch ve Streaming olarak ikiye ayıralım.
Batch tarafta klasik Sourcelarımızı yani RDBMSleri , NOSQL leri , FTP leri ve API ile jsonları düşünebiliriz.
Streaming tarafında IOT datası , Applicationlar , kafka gibi düşünnebiliriz.
PROCESS olarak
SQL , data extraction , partition, cleaning, encrpytion , split , compress , metadata , enrich ve stream processing çok önemli.
Bu konularda python , java , NIFI , Spark , Kafka , flink , Informatica(Big Data Management) , pentaho avantaj sağlayacak ürünler
ANALYZE etmek
Presto, Hive , Python , R , Elasticsearch , SOLR , Hbase i , Tensorflow u yazabiliriz.
Bütün bunlarla beraber Lambda ve Kappa mimarisi bir kurum için hayati öneme sahip. Yeni nesil data tutmayan Column oriented çalışmayan bir çok şirket görüyorum.
Konumuza dönelim Nasıl Data Engineer Olurum. Neleri bilmek avantaj sağlar?
- Programming bilgisi : Örnek vermek gerekirse Java , python olabilir. Benim tercihim kesinlikle python olurdu.
- Database ve SQL bilgisi : Oracle , Mysql , Postgresql , Teradata …. Önemli olan bu databaselerde SQL sorguları yazabilme kabiliyeti
- ETL ve Datawarehouse : ETL tecrübesi çok büyük bir avantaj. Tercihim Informatica , talend ,pentaho, Odi
- Operating Sistem Bilgisi : Linux/ Unix te temel komutları bilmek son derece önemli , fazlası büyük avantaj
- Big DATA bilgisi : Başta Hadoop ecosistemi ,Presto , Hive , Hbase , Impala ,Pig devamında ranger sentry …
- Big Data Real Time işler : Gümünümüzün en önemli farklarından bir tanesi anlık işleri yakalama ve process edip analiz etme. SPARK , Kafka , Nifi en önemli gördüklerim
- MODEL ve Veri Bilimi : Python , R , Rapid Miner , Dataiku , Knime gördüğüm en önemli ürüler ve teknolojiler.
Buradan Özetle
Bu kabiliyetlerin çok önemli olduklarını görüyoruz. Tabiki Yukarıda yazdıklarımın tamamını bilmek çok zor ama ne kadar çok başlıkta yetkinliğiniz artarsa o kadar aranan kişi olursunuz.
Büyük bir iş ama sitesinde Data Engineer arattığımda 125.000 üzerinde ilan ve ortalama 130.000 usd üzerinde bir ücret görebiliyoruz.
Benzer bir şekilde data scientist arattığımda 30.000 üzerinde işl ve 120.000 usd üzerinde ortalama gelir görüyoruz.
Birbirini tamamlayan bu iki rol son derece önemli. Yukarıdan da anlaşılacağı gibi Data engineer olabilmek harika bir kariyer.
Bir data engineer kariyerine Nasıl devam edebilir. 3 yıldan sonra senior data engineer ve bence 10 yıl üzerinde yukarıda bahsettiğim maddelerde yetkinliği varsa Data Architect olarak devam edebilir.
Bu konularda gerek çalışan iseniz şirketinizdeki bilgiyi artırmak veya öğrenci iseniz universitenizdeki öğrenci arkadaşlarımızla bu tecrübeleri paylaşmaktan son derece keyif alıyorum. Ücretsiz olarak seminer düzenlememiz mümkün.
Big Data User grubumuza üye olmayı unutmayın. https://www.linkedin.com/groups/13606832/
Sorularınız için bana ulaşmaktan çekinmeyin.
#datascience #dataengineer #büyükveri #veribilimi #komtas #bigdatausergroup #cloudera