Data Scientist Instant!

Data Scientist Instant!

Saya sebenernya mau post tulisan ini sejak lama tapi lupa terus, nah barusan saya lihat tulisannya mas Taufik Sutanto tentang “Data Science bukan Mie Instant” jadi tergelitik untuk post, siapa tau bermanfaat.

Gambar di atas ini adalah screenshoot akun Kaggle saya, kalau pas ada waktu luang biasanya saya nyobain ikut kompetisi di Kaggle, iseng-iseng berhadiah lah. Apakah ini bener-bener berguna?

Begini, saya mau cerita dulu, dulu habis saya lulus S2 dari Chonnam, tiba-tiba teman satu lab saya nawarin untuk kerja di tempat dia, salah satu perusahaan multinasional pusatnya di Western Cape, South Africa, kerjanya remote jadi backend engineer python. Saya menyanggupinya dan akhirnya sama dia saya dikenalkan ke bosnya. Pertanyaanya, apakah mereka minta ijazah master saya? tidak sama sekali, yang mereka minta bahkan juga bukan CV, melainkan link profil Github.

Beruntungnya saya sering iseng-iseng klo ngerjain proyek kecil2an, sy push di github jadi publik repo, sapa tau orang lain tertarik atau mungkin bisa manfaat buat orang. Nah sama pak bosnya ini tinggal di check aja github saya, terus diminta skype, ngobrol tentang codingan saya di Github.

Nah, saya kan mau switch karir nih dari yg sebelumnya di software, mau jadi data scientist lah, makanya nyoba ambil S3 biar analytical thinkingnya terasah. Oleh karenanya diwaktu luang saya coba bangun portofolio, klo software engineer ya portonya Github, klo data scientist ya tentu Kaggle.

Jujur pingin ikut kompetisi yang seriusan, dulu pernah ikut kompetisi Shopee cuman ya tentu waktu sy sudah tdk flexible lah. Akhirnya ya klo ada waktu luang aja nyobain kompetisi di Kaggle, krn range nya kan biasanya cukup lama ada yg 1 bulan bahkan.
Jujur, sayapun di Kaggle kadang gak sempet coding from scratch, yang saya lakuin biasanya lihat codingan orang yang sudah disubmit disitu, saya coba lihat-lihat, misal ini kyaknya ada yg kurang, harusnya fitur ini jangan dipake, atau misal ganti parameternya, dsb, nah ternyata beberapa bisa tuh accuracynya lebih bagus, dan so far dapet 2 medali hehehe ay walaupun belum pernah juara dan dpt uang sih hehe.

Jadi sharing saya bagi teman-teman yang pingin terjun ke data scientist, serius Kaggle ini sangat-sangat berguna. So far dengan porto ini saya dapat beberapa proyek data science freelance kok.
Satu lagi, menyambung tulisan mas Taufik tadi, gak ada yang instant woy, dan itu bener. Banyak orang bilang, Mau jadi programmer gak harus punya basic IT ya, itu betul, tp nanti biasanya akan kelihatan, ketika nanti udah mulai nyampe ttg struktur data, kenapa kamu pakai list, kenapa gak pakai set, kenapa pake nested loop? ini kan O(n2), kenapa gak gini.

Ada yg bilang ikut bootcamp 10 hari udah bisa jadi data scientist kok, klo menurut saya tidak lah, itu mungkin hanya pengenalan, nanti ketahuan kok. Saya pernah kerja bareng anak bootcamp data science, sebelumnya backgroundnya programmer, secara coding ok lah. Cuman ketika nyampe di satu persoalan misalnya, ada missing values, dan itu missingnya banyak di datasetnya. Tiba-tiba dia mau filling missing values, dan dia pakai mean, jadi data NaN bakal di ganti sama mean dari tiap column. Saya tanya ke dia, kenapa pakai approach itu? kamu sudah check belum distribusi datanya, yakin dia normal, klopun normal yakin pakau approch itu? gimana klo distribusinya skewed? Dia ndak bisa njawab.

Jadi intinya, proses itu penting, dan bagi yang maujalan ke arah sana (data scientist), saya sangat merekomendasikan Kaggle!
Silahkan kalau mau follow Kaggle saya
https://www.kaggle.com/rischan

Salam dari Brisbane,
Rischan

Kursus Online Gratis, Berkualitas, dan Bersertifikat

Sebelumnya saya pernah posting tentang Kursus Gratis di tengah pandemi Covid19 dari Coursera, tulisan ini sebenernya lanjutan dari tulisan tersebut.

Di tulisan ini saya mau ngomongin soal course Data Engineering with Google Cloud Professional Certificate!

Berawal dari digratiskannya beberapa courses berbayar di coursera karena covid19, saya antusias untuk memanfaatkan kesempatan tersebut. Awal bulan Mei teman saya ngasih info kalau ada promo di course Data Engineering with Google Cloud Professional Certificate. Coursera sebenernya selalu ngasih free trial 1 minggu untuk semua courses yang berbayar, nah promonya ini adalah 1 bulan trial. Saya langsung antusias dan saya optimis bisa menyelesaikan course ini kurang dari 1 bulan jadi nanti gak perlu bayar lah wkwkw. Untuk enroll memang harus masukin kartu kredit. Baru akan kena charge bila lebih dari 1 bulan belum selesai (ini karena saya dapat promo 1 bulan ya). Jika trial 1 minggu dan tidak di cancel ya setelah 1 minggu bisa kena charge. Untuk masa trial bisa dicancel kapanpun, dan gak akan kena charge klo ngecancel.

FYI: link promonya untuk course data engineer itu ada di sini https://www.coursera.org/promo/dataEngineer tapi sekarang sudah tidak bisa. Untuk lihat promo courses lainnya bisa akses link ini https://www.coursera.org/promo/free-courses-college-students.

Baiklah saya ingin cerita tentang course yang saya ikuti ini, serius menarik. Course ini untuk persiapan kalau mau ambil profesional certificate untuk data engineer di Google Cloud Platform. Tadinya saya kira, ah ini mah cepet cuman 1 course, ternyata di dalam 1 course ini ada 6 courses dan tiap course banyak sekali quiz dan latihannya. Latihannya langsung praktek pakai Qwiklab (lihat video saya yang topiknya Google Cloud Platform). Course ini sebenarnya didesign untuk 2 bulan lebih. Di Course terakhir juga ada ujiannya, dikasih timer dan ujiannya tehnis langsung praktek juga pakai Qwiklab. Intinya kalau teman-teman mau ambil sertifikasi data engineer di GCP course ini worth lah walaupun teman-teman harus bayar misalnya. Dan coba kejar selesaikan kurang dari 1 bulan!

Baiklah, saya mau ngomongin sertifikat, karena biasanya temen-temen indonesia nanya ini. Kalau saya pribadi mah kurang begitu tertarik dengan sertifikatnya yang penting ilmunya. Toh ini kan juga sertifikat belajar ya bukan sertifikat profesional. Tapi course ini emang courses untuk persiapan pengambilan profesional certifikat.

Dari course ini saya dapat 7 sertifikat. Karena 1 course ini ada 6 courses, masing-masing courses setelah selesai ada sertifikatnya. Dan ada 1 sertifikat yg menyatakan sudah menyelesaikan 6 courses.

Silahkan bisa dilihat di tautan ini: https://www.coursera.org/account/accomplishments/professional-cert/X9HECYUG2LPR

Data Engineering with Google Cloud Professional Certificate
Google Cloud Platform Big Data and Machine Learning Fundamentals
Modernizing Data Lakes and Data Warehouses with GCP
Building Batch Data Pipelines on GCP
Building Resilient Streaming Analytics Systems on GCP
Smart Analytics, Machine Learning, and AI on GCP
Preparing for the Google Cloud Professional Data Engineer Exam

Dari 6 courses ini saya belajar lumayan banyak, misalnya:

  • Seperti apa data lake dan data warehouse di Google Cloud Platform (GCP), misalnya kita punya banyak source data, gimana setup pipelinenya, konsep ETL, ELT -> Extract Transform Load atau Extract Load Transform.
  • Bagaimana setup pipeline untuk batch data analytics (misalnya kita sudah punya platform hadoop, spark di local/data center kita, terus mau migrasi ke GCP), gimana running PySpark job di GCP cluster pakai DataProc, setup master dan node workers di GCP dan sebagainya.
  • Bagaimana setup pipeline untuk Streaming data analytics. GCP punya Pub/Sub messaging untuk event stream, kemudian pakai Data flow untuk ETL, dan di analysis pakai BigQuery, klo streamnya cepet banget bisa pakai BigTable.
  • Di course itu juga saya belajar bagaimana machine learning di GCP. Dari yang sudah tinggal auto pakai, karena data dan modelnya sudah disediakan Google, atau mau pakai data sendiri dan training di Google Cloud dengan GUI yang begitu mudah, atau mau pakai yg paling advanced, model bikin sendiri, data sendiri, misal pakai Tensorflow di GCP. Product ML di GCP juga banyak banget dari mulai Vision, Language, Speech, dan etc
  • Saya juga baru tau kalau BigQuery punya fitur BigQuery ML, jadi kayak semacam nulis SQL query aja buat ngetraining dan testing model. Sayangnya fitur ini masih cukup terbatas, saat ini BigQuery ML support:1. Linear regression untuk forcasting 2. Binary/multi-class Logistic regression untuk klasifikasi 3. K-mean clustering 4. Import dari Tensorflow
  • Terakhir ada examnya dan kita dikasih timer untuk meneyelesaikannya, examnya ada teori dan yang seru praktiknya pakai Qwiklab. Jadi ada semacam challenge gitu, kita harus menyelesaikannya!

Info: Saya ada sekitar 20an video ketika mengerjakan experiment pakai Qwiklab yang saya rekam, beberapa sudah saya upload di Youtube saya dan akan rilis seminggu sekali setiap hari Senin pukul 18:45pm waktu Brisbane atau 15:45pm waktu WIB.

Silahkan bisa subsribe di Yotube Channel saya Rischanlab

Semua video praktek dari course ini akan ada di playlist ini:

Oya itu baru dari coursera, masih ada edX dan beberapa portal course online yang berkualitas. Jadi bagi teman-teman di Indonesia ayoo manfaatkan kesempatan ini. Resource itu banyak tinggal kita mau memanfaatkan atau tidak.

Semoga bermanfaat, salam dari pinggir kali Brisbane

Rischan Mafrur