MA1420 · DATA SAINS · SESI 01

Pengantar
Data Sains

Apa itu data sains? Mengapa dunia sangat membutuhkannya sekarang? Di sesi pertama ini kita akan memahami gambaran besar dari data sains — mulai dari definisi, peran, hingga tools yang akan kita gunakan sepanjang semester.

1. Definisi 2. Hubungan Ilmu 3. Pipeline 4. Peran & Skill 5. Bidang Terapan 6. Tools Python 7. Google Colab 8. Praktik Kode ✓ Ringkasan

1. Apa Itu Data Sains?

Data Sains adalah bidang ilmu yang menggabungkan matematika, statistika, dan ilmu komputer untuk mengekstrak pengetahuan bermakna dari data. Dengan kata lain: data sains adalah seni mengubah tumpukan angka mentah menjadi keputusan cerdas.

💡 ILUSTRASI — RESEP MASAKAN

Bayangkan Anda punya 1.000 resep masakan dari berbagai sumber — buku, internet, catatan nenek. Tumpukan resep itu adalah data mentah.

Data sains seperti koki ahli yang bisa menyaring: "Dari 1.000 resep ini, masakan apa yang paling disukai orang Jakarta di musim hujan, dengan budget di bawah 50.000 rupiah?" — dan memberikan jawaban yang akurat berdasarkan bukti, bukan tebakan.

Istilah "data sains" mulai populer sekitar tahun 2008–2012, ketika internet menghasilkan data dalam jumlah yang belum pernah ada sebelumnya. Perusahaan seperti Google, Amazon, dan Facebook membutuhkan cara baru untuk memahami data miliaran penggunanya. Di sinilah data scientist lahir sebagai profesi tersendiri.

📌 Definisi Formal

Data Sains adalah proses sistematik mengumpulkan, memproses, menganalisis, dan menginterpretasikan data — menggunakan metode statistika dan algoritma komputer — untuk menghasilkan insight yang berguna bagi pengambilan keputusan.

2. Hubungan dengan Tiga Ilmu Utama

Data sains bukan ilmu yang berdiri sendiri. Ia merupakan irisan dari tiga bidang besar. Bayangkan tiga lingkaran yang saling tumpang tindih — di tengahnya itulah data sains berada.

💡 ILUSTRASI — TIM SEPAK BOLA

Matematika & Statistika = Pelatih (tahu strategi, pola, dan probabilitas menang)
Ilmu Komputer = Pemain lapangan (yang mengeksekusi strategi dengan cepat)
Domain Knowledge = Pemahaman tentang lawan (konteks bisnis/bidang terapan)

Tim yang bagus butuh ketiganya. Pelatih tanpa pemain = rencana kosong. Pemain tanpa strategi = berlarian tanpa arah.

Bidang	Kontribusi ke Data Sains	Contoh Konkret
Matematika & Statistika	Fondasi analitis: probabilitas, distribusi, pengujian hipotesis, optimasi	Menghitung apakah perbedaan nilai ujian dua kelas signifikan secara statistik
Ilmu Komputer	Alat komputasi: algoritma, pemrograman, database, machine learning	Menulis kode Python untuk memproses 1 juta baris data dalam hitungan detik
Domain Knowledge	Konteks & makna: memahami masalah bisnis, medis, sosial, dll.	Tahu bahwa "kadar gula 200 mg/dL" itu berbahaya, bukan sekadar angka besar

3. Data Science Pipeline

Setiap proyek data sains mengikuti alur kerja yang disebut pipeline. Ini seperti jalur produksi di pabrik — setiap tahap mengolah "bahan" dari tahap sebelumnya.

💡 ILUSTRASI — PABRIK JUS BUAH

Kebun (pengumpulan) → Sortir buah (eksplorasi) → Cuci & kupas (preprocessing) → Peras & campur (analisis) → Label & jual (interpretasi)

Jika buahnya busuk dari awal, jusnya pasti tidak enak — begitu pula data yang buruk akan menghasilkan analisis yang menyesatkan. "Garbage in, garbage out."

01 🗃️ Pengumpulan Data Survey, scraping, sensor, database, API →

02 🔍 Eksplorasi (EDA) Kenali data, cek distribusi, temukan pola awal →

03 🧹 Preprocessing Bersihkan, transformasi, encoding →

04 ⚙️ Analisis / Modeling Statistik, machine learning, clustering →

05 📊 Interpretasi Visualisasi, laporan, rekomendasi

⏱️ Fakta Penting

Dalam praktik nyata, tahap preprocessing memakan waktu hingga 60–80% dari seluruh waktu proyek. Mengapa? Karena data nyata selalu "kotor" — ada nilai kosong, format tidak konsisten, duplikat, dan outlier. Ini yang disebut aturan 80/20 rule of data science.

4. Peran Data Scientist & Skill yang Dibutuhkan

Seorang data scientist ibarat seorang detektif modern — ia mencari pola tersembunyi dalam data, mengajukan hipotesis, mengujinya, dan akhirnya "memecahkan kasus" (menjawab pertanyaan bisnis).

🧮

Statistika

Distribusi, pengujian hipotesis, regresi, probabilitas

💻

Pemrograman

Python atau R untuk manipulasi & analisis data

🗄️

Database / SQL

Mengambil & menyaring data dari database

📈

Visualisasi

Menyajikan data agar mudah dipahami semua orang

🤖

Machine Learning

Membangun model prediktif dan klasifikasi

🧠

Berpikir Kritis

Merumuskan pertanyaan yang tepat, tidak percaya buta pada angka

🎓 Kabar Baik untuk Mahasiswa Matematika

Sebagai mahasiswa Matematika, Anda sudah memiliki fondasi terkuat yang dibutuhkan data scientist: kemampuan berpikir logis, memahami statistika, dan tidak takut dengan rumus. Yang perlu ditambah adalah skill pemrograman Python — dan itulah yang akan kita pelajari bersama di mata kuliah ini!

5. Data Sains di Berbagai Bidang

Data sains bukan hanya untuk perusahaan teknologi. Hampir setiap bidang kehidupan kini memanfaatkannya. Berikut beberapa contoh nyata:

🏥

Kesehatan

Prediksi penyakit dari rekam medis, analisis penyebaran wabah (COVID-19)

💰

Ekonomi & Keuangan

Deteksi penipuan kartu kredit, prediksi harga saham

🎓

Pendidikan

Analisis faktor kelulusan, sistem rekomendasi kursus online

🏛️

Pemerintahan

Analisis sensus BPS, pemetaan kemiskinan, optimasi layanan publik

🛒

E-Commerce

Rekomendasi produk Tokopedia/Shopee, segmentasi pelanggan

🌾

Pertanian

Prediksi panen dari data cuaca & tanah, deteksi hama via citra

💡 STUDI KASUS INDONESIA — GO-JEK / GOJEK

Gojek menggunakan data sains untuk menentukan harga dinamis (surge pricing): ketika hujan lebat di Jakarta dan permintaan ojek naik drastis, algoritma otomatis menyesuaikan harga agar driver tertarik keluar dan penumpang terlayani. Data yang digunakan: lokasi GPS jutaan pengguna, data cuaca, riwayat perjalanan, dan waktu real-time — semua diproses dalam hitungan milidetik.

6. Pengenalan Tools: Python untuk Data Sains

Kita akan menggunakan Python sebagai bahasa utama. Python dipilih karena:

1
Mudah dibaca — sintaksnya mirip bahasa Inggris sehari-hari, tidak rumit seperti C++ atau Java
2
Ekosistem lengkap — ada library khusus untuk hampir semua kebutuhan data sains
3
Standar industri — digunakan oleh Google, Netflix, NASA, BPS Indonesia
4
Gratis & open source — tidak perlu beli lisensi

Library	Fungsi Utama	Analogi Sederhana
NumPy	Komputasi numerik, operasi array/matriks yang cepat	Kalkulator saintifik canggih untuk ribuan angka sekaligus
Pandas	Manipulasi data tabular (seperti Excel versi kode)	Excel yang bisa diprogram dan memproses jutaan baris
Matplotlib	Membuat grafik dan visualisasi dasar	Penggaris dan pensil untuk menggambar grafik
Seaborn	Visualisasi statistik yang lebih cantik	Desainer grafis yang bekerja di atas Matplotlib
Scikit-learn	Machine learning: klasifikasi, regresi, clustering	Kotak peralatan lengkap untuk membangun model AI
SciPy	Statistika lanjutan: uji hipotesis, distribusi	Buku teks statistika yang bisa langsung menghitung

7. Lingkungan Kerja: Google Colab

Kita akan menggunakan Google Colaboratory (Colab) sebagai lingkungan pemrograman. Keunggulannya:

☁️ MENGAPA GOOGLE COLAB?

✅ Gratis — tidak perlu install apapun di laptop

✅ Berjalan di cloud — cukup browser + internet

✅ GPU gratis — untuk komputasi berat

✅ Terintegrasi Google Drive — mudah menyimpan & berbagi

✅ Semua library tersedia — NumPy, Pandas, dll. sudah terinstall

💡 ILUSTRASI — DAPUR BERSAMA

Google Colab ibarat dapur bersama di kos-kosan: semua peralatan sudah tersedia (kompor, wajan, bahan bumbu dasar). Anda tinggal datang dan memasak — tidak perlu beli peralatan sendiri atau khawatir soal tempat.

Cara Memulai Google Colab

1
Buka browser → ketik colab.research.google.com
2
Login dengan akun Google (Gmail)
3
Klik "+ New Notebook" untuk membuat notebook baru
4
Ketik kode di "cell", lalu tekan Shift + Enter untuk menjalankan

8. Praktik: Eksplorasi Dataset Pertama

Mari kita langsung praktik! Kita akan mengeksplorasi dataset nilai ujian mahasiswa sederhana menggunakan Pandas dan NumPy.

8.1 Import Library dan Membuat Dataset

PYTHON · GOOGLE COLAB

# ============================================================
# SESI 1 — Eksplorasi Dataset Pertama
# MA1420 Data Sains | ISTN Jakarta
# ============================================================

# Step 1: Import library yang dibutuhkan
import numpy as np
import pandas as pd

# Step 2: Buat dataset nilai ujian mahasiswa (data contoh)
data = {
    'Nama': ['Andi', 'Budi', 'Citra', 'Dina', 'Eko', 
              'Fira', 'Galih', 'Hana', 'Irfan', 'Joko'],
    'Nilai_UTS': [78, 85, 92, 67, 88, 
                   74, 95, 81, 70, 83],
    'Nilai_UAS': [80, 88, 90, 72, 85, 
                   79, 93, 84, 75, 87],
    'Jurusan': ['Matematika', 'Statistika', 'Matematika', 
                 'Statistika', 'Matematika', 'Statistika', 
                 'Matematika', 'Statistika', 'Matematika', 'Statistika']
}

# Step 3: Buat DataFrame (tabel data Pandas)
df = pd.DataFrame(data)

# Step 4: Tampilkan tabel
print("=== DATA NILAI MAHASISWA ===")
print(df)

📤 OUTPUT

=== DATA NILAI MAHASISWA ===
     Nama  Nilai_UTS  Nilai_UAS     Jurusan
0    Andi         78         80  Matematika
1    Budi         85         88  Statistika
2   Citra         92         90  Matematika
3    Dina         67         72  Statistika
4     Eko         88         85  Matematika
5    Fira         74         79  Statistika
6   Galih         95         93  Matematika
7    Hana         81         84  Statistika
8   Irfan         70         75  Matematika
9    Joko         83         87  Statistika

8.2 Eksplorasi Dasar Dataset

PYTHON · EKSPLORASI DATA

# Lihat ukuran dataset: (baris, kolom)
print("Ukuran data:", df.shape)
# Output: (10, 4) → 10 baris, 4 kolom

# Lihat tipe data setiap kolom
print("\nTipe data:")
print(df.dtypes)

# Statistik ringkas otomatis
print("\nStatistik Ringkas:")
print(df.describe())

# Hitung nilai rata-rata setiap kolom numerik
print("\nRata-rata Nilai UTS:", df['Nilai_UTS'].mean())
print("Rata-rata Nilai UAS:", df['Nilai_UAS'].mean())

📤 OUTPUT

Ukuran data: (10, 4)

Tipe data:
Nama         object
Nilai_UTS     int64
Nilai_UAS     int64
Jurusan      object
dtype: object

Statistik Ringkas:
       Nilai_UTS  Nilai_UAS
count  10.000000  10.000000
mean   81.300000  83.300000
std     9.274736   6.842943
min    67.000000  72.000000
25%    74.750000  79.250000
50%    82.000000  84.500000
75%    87.750000  87.750000
max    95.000000  93.000000

Rata-rata Nilai UTS: 81.3
Rata-rata Nilai UAS: 83.3

8.3 Tambah Kolom & Filter Data

PYTHON · MANIPULASI DATA

# Buat kolom baru: Nilai Akhir (UTS 40% + UAS 60%)
df['Nilai_Akhir'] = df['Nilai_UTS'] * 0.4 + df['Nilai_UAS'] * 0.6

# Beri grade berdasarkan nilai akhir
def beri_grade(nilai):
    if nilai >= 85:   return 'A'
    elif nilai >= 70: return 'B'
    elif nilai >= 55: return 'C'
    else:             return 'D'

df['Grade'] = df['Nilai_Akhir'].apply(beri_grade)

# Filter: tampilkan hanya mahasiswa dengan grade A
mahasiswa_a = df[df['Grade'] == 'A']
print("Mahasiswa dengan Grade A:")
print(mahasiswa_a[['Nama', 'Nilai_Akhir', 'Grade']])

📤 OUTPUT

Mahasiswa dengan Grade A:
    Nama  Nilai_Akhir Grade
1   Budi         87.2     A
2  Citra         90.8     A
4    Eko         86.2     A
6  Galih         93.8     A
9   Joko         85.8     A

Uji Pemahaman Sesi 1

🧩 PERTANYAAN 1 — KONSEP DASAR

Dalam analogi "pabrik jus buah", tahap apa yang paling memakan waktu dalam proyek data sains nyata?

✓ Benar! Preprocessing (membersihkan, transformasi, encoding data) memakan waktu 60–80% dari total proyek. Data nyata selalu "kotor" — itulah mengapa kita akan pelajari secara mendalam di Sesi 9 & 10.

🧩 PERTANYAAN 2 — TOOLS

Library Python manakah yang paling tepat digunakan untuk memanipulasi data tabular (seperti Excel) dengan kemampuan memproses jutaan baris data?

✓ Benar! Pandas adalah library utama untuk manipulasi data tabular. Pandas menyediakan struktur data DataFrame (seperti tabel) yang sangat efisien untuk menyaring, mengelompokkan, dan menganalisis data.

🧩 PERTANYAAN 3 — BIDANG TERAPAN

Gojek menggunakan surge pricing (harga dinamis saat hujan). Ini adalah contoh nyata data sains di bidang apa?

✓ Benar! Gojek menggunakan data sains untuk bisnis transportasi — memadukan data lokasi GPS, cuaca, permintaan real-time, dan riwayat perjalanan untuk menentukan harga yang mengoptimalkan keuntungan sekaligus kepuasan pengguna.

📋 Ringkasan Sesi 1

Data sains adalah ilmu mengubah data mentah menjadi insight bermakna untuk pengambilan keputusan
Data sains merupakan irisan Matematika/Statistika, Ilmu Komputer, dan Domain Knowledge
Pipeline data sains: Pengumpulan → EDA → Preprocessing → Analisis → Interpretasi
Preprocessing memakan waktu terbesar (60–80%) karena data nyata selalu "kotor"
Tools utama: Python dengan library NumPy, Pandas, Matplotlib, Seaborn, Scikit-learn
Google Colab adalah lingkungan kerja berbasis cloud yang gratis dan siap pakai
Data sains diterapkan di kesehatan, ekonomi, pendidikan, pemerintahan, e-commerce, dll.
Mahasiswa Matematika memiliki fondasi terkuat: logika & statistika — tinggal tambah Python!

← Kembali ke Beranda Sesi 2: Statistik Deskriptif I →

PengantarData Sains

1. Apa Itu Data Sains?

2. Hubungan dengan Tiga Ilmu Utama

3. Data Science Pipeline

4. Peran Data Scientist & Skill yang Dibutuhkan

5. Data Sains di Berbagai Bidang

6. Pengenalan Tools: Python untuk Data Sains

7. Lingkungan Kerja: Google Colab

Cara Memulai Google Colab

8. Praktik: Eksplorasi Dataset Pertama

8.1 Import Library dan Membuat Dataset

8.2 Eksplorasi Dasar Dataset

8.3 Tambah Kolom & Filter Data

Uji Pemahaman Sesi 1

Pengantar
Data Sains