Pengantar
Data Sains
Apa itu data sains? Mengapa dunia sangat membutuhkannya sekarang? Di sesi pertama ini kita akan memahami gambaran besar dari data sains — mulai dari definisi, peran, hingga tools yang akan kita gunakan sepanjang semester.
1. Apa Itu Data Sains?
Data Sains adalah bidang ilmu yang menggabungkan matematika, statistika, dan ilmu komputer untuk mengekstrak pengetahuan bermakna dari data. Dengan kata lain: data sains adalah seni mengubah tumpukan angka mentah menjadi keputusan cerdas.
Bayangkan Anda punya 1.000 resep masakan dari berbagai sumber — buku, internet, catatan nenek. Tumpukan resep itu adalah data mentah.
Data sains seperti koki ahli yang bisa menyaring: "Dari 1.000 resep ini, masakan apa yang paling disukai orang Jakarta di musim hujan, dengan budget di bawah 50.000 rupiah?" — dan memberikan jawaban yang akurat berdasarkan bukti, bukan tebakan.
Istilah "data sains" mulai populer sekitar tahun 2008–2012, ketika internet menghasilkan data dalam jumlah yang belum pernah ada sebelumnya. Perusahaan seperti Google, Amazon, dan Facebook membutuhkan cara baru untuk memahami data miliaran penggunanya. Di sinilah data scientist lahir sebagai profesi tersendiri.
Data Sains adalah proses sistematik mengumpulkan, memproses, menganalisis, dan menginterpretasikan data — menggunakan metode statistika dan algoritma komputer — untuk menghasilkan insight yang berguna bagi pengambilan keputusan.
2. Hubungan dengan Tiga Ilmu Utama
Data sains bukan ilmu yang berdiri sendiri. Ia merupakan irisan dari tiga bidang besar. Bayangkan tiga lingkaran yang saling tumpang tindih — di tengahnya itulah data sains berada.
Matematika & Statistika = Pelatih (tahu strategi, pola, dan probabilitas menang)
Ilmu Komputer = Pemain lapangan (yang mengeksekusi strategi dengan cepat)
Domain Knowledge = Pemahaman tentang lawan (konteks bisnis/bidang terapan)
Tim yang bagus butuh ketiganya. Pelatih tanpa pemain = rencana kosong. Pemain tanpa strategi = berlarian tanpa arah.
| Bidang | Kontribusi ke Data Sains | Contoh Konkret |
|---|---|---|
| Matematika & Statistika | Fondasi analitis: probabilitas, distribusi, pengujian hipotesis, optimasi | Menghitung apakah perbedaan nilai ujian dua kelas signifikan secara statistik |
| Ilmu Komputer | Alat komputasi: algoritma, pemrograman, database, machine learning | Menulis kode Python untuk memproses 1 juta baris data dalam hitungan detik |
| Domain Knowledge | Konteks & makna: memahami masalah bisnis, medis, sosial, dll. | Tahu bahwa "kadar gula 200 mg/dL" itu berbahaya, bukan sekadar angka besar |
3. Data Science Pipeline
Setiap proyek data sains mengikuti alur kerja yang disebut pipeline. Ini seperti jalur produksi di pabrik — setiap tahap mengolah "bahan" dari tahap sebelumnya.
Kebun (pengumpulan) → Sortir buah (eksplorasi) → Cuci & kupas (preprocessing) → Peras & campur (analisis) → Label & jual (interpretasi)
Jika buahnya busuk dari awal, jusnya pasti tidak enak — begitu pula data yang buruk akan menghasilkan analisis yang menyesatkan. "Garbage in, garbage out."
Dalam praktik nyata, tahap preprocessing memakan waktu hingga 60–80% dari seluruh waktu proyek. Mengapa? Karena data nyata selalu "kotor" — ada nilai kosong, format tidak konsisten, duplikat, dan outlier. Ini yang disebut aturan 80/20 rule of data science.
4. Peran Data Scientist & Skill yang Dibutuhkan
Seorang data scientist ibarat seorang detektif modern — ia mencari pola tersembunyi dalam data, mengajukan hipotesis, mengujinya, dan akhirnya "memecahkan kasus" (menjawab pertanyaan bisnis).
Sebagai mahasiswa Matematika, Anda sudah memiliki fondasi terkuat yang dibutuhkan data scientist: kemampuan berpikir logis, memahami statistika, dan tidak takut dengan rumus. Yang perlu ditambah adalah skill pemrograman Python — dan itulah yang akan kita pelajari bersama di mata kuliah ini!
5. Data Sains di Berbagai Bidang
Data sains bukan hanya untuk perusahaan teknologi. Hampir setiap bidang kehidupan kini memanfaatkannya. Berikut beberapa contoh nyata:
Gojek menggunakan data sains untuk menentukan harga dinamis (surge pricing): ketika hujan lebat di Jakarta dan permintaan ojek naik drastis, algoritma otomatis menyesuaikan harga agar driver tertarik keluar dan penumpang terlayani. Data yang digunakan: lokasi GPS jutaan pengguna, data cuaca, riwayat perjalanan, dan waktu real-time — semua diproses dalam hitungan milidetik.
6. Pengenalan Tools: Python untuk Data Sains
Kita akan menggunakan Python sebagai bahasa utama. Python dipilih karena:
- 1Mudah dibaca — sintaksnya mirip bahasa Inggris sehari-hari, tidak rumit seperti C++ atau Java
- 2Ekosistem lengkap — ada library khusus untuk hampir semua kebutuhan data sains
- 3Standar industri — digunakan oleh Google, Netflix, NASA, BPS Indonesia
- 4Gratis & open source — tidak perlu beli lisensi
| Library | Fungsi Utama | Analogi Sederhana |
|---|---|---|
| NumPy | Komputasi numerik, operasi array/matriks yang cepat | Kalkulator saintifik canggih untuk ribuan angka sekaligus |
| Pandas | Manipulasi data tabular (seperti Excel versi kode) | Excel yang bisa diprogram dan memproses jutaan baris |
| Matplotlib | Membuat grafik dan visualisasi dasar | Penggaris dan pensil untuk menggambar grafik |
| Seaborn | Visualisasi statistik yang lebih cantik | Desainer grafis yang bekerja di atas Matplotlib |
| Scikit-learn | Machine learning: klasifikasi, regresi, clustering | Kotak peralatan lengkap untuk membangun model AI |
| SciPy | Statistika lanjutan: uji hipotesis, distribusi | Buku teks statistika yang bisa langsung menghitung |
7. Lingkungan Kerja: Google Colab
Kita akan menggunakan Google Colaboratory (Colab) sebagai lingkungan pemrograman. Keunggulannya:
✅ Gratis — tidak perlu install apapun di laptop
✅ Berjalan di cloud — cukup browser + internet
✅ GPU gratis — untuk komputasi berat
✅ Terintegrasi Google Drive — mudah menyimpan & berbagi
✅ Semua library tersedia — NumPy, Pandas, dll. sudah terinstall
Google Colab ibarat dapur bersama di kos-kosan: semua peralatan sudah tersedia (kompor, wajan, bahan bumbu dasar). Anda tinggal datang dan memasak — tidak perlu beli peralatan sendiri atau khawatir soal tempat.
Cara Memulai Google Colab
- 1Buka browser → ketik colab.research.google.com
- 2Login dengan akun Google (Gmail)
- 3Klik "+ New Notebook" untuk membuat notebook baru
- 4Ketik kode di "cell", lalu tekan Shift + Enter untuk menjalankan
8. Praktik: Eksplorasi Dataset Pertama
Mari kita langsung praktik! Kita akan mengeksplorasi dataset nilai ujian mahasiswa sederhana menggunakan Pandas dan NumPy.
8.1 Import Library dan Membuat Dataset
# ============================================================
# SESI 1 — Eksplorasi Dataset Pertama
# MA1420 Data Sains | ISTN Jakarta
# ============================================================
# Step 1: Import library yang dibutuhkan
import numpy as np
import pandas as pd
# Step 2: Buat dataset nilai ujian mahasiswa (data contoh)
data = {
'Nama': ['Andi', 'Budi', 'Citra', 'Dina', 'Eko',
'Fira', 'Galih', 'Hana', 'Irfan', 'Joko'],
'Nilai_UTS': [78, 85, 92, 67, 88,
74, 95, 81, 70, 83],
'Nilai_UAS': [80, 88, 90, 72, 85,
79, 93, 84, 75, 87],
'Jurusan': ['Matematika', 'Statistika', 'Matematika',
'Statistika', 'Matematika', 'Statistika',
'Matematika', 'Statistika', 'Matematika', 'Statistika']
}
# Step 3: Buat DataFrame (tabel data Pandas)
df = pd.DataFrame(data)
# Step 4: Tampilkan tabel
print("=== DATA NILAI MAHASISWA ===")
print(df)
=== DATA NILAI MAHASISWA ===
Nama Nilai_UTS Nilai_UAS Jurusan
0 Andi 78 80 Matematika
1 Budi 85 88 Statistika
2 Citra 92 90 Matematika
3 Dina 67 72 Statistika
4 Eko 88 85 Matematika
5 Fira 74 79 Statistika
6 Galih 95 93 Matematika
7 Hana 81 84 Statistika
8 Irfan 70 75 Matematika
9 Joko 83 87 Statistika
8.2 Eksplorasi Dasar Dataset
# Lihat ukuran dataset: (baris, kolom)
print("Ukuran data:", df.shape)
# Output: (10, 4) → 10 baris, 4 kolom
# Lihat tipe data setiap kolom
print("\nTipe data:")
print(df.dtypes)
# Statistik ringkas otomatis
print("\nStatistik Ringkas:")
print(df.describe())
# Hitung nilai rata-rata setiap kolom numerik
print("\nRata-rata Nilai UTS:", df['Nilai_UTS'].mean())
print("Rata-rata Nilai UAS:", df['Nilai_UAS'].mean())
Ukuran data: (10, 4)
Tipe data:
Nama object
Nilai_UTS int64
Nilai_UAS int64
Jurusan object
dtype: object
Statistik Ringkas:
Nilai_UTS Nilai_UAS
count 10.000000 10.000000
mean 81.300000 83.300000
std 9.274736 6.842943
min 67.000000 72.000000
25% 74.750000 79.250000
50% 82.000000 84.500000
75% 87.750000 87.750000
max 95.000000 93.000000
Rata-rata Nilai UTS: 81.3
Rata-rata Nilai UAS: 83.3
8.3 Tambah Kolom & Filter Data
# Buat kolom baru: Nilai Akhir (UTS 40% + UAS 60%)
df['Nilai_Akhir'] = df['Nilai_UTS'] * 0.4 + df['Nilai_UAS'] * 0.6
# Beri grade berdasarkan nilai akhir
def beri_grade(nilai):
if nilai >= 85: return 'A'
elif nilai >= 70: return 'B'
elif nilai >= 55: return 'C'
else: return 'D'
df['Grade'] = df['Nilai_Akhir'].apply(beri_grade)
# Filter: tampilkan hanya mahasiswa dengan grade A
mahasiswa_a = df[df['Grade'] == 'A']
print("Mahasiswa dengan Grade A:")
print(mahasiswa_a[['Nama', 'Nilai_Akhir', 'Grade']])
Mahasiswa dengan Grade A:
Nama Nilai_Akhir Grade
1 Budi 87.2 A
2 Citra 90.8 A
4 Eko 86.2 A
6 Galih 93.8 A
9 Joko 85.8 A
Uji Pemahaman Sesi 1
- Data sains adalah ilmu mengubah data mentah menjadi insight bermakna untuk pengambilan keputusan
- Data sains merupakan irisan Matematika/Statistika, Ilmu Komputer, dan Domain Knowledge
- Pipeline data sains: Pengumpulan → EDA → Preprocessing → Analisis → Interpretasi
- Preprocessing memakan waktu terbesar (60–80%) karena data nyata selalu "kotor"
- Tools utama: Python dengan library NumPy, Pandas, Matplotlib, Seaborn, Scikit-learn
- Google Colab adalah lingkungan kerja berbasis cloud yang gratis dan siap pakai
- Data sains diterapkan di kesehatan, ekonomi, pendidikan, pemerintahan, e-commerce, dll.
- Mahasiswa Matematika memiliki fondasi terkuat: logika & statistika — tinggal tambah Python!