MA1420 · DATA SAINS · SESI 01

Pengantar
Data Sains

Apa itu data sains? Mengapa dunia sangat membutuhkannya sekarang? Di sesi pertama ini kita akan memahami gambaran besar dari data sains — mulai dari definisi, peran, hingga tools yang akan kita gunakan sepanjang semester.

1. Apa Itu Data Sains?

Data Sains adalah bidang ilmu yang menggabungkan matematika, statistika, dan ilmu komputer untuk mengekstrak pengetahuan bermakna dari data. Dengan kata lain: data sains adalah seni mengubah tumpukan angka mentah menjadi keputusan cerdas.

💡 ILUSTRASI — RESEP MASAKAN

Bayangkan Anda punya 1.000 resep masakan dari berbagai sumber — buku, internet, catatan nenek. Tumpukan resep itu adalah data mentah.

Data sains seperti koki ahli yang bisa menyaring: "Dari 1.000 resep ini, masakan apa yang paling disukai orang Jakarta di musim hujan, dengan budget di bawah 50.000 rupiah?" — dan memberikan jawaban yang akurat berdasarkan bukti, bukan tebakan.

Istilah "data sains" mulai populer sekitar tahun 2008–2012, ketika internet menghasilkan data dalam jumlah yang belum pernah ada sebelumnya. Perusahaan seperti Google, Amazon, dan Facebook membutuhkan cara baru untuk memahami data miliaran penggunanya. Di sinilah data scientist lahir sebagai profesi tersendiri.

📌 Definisi Formal

Data Sains adalah proses sistematik mengumpulkan, memproses, menganalisis, dan menginterpretasikan data — menggunakan metode statistika dan algoritma komputer — untuk menghasilkan insight yang berguna bagi pengambilan keputusan.

2. Hubungan dengan Tiga Ilmu Utama

Data sains bukan ilmu yang berdiri sendiri. Ia merupakan irisan dari tiga bidang besar. Bayangkan tiga lingkaran yang saling tumpang tindih — di tengahnya itulah data sains berada.

💡 ILUSTRASI — TIM SEPAK BOLA

Matematika & Statistika = Pelatih (tahu strategi, pola, dan probabilitas menang)
Ilmu Komputer = Pemain lapangan (yang mengeksekusi strategi dengan cepat)
Domain Knowledge = Pemahaman tentang lawan (konteks bisnis/bidang terapan)

Tim yang bagus butuh ketiganya. Pelatih tanpa pemain = rencana kosong. Pemain tanpa strategi = berlarian tanpa arah.

Bidang Kontribusi ke Data Sains Contoh Konkret
Matematika & Statistika Fondasi analitis: probabilitas, distribusi, pengujian hipotesis, optimasi Menghitung apakah perbedaan nilai ujian dua kelas signifikan secara statistik
Ilmu Komputer Alat komputasi: algoritma, pemrograman, database, machine learning Menulis kode Python untuk memproses 1 juta baris data dalam hitungan detik
Domain Knowledge Konteks & makna: memahami masalah bisnis, medis, sosial, dll. Tahu bahwa "kadar gula 200 mg/dL" itu berbahaya, bukan sekadar angka besar

3. Data Science Pipeline

Setiap proyek data sains mengikuti alur kerja yang disebut pipeline. Ini seperti jalur produksi di pabrik — setiap tahap mengolah "bahan" dari tahap sebelumnya.

💡 ILUSTRASI — PABRIK JUS BUAH

Kebun (pengumpulan)Sortir buah (eksplorasi)Cuci & kupas (preprocessing)Peras & campur (analisis)Label & jual (interpretasi)

Jika buahnya busuk dari awal, jusnya pasti tidak enak — begitu pula data yang buruk akan menghasilkan analisis yang menyesatkan. "Garbage in, garbage out."

01 🗃️ Pengumpulan Data Survey, scraping, sensor, database, API
02 🔍 Eksplorasi (EDA) Kenali data, cek distribusi, temukan pola awal
03 🧹 Preprocessing Bersihkan, transformasi, encoding
04 ⚙️ Analisis / Modeling Statistik, machine learning, clustering
05 📊 Interpretasi Visualisasi, laporan, rekomendasi
⏱️ Fakta Penting

Dalam praktik nyata, tahap preprocessing memakan waktu hingga 60–80% dari seluruh waktu proyek. Mengapa? Karena data nyata selalu "kotor" — ada nilai kosong, format tidak konsisten, duplikat, dan outlier. Ini yang disebut aturan 80/20 rule of data science.

4. Peran Data Scientist & Skill yang Dibutuhkan

Seorang data scientist ibarat seorang detektif modern — ia mencari pola tersembunyi dalam data, mengajukan hipotesis, mengujinya, dan akhirnya "memecahkan kasus" (menjawab pertanyaan bisnis).

🧮
Statistika
Distribusi, pengujian hipotesis, regresi, probabilitas
💻
Pemrograman
Python atau R untuk manipulasi & analisis data
🗄️
Database / SQL
Mengambil & menyaring data dari database
📈
Visualisasi
Menyajikan data agar mudah dipahami semua orang
🤖
Machine Learning
Membangun model prediktif dan klasifikasi
🧠
Berpikir Kritis
Merumuskan pertanyaan yang tepat, tidak percaya buta pada angka
🎓 Kabar Baik untuk Mahasiswa Matematika

Sebagai mahasiswa Matematika, Anda sudah memiliki fondasi terkuat yang dibutuhkan data scientist: kemampuan berpikir logis, memahami statistika, dan tidak takut dengan rumus. Yang perlu ditambah adalah skill pemrograman Python — dan itulah yang akan kita pelajari bersama di mata kuliah ini!

5. Data Sains di Berbagai Bidang

Data sains bukan hanya untuk perusahaan teknologi. Hampir setiap bidang kehidupan kini memanfaatkannya. Berikut beberapa contoh nyata:

🏥
Kesehatan
Prediksi penyakit dari rekam medis, analisis penyebaran wabah (COVID-19)
💰
Ekonomi & Keuangan
Deteksi penipuan kartu kredit, prediksi harga saham
🎓
Pendidikan
Analisis faktor kelulusan, sistem rekomendasi kursus online
🏛️
Pemerintahan
Analisis sensus BPS, pemetaan kemiskinan, optimasi layanan publik
🛒
E-Commerce
Rekomendasi produk Tokopedia/Shopee, segmentasi pelanggan
🌾
Pertanian
Prediksi panen dari data cuaca & tanah, deteksi hama via citra
💡 STUDI KASUS INDONESIA — GO-JEK / GOJEK

Gojek menggunakan data sains untuk menentukan harga dinamis (surge pricing): ketika hujan lebat di Jakarta dan permintaan ojek naik drastis, algoritma otomatis menyesuaikan harga agar driver tertarik keluar dan penumpang terlayani. Data yang digunakan: lokasi GPS jutaan pengguna, data cuaca, riwayat perjalanan, dan waktu real-time — semua diproses dalam hitungan milidetik.

6. Pengenalan Tools: Python untuk Data Sains

Kita akan menggunakan Python sebagai bahasa utama. Python dipilih karena:

LibraryFungsi UtamaAnalogi Sederhana
NumPy Komputasi numerik, operasi array/matriks yang cepat Kalkulator saintifik canggih untuk ribuan angka sekaligus
Pandas Manipulasi data tabular (seperti Excel versi kode) Excel yang bisa diprogram dan memproses jutaan baris
Matplotlib Membuat grafik dan visualisasi dasar Penggaris dan pensil untuk menggambar grafik
Seaborn Visualisasi statistik yang lebih cantik Desainer grafis yang bekerja di atas Matplotlib
Scikit-learn Machine learning: klasifikasi, regresi, clustering Kotak peralatan lengkap untuk membangun model AI
SciPy Statistika lanjutan: uji hipotesis, distribusi Buku teks statistika yang bisa langsung menghitung

7. Lingkungan Kerja: Google Colab

Kita akan menggunakan Google Colaboratory (Colab) sebagai lingkungan pemrograman. Keunggulannya:

☁️ MENGAPA GOOGLE COLAB?

Gratis — tidak perlu install apapun di laptop

Berjalan di cloud — cukup browser + internet

GPU gratis — untuk komputasi berat

Terintegrasi Google Drive — mudah menyimpan & berbagi

Semua library tersedia — NumPy, Pandas, dll. sudah terinstall

💡 ILUSTRASI — DAPUR BERSAMA

Google Colab ibarat dapur bersama di kos-kosan: semua peralatan sudah tersedia (kompor, wajan, bahan bumbu dasar). Anda tinggal datang dan memasak — tidak perlu beli peralatan sendiri atau khawatir soal tempat.

Cara Memulai Google Colab

8. Praktik: Eksplorasi Dataset Pertama

Mari kita langsung praktik! Kita akan mengeksplorasi dataset nilai ujian mahasiswa sederhana menggunakan Pandas dan NumPy.

8.1 Import Library dan Membuat Dataset

PYTHON · GOOGLE COLAB
# ============================================================
# SESI 1 — Eksplorasi Dataset Pertama
# MA1420 Data Sains | ISTN Jakarta
# ============================================================

# Step 1: Import library yang dibutuhkan
import numpy as np
import pandas as pd

# Step 2: Buat dataset nilai ujian mahasiswa (data contoh)
data = {
    'Nama': ['Andi', 'Budi', 'Citra', 'Dina', 'Eko', 
              'Fira', 'Galih', 'Hana', 'Irfan', 'Joko'],
    'Nilai_UTS': [78, 85, 92, 67, 88, 
                   74, 95, 81, 70, 83],
    'Nilai_UAS': [80, 88, 90, 72, 85, 
                   79, 93, 84, 75, 87],
    'Jurusan': ['Matematika', 'Statistika', 'Matematika', 
                 'Statistika', 'Matematika', 'Statistika', 
                 'Matematika', 'Statistika', 'Matematika', 'Statistika']
}

# Step 3: Buat DataFrame (tabel data Pandas)
df = pd.DataFrame(data)

# Step 4: Tampilkan tabel
print("=== DATA NILAI MAHASISWA ===")
print(df)
📤 OUTPUT
=== DATA NILAI MAHASISWA ===
     Nama  Nilai_UTS  Nilai_UAS     Jurusan
0    Andi         78         80  Matematika
1    Budi         85         88  Statistika
2   Citra         92         90  Matematika
3    Dina         67         72  Statistika
4     Eko         88         85  Matematika
5    Fira         74         79  Statistika
6   Galih         95         93  Matematika
7    Hana         81         84  Statistika
8   Irfan         70         75  Matematika
9    Joko         83         87  Statistika

8.2 Eksplorasi Dasar Dataset

PYTHON · EKSPLORASI DATA
# Lihat ukuran dataset: (baris, kolom)
print("Ukuran data:", df.shape)
# Output: (10, 4) → 10 baris, 4 kolom

# Lihat tipe data setiap kolom
print("\nTipe data:")
print(df.dtypes)

# Statistik ringkas otomatis
print("\nStatistik Ringkas:")
print(df.describe())

# Hitung nilai rata-rata setiap kolom numerik
print("\nRata-rata Nilai UTS:", df['Nilai_UTS'].mean())
print("Rata-rata Nilai UAS:", df['Nilai_UAS'].mean())
📤 OUTPUT
Ukuran data: (10, 4)

Tipe data:
Nama         object
Nilai_UTS     int64
Nilai_UAS     int64
Jurusan      object
dtype: object

Statistik Ringkas:
       Nilai_UTS  Nilai_UAS
count  10.000000  10.000000
mean   81.300000  83.300000
std     9.274736   6.842943
min    67.000000  72.000000
25%    74.750000  79.250000
50%    82.000000  84.500000
75%    87.750000  87.750000
max    95.000000  93.000000

Rata-rata Nilai UTS: 81.3
Rata-rata Nilai UAS: 83.3

8.3 Tambah Kolom & Filter Data

PYTHON · MANIPULASI DATA
# Buat kolom baru: Nilai Akhir (UTS 40% + UAS 60%)
df['Nilai_Akhir'] = df['Nilai_UTS'] * 0.4 + df['Nilai_UAS'] * 0.6

# Beri grade berdasarkan nilai akhir
def beri_grade(nilai):
    if nilai >= 85:   return 'A'
    elif nilai >= 70: return 'B'
    elif nilai >= 55: return 'C'
    else:             return 'D'

df['Grade'] = df['Nilai_Akhir'].apply(beri_grade)

# Filter: tampilkan hanya mahasiswa dengan grade A
mahasiswa_a = df[df['Grade'] == 'A']
print("Mahasiswa dengan Grade A:")
print(mahasiswa_a[['Nama', 'Nilai_Akhir', 'Grade']])
📤 OUTPUT
Mahasiswa dengan Grade A:
    Nama  Nilai_Akhir Grade
1   Budi         87.2     A
2  Citra         90.8     A
4    Eko         86.2     A
6  Galih         93.8     A
9   Joko         85.8     A

Uji Pemahaman Sesi 1

🧩 PERTANYAAN 1 — KONSEP DASAR
Dalam analogi "pabrik jus buah", tahap apa yang paling memakan waktu dalam proyek data sains nyata?
Benar! Preprocessing (membersihkan, transformasi, encoding data) memakan waktu 60–80% dari total proyek. Data nyata selalu "kotor" — itulah mengapa kita akan pelajari secara mendalam di Sesi 9 & 10.
🧩 PERTANYAAN 2 — TOOLS
Library Python manakah yang paling tepat digunakan untuk memanipulasi data tabular (seperti Excel) dengan kemampuan memproses jutaan baris data?
Benar! Pandas adalah library utama untuk manipulasi data tabular. Pandas menyediakan struktur data DataFrame (seperti tabel) yang sangat efisien untuk menyaring, mengelompokkan, dan menganalisis data.
🧩 PERTANYAAN 3 — BIDANG TERAPAN
Gojek menggunakan surge pricing (harga dinamis saat hujan). Ini adalah contoh nyata data sains di bidang apa?
Benar! Gojek menggunakan data sains untuk bisnis transportasi — memadukan data lokasi GPS, cuaca, permintaan real-time, dan riwayat perjalanan untuk menentukan harga yang mengoptimalkan keuntungan sekaligus kepuasan pengguna.
📋 Ringkasan Sesi 1