Ujian Akhir Semester
MA1420 — Data Sains
Selamat menyelesaikan seluruh perjalanan belajar Data Sains!
40%BOBOT UAS
120'DURASI
15SOAL LATIHAN
TutupJENIS UJIAN
Kisi-Kisi Materi UAS
UAS mencakup semua materi sesi 1–15. Fokus utama pada materi sesi 9–15 (pasca-UTS), namun pemahaman fondasi dari sesi 1–7 tetap diperlukan sebagai prasyarat.
SESI 9–10
Data Cleaning & Transformasi
12%
SESI 11–12
Korelasi & Multikolinieritas
15%
SESI 13
Supervised Learning
25%
SESI 14
Unsupervised Learning
20%
SESI 1–7 (FONDASI)
Statistik & Tipe Data
18%
SESI 15
Integrasi & Studi Kasus
10%
Lembar Rumus Penting
MEAN, VARIANCE, STD
x̄ = Σxᵢ / n
σ² = Σ(xᵢ−x̄)² / n
s² = Σ(xᵢ−x̄)² / (n−1)
σ² = Σ(xᵢ−x̄)² / n
s² = Σ(xᵢ−x̄)² / (n−1)
σ² populasi, s² sampel. STD = √Variance
CONFIDENCE INTERVAL
CI = x̄ ± z*(σ/√n)
CI = x̄ ± t*(s/√n)
z*₉₅ = 1.96 | t*₉₅(df)
CI = x̄ ± t*(s/√n)
z*₉₅ = 1.96 | t*₉₅(df)
Gunakan z saat σ diketahui atau n≥30. Gunakan t saat σ tidak diketahui dan n kecil.
KORELASI PEARSON
r = Σ(xᵢ−x̄)(yᵢ−ȳ) / √[Σ(xᵢ−x̄)²·Σ(yᵢ−ȳ)²]
R² = r²
R² = r²
|r|: 0–0.3 lemah | 0.3–0.7 sedang | 0.7–1 kuat. R² = % variansi Y dijelaskan X.
VIF (MULTIKOLINIERITAS)
VIF(Xⱼ) = 1 / (1 − R²ⱼ)
R²ⱼ = R² saat Xⱼ diregresikan ke prediktor lain. VIF <5 aman | 5–10 perhatian | >10 parah.
REGRESI & EVALUASI
ŷ = β₀ + β₁X₁ + ... + βₚXₚ
MAE = Σ|yᵢ−ŷᵢ|/n
R² = 1 − RSS/TSS
MAE = Σ|yᵢ−ŷᵢ|/n
R² = 1 − RSS/TSS
RSS = Σ(yᵢ−ŷᵢ)² | TSS = Σ(yᵢ−ȳ)²
CONFUSION MATRIX
Precision = TP/(TP+FP)
Recall = TP/(TP+FN)
F1 = 2·P·R/(P+R)
Recall = TP/(TP+FN)
F1 = 2·P·R/(P+R)
Precision: penting saat FP mahal. Recall: penting saat FN mahal (medis). F1: keseimbangan keduanya.
K-MEANS (INERTIA)
WCSS = Σₖ Σᵢ∈Cₖ ‖xᵢ − μₖ‖²
s(i) = (b(i)−a(i))/max(a,b)
s(i) = (b(i)−a(i))/max(a,b)
s(i) = Silhouette Score. a(i) = jarak ke cluster sendiri. b(i) = jarak ke cluster terdekat.
IQR & OUTLIER
IQR = Q3 − Q1
Batas bawah = Q1 − 1.5·IQR
Batas atas = Q3 + 1.5·IQR
Batas bawah = Q1 − 1.5·IQR
Batas atas = Q3 + 1.5·IQR
Titik di luar batas = outlier menurut metode Tukey. Z-score >3 juga umum digunakan.
Latihan Soal UAS — 15 Soal
Kerjakan semua soal. Pilih jawaban yang paling tepat. Skor otomatis dihitung di akhir.
📚 Bagian A: Statistik & Fondasi (Soal 1–4)
SOAL 1 / 15
Dataset nilai ujian: 45, 55, 60, 62, 65, 68, 70, 72, 75, 95. Pernyataan mana yang PALING TEPAT tentang ukuran pemusatan dataset ini?
✓ Benar! B. Mean = (45+55+60+62+65+68+70+72+75+95)/10 = 667/10 = 66.7. Median = (65+68)/2 = 66.5. Nilai 95 adalah outlier yang menarik mean ke atas. Untuk data dengan outlier, median lebih robust dan mewakili "siswa tipikal" dengan lebih baik. Pilihan D salah — mean = median hanya pada distribusi simetris sempurna.
SOAL 2 / 15
Seorang peneliti mengambil sampel 64 mahasiswa dan menemukan rata-rata tidur 6.5 jam dengan standar deviasi 1.2 jam. Berapakah confidence interval 95% untuk rata-rata tidur populasi?
✓ Benar! C. Rumus CI: x̄ ± z*(s/√n). Di sini: x̄=6.5, s=1.2, n=64, z*=1.96 (95%). SE = s/√n = 1.2/8 = 0.15. Margin = 1.96 × 0.15 = 0.294. CI = [6.206, 6.794]. Karena n=64 (≥30) dan s diketahui dari sampel, kita boleh gunakan z≈1.96. Pilihan A menggunakan s langsung (bukan SE). Pilihan D menggunakan z₉₀% = 1.645.
SOAL 3 / 15
Sebuah dataset memiliki distribusi sangat miring ke kanan (positively skewed). Strategi transformasi mana yang paling tepat untuk membuat distribusi mendekati normal?
✓ Benar! C. Min-Max dan Standard Scaler mengubah skala/pusat distribusi, tapi tidak mengubah bentuk distribusi. Log transform dan √ secara efektif "menekan" nilai-nilai besar di ekor kanan, sehingga distribusi yang tadinya miring menjadi lebih simetris. log1p(x) sangat umum digunakan untuk data penjualan, pendapatan, dan variabel lain yang skewed positif.
SOAL 4 / 15
Data: [10, 12, 11, 13, 200]. Hitung IQR dan tentukan apakah 200 adalah outlier menurut metode Tukey (1.5×IQR).
✓ Benar! B. Data terurut: [10, 11, 12, 13, 200]. Q1 = median bagian bawah = (10+11)/2 = 10.5. Q3 = median bagian atas = (13+200)/2... sebenarnya dengan n=5: Q1 = nilai ke-1.5 ≈ 10.5, Q3 = nilai ke-3.5 ≈ 12.5 (bergantung metode). IQR ≈ 2. Batas atas = 12.5 + 1.5×2 = 15.5. Karena 200 >> 15.5, 200 adalah outlier ekstrem.
📈 Bagian B: Korelasi, Regresi & Multikolinieritas (Soal 5–8)
SOAL 5 / 15
Model regresi prediksi nilai UAS menghasilkan R² = 0.76. Interpretasi yang BENAR adalah:
✓ Benar! C. R² adalah koefisien determinasi — bukan akurasi dalam arti persentase prediksi "benar". R²=0.76 berarti model menjelaskan 76% dari variasi nilai UAS yang ada. 24% sisanya adalah pengaruh faktor yang tidak termasuk dalam model (jam tidur, kondisi kesehatan, keberuntungan, dll). Catatan: √R² = |r| hanya berlaku untuk regresi sederhana (1 prediktor).
SOAL 6 / 15
Model regresi berganda memiliki R²=0.88 (sangat tinggi), namun hampir semua uji-t individual untuk koefisien menghasilkan p-value > 0.05 (tidak signifikan). Apa kemungkinan masalahnya?
✓ Benar! B. Ini adalah paradoks multikolinieritas klasik: R² tinggi karena prediktor secara bersama sangat informatif untuk Y, tapi karena prediktor saling berkorelasi tinggi, model tidak bisa memisahkan kontribusi individual — menghasilkan SE koefisien yang besar dan t-value yang kecil. Solusi: hitung VIF (VIF >10 = parah), pertimbangkan hapus variabel redundan atau gunakan Ridge Regression.
SOAL 7 / 15
Variabel X₂ diregresikan terhadap X₁ dan X₃ menghasilkan R²=0.64. Berapakah VIF(X₂) dan apa artinya untuk model regresi berganda?
✓ Benar! C. VIF = 1/(1−R²) = 1/(1−0.64) = 1/0.36 ≈ 2.78. Artinya variansi koefisien X₂ 2.78× lebih besar dari yang ideal (jika tidak ada kolinieritas). Nilai 2.78 masih dalam batas aman (VIF <5). Dibandingkan VIF >10 yang mengindikasikan masalah serius. Standard error koefisien X₂ menjadi √2.78 ≈ 1.67× lebih besar dari idealnya.
SOAL 8 / 15
Peneliti menemukan r = +0.89 antara "pendapatan orang tua" dan "nilai akademik anak". Kesimpulan mana yang TIDAK VALID?
✓ Benar (yang tidak valid) adalah C! Korelasi tidak membuktikan kausalitas. Data observasional saja tidak cukup — ada banyak penjelasan alternatif: keluarga kaya punya akses les privat dan buku yang lebih baik, lingkungan yang lebih kondusif, orang tua dengan pendidikan tinggi (berkorelasi dengan pendapatan) lebih bisa membimbing anak. Untuk membuktikan kausalitas dibutuhkan eksperimen terkontrol (RCT).
🤖 Bagian C: Supervised Learning (Soal 9–12)
SOAL 9 / 15
Model Random Forest untuk prediksi churn pelanggan menunjukkan hasil berikut di test set: Accuracy=96%, Precision=94%, Recall=42%. Apa masalah utama dan bagaimana mengatasinya?
✓ Benar! C. Accuracy 96% tapi Recall 42% mengindikasikan data tidak seimbang: mungkin hanya 5% pelanggan churn, jadi model bisa prediksi "tidak churn" untuk semua dan dapat accuracy tinggi. Tapi bisnis sangat rugi karena 58% pelanggan churn tidak terdeteksi. Solusi: (1) turunkan threshold dari 0.5 ke 0.3 untuk tingkatkan Recall, (2) SMOTE untuk oversample kelas minoritas, (3) class_weight='balanced' saat training Random Forest.
SOAL 10 / 15
Seorang data scientist melatih model, memeriksa performa di test set, lalu melakukan tuning berdasarkan hasil itu, kemudian mengklaim performa di test set sebagai estimasi performa di dunia nyata. Apa yang salah dari proses ini?
✓ Benar! B. Ini adalah kesalahan umum yang menyebabkan optimistic bias dalam estimasi performa. Setelah melihat test set dan melakukan tuning berdasarkan itu, test set bukan lagi "data yang tidak pernah dilihat model" — model secara tidak langsung sudah "belajar" dari test set. Solusi yang benar: gunakan validation set (atau cross-validation) untuk tuning, dan sisihkan test set hingga benar-benar evaluasi akhir.
SOAL 11 / 15
Manakah pernyataan yang BENAR tentang perbedaan Lasso dan Ridge Regression dalam menangani multikolinieritas?
✓ Benar! B. Perbedaan kunci: Lasso (L1) menggunakan penalti |β| — menghasilkan solusi sparse di mana beberapa koefisien tepat = 0 (feature selection). Ridge (L2) menggunakan penalti β² — mengecilkan semua koefisien proporsional tapi tidak pernah ke nol persis. Lasso baik saat banyak fitur tidak relevan. Ridge baik saat semua fitur berkontribusi. Pilihan D salah karena Lasso bisa menghapus fitur yang sebenarnya penting.
SOAL 12 / 15
5-fold Cross-Validation pada dataset 1000 baris menghasilkan CV scores: [0.82, 0.79, 0.85, 0.81, 0.83]. Apa yang bisa kita simpulkan?
✓ Benar! B. Mean CV = (0.82+0.79+0.85+0.81+0.83)/5 = 0.82. Std ≈ 0.02. Rentang [0.79, 0.85] relatif sempit — model stabil. Std yang kecil juga mengindikasikan tidak ada overfitting parah pada fold tertentu. Ini adalah estimasi yang lebih andal dari single train-test split. Pilihan C salah — kita tidak bisa memilih "fold terbaik" tanpa overfitting ke validation set. 5-fold cukup valid untuk 1000 baris.
🔍 Bagian D: Unsupervised Learning & Integrasi (Soal 13–15)
SOAL 13 / 15
K-Means dijalankan pada data pelanggan tanpa scaling sebelumnya. Fitur: usia (20–60 tahun) dan pendapatan (5.000.000–50.000.000 rupiah). Apa masalahnya?
✓ Benar! B. K-Means menggunakan jarak Euclidean: d = √((Δusia)² + (Δpendapatan)²). Perbedaan pendapatan 1 juta rupiah >> perbedaan usia 1 tahun dalam skala numerik, sehingga jarak hampir seluruhnya didominasi pendapatan. Efeknya: usia tidak berpengaruh pada pengelompokan. Selalu StandardScaler() atau MinMaxScaler() sebelum K-Means! Ini berlaku untuk semua algoritma berbasis jarak (KNN, SVM, DBSCAN juga).
SOAL 14 / 15
PCA diterapkan pada dataset 50 fitur. Grafik explained variance menunjukkan: PC1=38%, PC2=22%, PC3=14%, PC4=9%, PC5=6%, dan sisa 45 PC berbagi 11%. Berapa PC yang sebaiknya dipertahankan dan mengapa?
✓ Benar! B. Panduan umum: pertahankan PC hingga 80–95% explained variance tercakup. 4 PC = 83% (memenuhi threshold 80%), 5 PC = 89%. Keduanya pilihan yang valid tergantung konteks: jika butuh efisiensi komputasi, pilih 4; jika butuh presisi lebih, pilih 5. 45 fitur sisanya hanya berkontribusi 11% informasi — trade-off yang sangat menguntungkan. Reduksi dari 50 → 4–5 dimensi = pengurangan 90%+ dimensi.
SOAL 15 / 15
Seorang data scientist diminta membangun sistem untuk mendeteksi transaksi perbankan yang mencurigakan. Data sangat tidak seimbang: 99.8% transaksi normal, 0.2% fraud. Tidak ada label fraud yang tersedia. Pendekatan mana yang paling tepat?
✓ Benar! C. Tanpa label fraud → tidak bisa supervised learning langsung. Anomaly Detection adalah pendekatan yang tepat: Isolation Forest membangun pohon yang mengisolasi titik-titik "aneh" lebih cepat (anomali mudah diisolasi, normal butuh lebih banyak partisi). One-Class SVM belajar batas "normal" dan flagging semua yang di luar. Pilihan A keliru karena accuracy 99.8% bisa tercapai tanpa mendeteksi satu pun fraud. K-Means tidak tepat karena cluster yang terbentuk tidak harus sesuai normal/fraud.
0
/ 15 soal benar
Tips Menghadapi UAS
Pahami Konsep, Bukan Hafal
Soal UAS menguji pemahaman dan penerapan. Pastikan bisa menjelaskan "mengapa" suatu metode digunakan, bukan hanya "apa" rumusnya.
Manajemen Waktu 120 Menit
Alokasikan sekitar 6–8 menit per soal esai. Tandai soal yang sulit, lewati dulu, kembali di akhir. Jangan habiskan waktu di satu soal saja.
Baca Soal dengan Seksama
Soal sering menanyakan yang "PALING TEPAT", "TIDAK BENAR", atau "BUKAN termasuk". Baca kata kunci negatif dengan cermat sebelum menjawab.
Sertakan Angka dan Contoh
Saat menjawab soal esai, sertakan perhitungan atau contoh konkret. "VIF = 1/(1−R²) = 1/0.2 = 5" lebih bernilai dari sekadar "VIF tinggi."
Prioritas Materi Pasca-UTS
Materi sesi 9–15 mendapat porsi 65% soal. Fokus pemahaman supervised learning (model, evaluasi, overfitting) dan K-Means/PCA dasar.
Hubungkan ke Aplikasi Nyata
Dosen menghargai jawaban yang bisa mengontekstualisasikan ke kasus nyata. "Recall penting di diagnosa kanker karena FN berakibat pasien tidak tertangani" lebih kuat dari definisi abstrak.
Peta Materi Lengkap MA1420
| Sesi | Topik | Konsep Kunci |
|---|---|---|
| 1 | Pengantar Data Sains | Pipeline 5 tahap, ekosistem Python, peran data scientist |
| 2 | Statistik Deskriptif I | Mean/Median/Modus, Variance, IQR, deteksi outlier |
| 3 | Statistik Deskriptif II | Visualisasi, distribusi, skewness, kurtosis, normalitas |
| 4 | Statistik Inferensi I | Sampling, CLT, Confidence Interval, z vs t |
| 5 | Statistik Inferensi II | Uji hipotesis, p-value, Uji-t, Chi-square, Error Tipe I/II |
| 6 | Tipe Data I | Nominal/Ordinal/Diskrit/Kontinu, skala Stevens, dtype Pandas |
| 7 | Tipe Data II | Datetime, missing values (MCAR/MAR/MNAR), encoding |
| 8 | UTS | — |
| 9 | Data Cleaning | Pipeline 6 langkah, duplikat, inkonsistensi, validasi |
| 10 | Transformasi Data | Min-Max, Z-score, Log transform, feature engineering, data leakage |
| 11 | Korelasi | Pearson r, R², Spearman, Cramér's V, korelasi ≠ kausalitas |
| 12 | Multikolinieritas | VIF, dampak pada regresi, Ridge, Lasso |
| 13 | Supervised Learning | Regresi vs klasifikasi, pipeline, confusion matrix, overfitting, CV |
| 14 | Unsupervised Learning | K-Means, Elbow/Silhouette, DBSCAN, PCA |
| 15 | Studi Kasus | Pipeline end-to-end, interpretasi insight, proyek akhir |
🎓
Selamat Menyelesaikan MA1420 — Data Sains!
Dari statistik deskriptif hingga machine learning, dari satu baris data kotor hingga model yang memberikan insight bermakna — perjalanan ini membekali kalian dengan fondasi yang kuat untuk menjadi praktisi data yang kompeten. Data ada di mana-mana. Kemampuan membacanya dengan tepat adalah kekuatan yang sesungguhnya. Semoga sukses dalam UAS dan terus belajar di luar kelas!
Riadi Marta Dinata, S.Ti., M.Kom. · NIDN 0320087704
Prodi S1 Matematika · FSTT ISTN Jakarta