Dependability adalah properti menyeluruh suatu sistem yang menggambarkan sejauh mana sistem tersebut dapat dipercaya untuk memberikan layanan sesuai dengan yang diharapkan, termasuk toleransi terhadap kegagalan.
"The ability of a system to avoid service failures that are more frequent and more severe than acceptable."
Dalam konteks SCADA: sistem harus tetap memberikan layanan monitoring dan kontrol meskipun ada komponen yang gagal — karena kegagalan total bisa berarti blackout listrik, bencana industri, atau hilangnya nyawa.
╔══════════════════════════════════════════════════════════════╗ ║ DAMPAK KEGAGALAN SISTEM SCADA ║ ╚══════════════════════════════════════════════════════════════╝ SEKTOR ENERGI LISTRIK: PLN Jawa-Bali → 1 jam blackout ≈ kerugian Rp 5–10 Miliar/jam Industri manufaktur → 1 jam shutdown ≈ kerugian Rp 500 juta–2 Miliar SEKTOR AIR BERSIH: Pompa gagal → Ribuan pelanggan tanpa air Dosing error → Kontaminasi air minum (bahaya kesehatan publik) SEKTOR MIGAS: Safety system gagal → Kebakaran / ledakan kilang Pipeline tidak terpantau → Kebocoran gas berbahaya TARGET AVAILABILITY INDUSTRI: Pembangkit Listrik : 99.999% ("Five Nines") = max 5.26 menit/tahun downtime SCADA Utilitas : 99.99% = max 52.6 menit/tahun downtime Sistem Non-Kritis : 99.9% = max 8.76 jam/tahun downtime
Dependability memiliki lima atribut utama yang saling berkaitan. Sistem SCADA yang baik harus memenuhi semua atribut ini sesuai kebutuhan operasionalnya.
Meningkatkan Reliability (dengan hardware lebih baik) meningkatkan Availability. Meningkatkan Maintainability (dengan desain modular) juga meningkatkan Availability. Safety memastikan kegagalan tidak berbahaya. Security melindungi dari ancaman eksternal yang bisa merusak semua pilar lainnya.
| KONSEP | DEFINISI | SCOPE | CONTOH SCADA |
|---|---|---|---|
| Fault Tolerance | Sistem tetap berjalan normal meskipun ada komponen yang gagal — TANPA interupsi layanan | Hardware, Software, Network | Dual redundant PLC — jika PLC-A gagal, PLC-B langsung ambil alih dalam microseconds |
| High Availability | Meminimalkan downtime melalui failover otomatis — ada jeda singkat saat switching | Server, Aplikasi | SCADA server primary/standby — failover dalam 10–30 detik |
| Disaster Recovery | Pemulihan sistem setelah bencana besar — ada downtime yang diterima (RTO/RPO) | Site, Data Center | Backup SCADA di site lain — recovery dalam jam hingga hari |
Redundansi adalah strategi utama fault tolerance — menyediakan komponen cadangan yang siap mengambil alih fungsi komponen utama yang gagal. Ada tiga jenis redundansi utama dalam SCADA:
| KOMPONEN | TIPE REDUNDANSI | METODE | SWITCHING TIME |
|---|---|---|---|
| PLC / Controller | 1+1 (Primary + Hot Standby) | CPU sync setiap scan cycle. I/O bus shared. Coprocessor dedicated untuk sync. | < 1 scan cycle (ms) |
| I/O Modules | Redundant I/O | Dual I/O bus, setiap field device terhubung ke 2 I/O module berbeda | < 100ms |
| Power Supply | Dual PSU + UPS | 2 PSU paralel (load sharing). UPS battery backup. Generator untuk long-term | < 20ms (UPS) |
| SCADA Server | Active/Standby atau Active/Active | Database replication, application state sync, virtual IP failover | 10–60 detik |
| Hard Disk | RAID (1, 5, 10) | RAID-1: mirroring. RAID-5: distributed parity. RAID-10: kombinasi | Transparan (online) |
// Ring Topology dengan RSTP (Rapid Spanning Tree Protocol) // untuk Jaringan OT Industrial Ethernet TOPOLOGI NORMAL (Ring Aktif): [MTU Server] │ [Switch-Core-1] ────────────────── [Switch-Core-2] │ │ [Switch-PLC-A] ── [PLC-Schneider-M580] ──┘ │ [Switch-PLC-B] ── [PLC-Schneider-M340] │ [Switch-PLC-C] ── [PLC-Modicon-M251] │ └────────── RING BACK ──┘ JIKA Switch-PLC-A GAGAL: RSTP mendeteksi kegagalan dalam < 1 detik Jalur alternatif melalui Ring Back otomatis aktif Komunikasi pulih tanpa intervensi operator PROTOKOL REDUNDANSI JARINGAN: RSTP - IEEE 802.1w, recovery <1 detik HSR - High-availability Seamless Redundancy (IEC 62439-3) Dua frame dikirim bersamaan, zero-switchover PRP - Parallel Redundancy Protocol Dua jaringan LAN paralel penuh, transparan ke aplikasi MRP - Media Redundancy Protocol (Siemens/Profinet)
- Software Diversity — Menggunakan dua program berbeda (dikembangkan oleh tim berbeda) yang menjalankan fungsi yang sama. Jika satu memiliki bug, yang lain masih benar.
- N-Version Programming — N versi program independen dijalankan paralel; keputusan diambil berdasarkan voting (majority vote)
- Watchdog Timer — Timer hardware yang direset oleh program setiap siklus. Jika program crash/hang, watchdog timeout dan sistem di-restart otomatis
- Checksum & CRC — Verifikasi integritas program PLC yang disimpan di memori; alarm jika ada perubahan tidak sah
- Hot-Standby SCADA Application — Dua instance SCADA software berjalan paralel; satu active, satu standby dengan state sync real-time
Failover adalah proses otomatis pengalihan layanan dari komponen yang gagal ke komponen cadangan. Failback adalah proses mengembalikan layanan ke komponen asli setelah diperbaiki.
| JENIS | MEKANISME | KEUNGGULAN | KELEMAHAN |
|---|---|---|---|
| Automatic Failover | Sistem mendeteksi kegagalan via heartbeat dan secara otomatis mengaktifkan standby tanpa intervensi | Sangat cepat, tidak butuh operator, 24/7 | Bisa false positive — failover saat tidak perlu (split-brain scenario) |
| Assisted Failover | Sistem mendeteksi kegagalan dan memberi alert, tapi operator harus konfirmasi sebelum switchover | Operator tetap in-the-loop, hindari false positive | Lebih lambat — butuh respons manusia |
| Manual Failover | Operator secara manual memerintahkan switchover ke standby | Kontrol penuh, digunakan untuk planned maintenance | Paling lambat — harus ada operator yang sadar dan siap |
Split-brain terjadi ketika kedua node (primary dan standby) sama-sama menganggap dirinya sebagai primary karena kehilangan koneksi heartbeat antar keduanya — namun keduanya masih aktif dan terhubung ke jaringan OT.
Akibat: Dua SCADA server mengirim perintah kontrol yang berbeda ke PLC/RTU yang sama → konflik → perilaku proses tidak terduga → bahaya!
Solusi: Quorum mechanism, STONITH (Shoot The Other Node In The Head), dedicated heartbeat link, atau tie-breaker node.
Terdapat tiga pendekatan utama kesiapan sistem cadangan, masing-masing dengan tradeoff antara biaya, kecepatan pemulihan, dan kompleksitas.
Schneider Electric Modicon M580 mendukung Hot Standby dengan arsitektur:
- Dua CPU M580 identik terhubung via Ethernet Backplane khusus
- CPU Primary menjalankan program dan mengirim state ke Secondary setiap scan cycle (biasanya 10–50ms)
- Secondary memantau Primary via heartbeat; jika tidak ada respons dalam 1–3 scan cycles → otomatis jadi Primary
- Switchover dalam < 1 scan cycle — field devices tidak merasakan perbedaan
- LED status: Primary (hijau solid), Standby (hijau berkedip), Error (merah)
MTBF dan MTTR adalah dua metrik kuantitatif utama untuk mengukur keandalan dan pemeliharaan sistem SCADA. Keduanya digunakan untuk menghitung Availability sistem.
| AVAILABILITY | KELAS | DOWNTIME / TAHUN | DOWNTIME / BULAN | COCOK UNTUK |
|---|---|---|---|---|
| 90% | One Nine | 36.5 hari | ~73 jam | Sistem non-kritis, development |
| 99% | Two Nines | 3.65 hari | ~7.3 jam | Sistem bisnis umum |
| 99.9% | Three Nines | 8.76 jam | ~44 menit | Layanan internet konsumen |
| 99.99% | Four Nines | 52.6 menit | ~4.4 menit | SCADA utilitas, manufaktur |
| 99.999% | Five Nines | 5.26 menit | ~26 detik | Pembangkit listrik, safety-critical |
| 99.9999% | Six Nines | 31.5 detik | ~2.6 detik | Sistem nuklir, avionik |
╔══ SISTEM SERI — Semua komponen harus bekerja ══╗ [Sensor] → [PLC] → [Network] → [SCADA Server] A_sensor=0.99, A_plc=0.999, A_net=0.9999, A_scada=0.999 A_total_seri = A1 × A2 × A3 × A4 = 0.99 × 0.999 × 0.9999 × 0.999 = 0.9879 = 98.79% → Sistem seri MENURUNKAN ketersediaan! ╔══ SISTEM PARALEL — Cukup 1 komponen bekerja ══╗ [SCADA-Server-1 (A=0.99)] ║ (parallel) [SCADA-Server-2 (A=0.99)] A_total_paralel = 1 - (1 - A1) × (1 - A2) = 1 - (1 - 0.99) × (1 - 0.99) = 1 - 0.01 × 0.01 = 1 - 0.0001 = 0.9999 = 99.99% → Redundansi SANGAT meningkatkan ketersediaan! ╔══ CONTOH: 3 Server Hot Standby (A masing=0.99) ══╗ A_total = 1 - (1-0.99)³ = 1 - 0.000001 = 99.9999% (Six Nines!)
Gunakan kalkulator di bawah ini untuk menghitung availability berdasarkan nilai MTBF dan MTTR suatu sistem SCADA:
// Sistem SCADA Water Treatment Plant (WTP) Kota Bandung // Data operasional 1 tahun (8760 jam) DATA KEGAGALAN TERCATAT: Kegagalan 1 → Hardware failure RTU intake : Repair 6 jam Kegagalan 2 → Network switch mati : Repair 2 jam Kegagalan 3 → SCADA server OS crash : Repair 1.5 jam Kegagalan 4 → Power failure (PLN padam) : Repair 0.5 jam ────────────────────────────────────────────────── Jumlah Kegagalan = 4 kali Total Repair Time = 6 + 2 + 1.5 + 0.5 = 10 jam Total Uptime = 8760 - 10 = 8750 jam PERHITUNGAN: MTBF = Total Uptime / Jumlah Kegagalan = 8750 / 4 = 2187.5 jam ≈ 91 hari MTTR = Total Repair Time / Jumlah Kegagalan = 10 / 4 = 2.5 jam Availability = MTBF / (MTBF + MTTR) = 2187.5 / (2187.5 + 2.5) = 2187.5 / 2190 = 0.99886 = 99.886% DOWNTIME AKTUAL: Downtime setahun = 10 jam = 600 menit Target (99.99%) = max 52.6 menit/tahun → TIDAK MEMENUHI TARGET! Perlu improvement. REKOMENDASI: 1. Hot standby untuk RTU intake (eliminasi kegagalan 1) 2. Ring network redundancy (eliminasi kegagalan 2) 3. Dual SCADA server (eliminasi kegagalan 3) 4. Dual power supply + UPS (eliminasi kegagalan 4) → Proyeksi: A = 99.999% setelah improvement