3.1Konsep Dependability pada Sistem SCADA

Dependability adalah properti menyeluruh suatu sistem yang menggambarkan sejauh mana sistem tersebut dapat dipercaya untuk memberikan layanan sesuai dengan yang diharapkan, termasuk toleransi terhadap kegagalan.

📌 DEFINISI DEPENDABILITY (IEC 60050-191)

"The ability of a system to avoid service failures that are more frequent and more severe than acceptable."

Dalam konteks SCADA: sistem harus tetap memberikan layanan monitoring dan kontrol meskipun ada komponen yang gagal — karena kegagalan total bisa berarti blackout listrik, bencana industri, atau hilangnya nyawa.

Mengapa Fault Tolerance Sangat Penting di SCADA?
BIAYA KEGAGALAN SCADA
╔══════════════════════════════════════════════════════════════╗
║              DAMPAK KEGAGALAN SISTEM SCADA                    ║
╚══════════════════════════════════════════════════════════════╝

SEKTOR ENERGI LISTRIK:
  PLN Jawa-Bali  → 1 jam blackout ≈ kerugian Rp 5–10 Miliar/jam
  Industri manufaktur → 1 jam shutdown ≈ kerugian Rp 500 juta–2 Miliar

SEKTOR AIR BERSIH:
  Pompa gagal     → Ribuan pelanggan tanpa air
  Dosing errorKontaminasi air minum (bahaya kesehatan publik)

SEKTOR MIGAS:
  Safety system gagalKebakaran / ledakan kilang
  Pipeline tidak terpantau → Kebocoran gas berbahaya

TARGET AVAILABILITY INDUSTRI:
  Pembangkit Listrik   : 99.999% ("Five Nines") = max 5.26 menit/tahun downtime
  SCADA Utilitas       : 99.99%  = max 52.6 menit/tahun downtime
  Sistem Non-Kritis    : 99.9%   = max 8.76 jam/tahun downtime
3.2Lima Pilar Dependability

Dependability memiliki lima atribut utama yang saling berkaitan. Sistem SCADA yang baik harus memenuhi semua atribut ini sesuai kebutuhan operasionalnya.

🔩
RELIABILITY
R(t) = e^(-λt)
Kemampuan sistem bekerja benar selama periode waktu tertentu tanpa kegagalan. Diukur dengan MTBF (Mean Time Between Failures).
⏱️
AVAILABILITY
A = MTBF / (MTBF + MTTR)
Proporsi waktu sistem berfungsi dengan benar. Target sistem kritis: 99.999% (five nines). Bergantung pada MTBF dan MTTR.
🔧
MAINTAINABILITY
M(t) = 1 - e^(-μt)
Kemudahan dan kecepatan pemulihan sistem setelah kegagalan. Diukur dengan MTTR (Mean Time To Repair). Semakin kecil MTTR, semakin baik.
🛡️
SAFETY
SIL 1–4 (IEC 61508)
Sistem tidak menimbulkan bahaya bagi manusia dan lingkungan, bahkan saat gagal. Konsep "fail-safe" — gagal ke kondisi yang aman (valve tutup, bukan buka).
🔒
SECURITY
CIA Triad (AIC untuk OT)
Proteksi terhadap serangan yang disengaja (malware, unauthorized access) yang dapat mengganggu ketersediaan dan integritas sistem SCADA.
ℹ️ HUBUNGAN ANTAR PILAR

Meningkatkan Reliability (dengan hardware lebih baik) meningkatkan Availability. Meningkatkan Maintainability (dengan desain modular) juga meningkatkan Availability. Safety memastikan kegagalan tidak berbahaya. Security melindungi dari ancaman eksternal yang bisa merusak semua pilar lainnya.

Fault Tolerance vs High Availability vs Disaster Recovery
KONSEPDEFINISISCOPECONTOH SCADA
Fault Tolerance Sistem tetap berjalan normal meskipun ada komponen yang gagal — TANPA interupsi layanan Hardware, Software, Network Dual redundant PLC — jika PLC-A gagal, PLC-B langsung ambil alih dalam microseconds
High Availability Meminimalkan downtime melalui failover otomatis — ada jeda singkat saat switching Server, Aplikasi SCADA server primary/standby — failover dalam 10–30 detik
Disaster Recovery Pemulihan sistem setelah bencana besar — ada downtime yang diterima (RTO/RPO) Site, Data Center Backup SCADA di site lain — recovery dalam jam hingga hari
3.3Teknik Redundansi pada Sistem SCADA

Redundansi adalah strategi utama fault tolerance — menyediakan komponen cadangan yang siap mengambil alih fungsi komponen utama yang gagal. Ada tiga jenis redundansi utama dalam SCADA:

◈ TIPE-TIPE REDUNDANSI DALAM SISTEM SCADA ◈
HARDWARE:
PLC-A (Active)
PLC-B (Hot Standby)
+
PLC-C (Cold Standby)
NETWORK:
Ring A (Primary Path)
Ring B (Redundant Path)
RSTP Auto-Switch <1 detik
POWER:
PLN (Utility Power)
UPS (Battery)
Generator (Diesel)
SERVER:
SCADA Server-1 (Primary)
SCADA Server-2 (Standby)
+
Data Sync Real-time
A. Redundansi Hardware
KOMPONENTIPE REDUNDANSIMETODESWITCHING TIME
PLC / Controller 1+1 (Primary + Hot Standby) CPU sync setiap scan cycle. I/O bus shared. Coprocessor dedicated untuk sync. < 1 scan cycle (ms)
I/O Modules Redundant I/O Dual I/O bus, setiap field device terhubung ke 2 I/O module berbeda < 100ms
Power Supply Dual PSU + UPS 2 PSU paralel (load sharing). UPS battery backup. Generator untuk long-term < 20ms (UPS)
SCADA Server Active/Standby atau Active/Active Database replication, application state sync, virtual IP failover 10–60 detik
Hard Disk RAID (1, 5, 10) RAID-1: mirroring. RAID-5: distributed parity. RAID-10: kombinasi Transparan (online)
B. Redundansi Jaringan Komunikasi
TOPOLOGI RING REDUNDAN
// Ring Topology dengan RSTP (Rapid Spanning Tree Protocol)
// untuk Jaringan OT Industrial Ethernet

TOPOLOGI NORMAL (Ring Aktif):

  [MTU Server]
       │
  [Switch-Core-1] ────────────────── [Switch-Core-2]
       │                                    │
  [Switch-PLC-A] ── [PLC-Schneider-M580] ──┘
       │
  [Switch-PLC-B] ── [PLC-Schneider-M340]
       │
  [Switch-PLC-C] ── [PLC-Modicon-M251]
       │            └────────── RING BACK ──┘

JIKA Switch-PLC-A GAGAL:

  RSTP mendeteksi kegagalan dalam < 1 detik
  Jalur alternatif melalui Ring Back otomatis aktif
  Komunikasi pulih tanpa intervensi operator

PROTOKOL REDUNDANSI JARINGAN:
  RSTP      - IEEE 802.1w, recovery <1 detik
  HSR       - High-availability Seamless Redundancy (IEC 62439-3)
              Dua frame dikirim bersamaan, zero-switchover
  PRP       - Parallel Redundancy Protocol
              Dua jaringan LAN paralel penuh, transparan ke aplikasi
  MRP       - Media Redundancy Protocol (Siemens/Profinet)
C. Redundansi Software
  • Software Diversity — Menggunakan dua program berbeda (dikembangkan oleh tim berbeda) yang menjalankan fungsi yang sama. Jika satu memiliki bug, yang lain masih benar.
  • N-Version Programming — N versi program independen dijalankan paralel; keputusan diambil berdasarkan voting (majority vote)
  • Watchdog Timer — Timer hardware yang direset oleh program setiap siklus. Jika program crash/hang, watchdog timeout dan sistem di-restart otomatis
  • Checksum & CRC — Verifikasi integritas program PLC yang disimpan di memori; alarm jika ada perubahan tidak sah
  • Hot-Standby SCADA Application — Dua instance SCADA software berjalan paralel; satu active, satu standby dengan state sync real-time
3.4Mekanisme Failover dan Failback

Failover adalah proses otomatis pengalihan layanan dari komponen yang gagal ke komponen cadangan. Failback adalah proses mengembalikan layanan ke komponen asli setelah diperbaiki.

◈ TAHAPAN PROSES FAILOVER — SCADA SERVER ◈
T=0 NORMAL
SERVER-1 ACTIVE ✓
SERVER-2 STANDBY ●
SYNC: Real-time
T+5s FAILURE
SERVER-1 FAILED ✗
SERVER-2 STANDBY ●
HEARTBEAT LOST!
T+10s DETECT
SERVER-1 FAILED ✗
SERVER-2 SWITCHING ⟳
PROMOTING TO ACTIVE
T+15s ACTIVE
SERVER-1 OFFLINE ✗
SERVER-2 ACTIVE ✓
SERVICE RESTORED!
T+Nx FAILBACK
SERVER-1 RESTORED ●
SERVER-2 ACTIVE ✓
MANUAL FAILBACK
Jenis Failover Berdasarkan Otomatisasi
JENISMEKANISMEKEUNGGULANKELEMAHAN
Automatic Failover Sistem mendeteksi kegagalan via heartbeat dan secara otomatis mengaktifkan standby tanpa intervensi Sangat cepat, tidak butuh operator, 24/7 Bisa false positive — failover saat tidak perlu (split-brain scenario)
Assisted Failover Sistem mendeteksi kegagalan dan memberi alert, tapi operator harus konfirmasi sebelum switchover Operator tetap in-the-loop, hindari false positive Lebih lambat — butuh respons manusia
Manual Failover Operator secara manual memerintahkan switchover ke standby Kontrol penuh, digunakan untuk planned maintenance Paling lambat — harus ada operator yang sadar dan siap
⚠️ MASALAH SPLIT-BRAIN DALAM FAILOVER

Split-brain terjadi ketika kedua node (primary dan standby) sama-sama menganggap dirinya sebagai primary karena kehilangan koneksi heartbeat antar keduanya — namun keduanya masih aktif dan terhubung ke jaringan OT.

Akibat: Dua SCADA server mengirim perintah kontrol yang berbeda ke PLC/RTU yang sama → konflik → perilaku proses tidak terduga → bahaya!

Solusi: Quorum mechanism, STONITH (Shoot The Other Node In The Head), dedicated heartbeat link, atau tie-breaker node.

3.5Hot Standby vs Warm Standby vs Cold Standby

Terdapat tiga pendekatan utama kesiapan sistem cadangan, masing-masing dengan tradeoff antara biaya, kecepatan pemulihan, dan kompleksitas.

🟢 HOT STANDBY
Status: Berjalan penuh, sinkron real-time dengan primary
Switchover: < 1 detik (seamless untuk operator)
Data loss: Nol (zero data loss)
Biaya: Tertinggi — hardware identik penuh
Cocok: PLC kritis, SCADA server pembangkit listrik
Contoh: Schneider Modicon Quantum Hot Standby, Siemens S7-400H
🟡 WARM STANDBY
Status: Sistem menyala, data di-sync periodik (misal tiap 5 menit)
Switchover: 30 detik – 5 menit
Data loss: Minimal (data sejak sync terakhir)
Biaya: Sedang — hardware lebih murah
Cocok: SCADA server non-kritis, historian
Contoh: Database replication, VM snapshot
🔵 COLD STANDBY
Status: Sistem mati atau dalam kondisi dasar; harus di-boot dan dikonfigurasi
Switchover: Menit – jam (manual)
Data loss: Signifikan (data sejak backup terakhir)
Biaya: Terendah — bisa pakai hardware berbeda
Cocok: Disaster Recovery, sistem non-real-time
Contoh: Spare PLC di gudang, backup server VM
📌 CONTOH NYATA: SCHNEIDER MODICON HOT STANDBY

Schneider Electric Modicon M580 mendukung Hot Standby dengan arsitektur:

  • Dua CPU M580 identik terhubung via Ethernet Backplane khusus
  • CPU Primary menjalankan program dan mengirim state ke Secondary setiap scan cycle (biasanya 10–50ms)
  • Secondary memantau Primary via heartbeat; jika tidak ada respons dalam 1–3 scan cycles → otomatis jadi Primary
  • Switchover dalam < 1 scan cycle — field devices tidak merasakan perbedaan
  • LED status: Primary (hijau solid), Standby (hijau berkedip), Error (merah)
3.6MTBF, MTTR, dan Availability — Konsep & Formula

MTBF dan MTTR adalah dua metrik kuantitatif utama untuk mengukur keandalan dan pemeliharaan sistem SCADA. Keduanya digunakan untuk menghitung Availability sistem.

📊
MTBF
MTBF = Total Uptime / Jumlah Kegagalan
Mean Time Between Failures — rata-rata waktu sistem berfungsi normal di antara dua kegagalan berturut-turut. Semakin besar = semakin andal.
🔧
MTTR
MTTR = Total Repair Time / Jumlah Kegagalan
Mean Time To Repair — rata-rata waktu yang dibutuhkan untuk memulihkan sistem setelah kegagalan. Semakin kecil = semakin mudah diperbaiki.
⏱️
AVAILABILITY
A = MTBF / (MTBF + MTTR) × 100%
Persentase waktu sistem berfungsi. Kombinasi MTBF dan MTTR. Target Five-Nines: A = 99.999%.
📉
MTTF
MTTF = 1 / λ (λ = failure rate)
Mean Time To Failure — rata-rata waktu hingga kegagalan pertama. Digunakan untuk komponen non-repairable (sensor, kapasitor).
Tabel Availability — "Nines" Classification
AVAILABILITYKELASDOWNTIME / TAHUNDOWNTIME / BULANCOCOK UNTUK
90%One Nine36.5 hari~73 jamSistem non-kritis, development
99%Two Nines3.65 hari~7.3 jamSistem bisnis umum
99.9%Three Nines8.76 jam~44 menitLayanan internet konsumen
99.99%Four Nines52.6 menit~4.4 menitSCADA utilitas, manufaktur
99.999%Five Nines5.26 menit~26 detikPembangkit listrik, safety-critical
99.9999%Six Nines31.5 detik~2.6 detikSistem nuklir, avionik
Availability Sistem Seri vs Paralel
FORMULA SISTEM SERI & PARALEL
╔══ SISTEM SERI — Semua komponen harus bekerja ══╗

  [Sensor] → [PLC] → [Network] → [SCADA Server]
  A_sensor=0.99, A_plc=0.999, A_net=0.9999, A_scada=0.999

  A_total_seri = A1 × A2 × A3 × A4
               = 0.99 × 0.999 × 0.9999 × 0.999
               = 0.9879 = 98.79%
  → Sistem seri MENURUNKAN ketersediaan!

╔══ SISTEM PARALEL — Cukup 1 komponen bekerja ══╗

  [SCADA-Server-1 (A=0.99)]
        ║ (parallel)
  [SCADA-Server-2 (A=0.99)]

  A_total_paralel = 1 - (1 - A1) × (1 - A2)
                  = 1 - (1 - 0.99) × (1 - 0.99)
                  = 1 - 0.01 × 0.01
                  = 1 - 0.0001
                  = 0.9999 = 99.99%
  → Redundansi SANGAT meningkatkan ketersediaan!

╔══ CONTOH: 3 Server Hot Standby (A masing=0.99) ══╗

  A_total = 1 - (1-0.99)³ = 1 - 0.000001 = 99.9999% (Six Nines!)
3.7Kalkulator MTBF / MTTR / Availability Interaktif

Gunakan kalkulator di bawah ini untuk menghitung availability berdasarkan nilai MTBF dan MTTR suatu sistem SCADA:

■ KALKULATOR AVAILABILITY SCADA
INPUT MTBF & MTTR
jam (MTBF)
jam (MTTR)
kali gagal/tahun
HASIL PERHITUNGAN
A = MTBF / (MTBF + MTTR)
Studi Kasus: Perhitungan MTBF Sistem SCADA WTP
CONTOH PERHITUNGAN NYATA
// Sistem SCADA Water Treatment Plant (WTP) Kota Bandung
// Data operasional 1 tahun (8760 jam)

DATA KEGAGALAN TERCATAT:
  Kegagalan 1 → Hardware failure RTU intake : Repair 6 jam
  Kegagalan 2 → Network switch mati          : Repair 2 jam
  Kegagalan 3 → SCADA server OS crash        : Repair 1.5 jam
  Kegagalan 4 → Power failure (PLN padam)    : Repair 0.5 jam
  ──────────────────────────────────────────────────
  Jumlah Kegagalan   = 4 kali
  Total Repair Time  = 6 + 2 + 1.5 + 0.5 = 10 jam
  Total Uptime       = 8760 - 10 = 8750 jam

PERHITUNGAN:
  MTBF = Total Uptime / Jumlah Kegagalan
       = 8750 / 4
       = 2187.5 jam ≈ 91 hari

  MTTR = Total Repair Time / Jumlah Kegagalan
       = 10 / 4
       = 2.5 jam

  Availability = MTBF / (MTBF + MTTR)
               = 2187.5 / (2187.5 + 2.5)
               = 2187.5 / 2190
               = 0.99886 = 99.886%

DOWNTIME AKTUAL:
  Downtime setahun = 10 jam = 600 menit
  Target (99.99%) = max 52.6 menit/tahun
  → TIDAK MEMENUHI TARGET! Perlu improvement.

REKOMENDASI:
  1. Hot standby untuk RTU intake (eliminasi kegagalan 1)
  2. Ring network redundancy (eliminasi kegagalan 2)
  3. Dual SCADA server (eliminasi kegagalan 3)
  4. Dual power supply + UPS (eliminasi kegagalan 4)
  → Proyeksi: A = 99.999% setelah improvement
Latihan Soal — Sesi 3
■ PERTANYAAN 1 / 5
1. Sistem SCADA pembangkit listrik PLN memiliki data berikut: dalam 1 tahun (8760 jam) terjadi 2 kali kegagalan dengan total waktu perbaikan 8 jam. Berapakah MTBF sistem tersebut?
A 4380 jam
B 4376 jam
C 8752 jam
D 2920 jam
Benar! MTBF = Total Uptime / Jumlah Kegagalan = (8760 - 8) / 2 = 8752 / 2 = 4376 jam. Jangan lupa kurangi total waktu downtime (8 jam) dari total jam untuk mendapat uptime.
■ PERTANYAAN 2 / 5
2. Jika MTBF sebuah PLC adalah 5000 jam dan MTTR-nya adalah 5 jam, berapakah availability-nya? (Pilih yang paling mendekati)
A 99.0% (Two Nines)
B 99.9% (Three Nines)
C 99.9% — tepatnya 99.900% (A = 5000/5005)
D 99.99% (Four Nines)
Benar! A = MTBF / (MTBF + MTTR) = 5000 / (5000 + 5) = 5000 / 5005 = 0.999001 ≈ 99.900% — tepat di Three Nines. Downtime: 8760 × 0.001 ≈ 8.76 jam/tahun.
■ PERTANYAAN 3 / 5
3. Availability total sistem yang terdiri dari 2 SCADA server redundan (paralel) masing-masing dengan availability 99% adalah...
A 99% (sama saja)
B 99.99% (Four Nines)
C 98% (seri)
D 100% (selalu available)
Benar! A_paralel = 1 - (1-0.99) × (1-0.99) = 1 - 0.01 × 0.01 = 1 - 0.0001 = 99.99%. Dua komponen 99% dalam paralel menghasilkan Four Nines — inilah kekuatan redundansi!
■ PERTANYAAN 4 / 5
4. Perbedaan utama antara Hot Standby dan Cold Standby pada sistem SCADA adalah...
A Hot Standby berada di gedung berbeda, Cold Standby di gedung yang sama
B Hot Standby berjalan penuh dan sinkron real-time (switchover detik), Cold Standby dalam kondisi mati dan butuh waktu lama untuk aktif
C Hot Standby lebih murah dari Cold Standby
D Cold Standby menggunakan hardware yang lebih canggih
Benar! Hot Standby berjalan paralel dengan primary secara sinkron — switchover <1 detik. Cold Standby dalam kondisi mati/minimal — perlu di-boot, dikonfigurasi, dan sync data — bisa memakan waktu menit hingga jam. Hot Standby biayanya lebih mahal.
■ PERTANYAAN 5 / 5
5. Prinsip "fail-safe" dalam konteks Safety pada sistem SCADA berarti...
A Sistem tidak pernah mengalami kegagalan apapun
B Ketika terjadi kegagalan, sistem secara otomatis berpindah ke kondisi yang aman (misal: valve tutup, motor berhenti)
C Sistem harus terus berjalan meskipun ada komponen yang rusak
D Operator harus selalu hadir 24 jam untuk memantau sistem
Benar! Fail-safe berarti: jika terjadi kegagalan (apapun penyebabnya — hardware, software, komunikasi, atau power), sistem secara default masuk ke kondisi yang paling aman secara fisik. Contoh: valve gas tekanan tinggi harus "normally closed" — gagal = tetap tertutup, bukan terbuka.