Sesi 3 — Konsep Fault Tolerance pada SCADA

3.1Konsep Dependability pada Sistem SCADA

Dependability adalah properti menyeluruh suatu sistem yang menggambarkan sejauh mana sistem tersebut dapat dipercaya untuk memberikan layanan sesuai dengan yang diharapkan, termasuk toleransi terhadap kegagalan.

📌 DEFINISI DEPENDABILITY (IEC 60050-191)

"The ability of a system to avoid service failures that are more frequent and more severe than acceptable."

Dalam konteks SCADA: sistem harus tetap memberikan layanan monitoring dan kontrol meskipun ada komponen yang gagal — karena kegagalan total bisa berarti blackout listrik, bencana industri, atau hilangnya nyawa.

Mengapa Fault Tolerance Sangat Penting di SCADA?

BIAYA KEGAGALAN SCADA

╔══════════════════════════════════════════════════════════════╗
║              DAMPAK KEGAGALAN SISTEM SCADA                    ║
╚══════════════════════════════════════════════════════════════╝

SEKTOR ENERGI LISTRIK:
  PLN Jawa-Bali  → 1 jam blackout ≈ kerugian Rp 5–10 Miliar/jam
  Industri manufaktur → 1 jam shutdown ≈ kerugian Rp 500 juta–2 Miliar

SEKTOR AIR BERSIH:
  Pompa gagal     → Ribuan pelanggan tanpa air
  Dosing error    → Kontaminasi air minum (bahaya kesehatan publik)

SEKTOR MIGAS:
  Safety system gagal → Kebakaran / ledakan kilang
  Pipeline tidak terpantau → Kebocoran gas berbahaya

TARGET AVAILABILITY INDUSTRI:
  Pembangkit Listrik   : 99.999% ("Five Nines") = max 5.26 menit/tahun downtime
  SCADA Utilitas       : 99.99%  = max 52.6 menit/tahun downtime
  Sistem Non-Kritis    : 99.9%   = max 8.76 jam/tahun downtime

3.2Lima Pilar Dependability

Dependability memiliki lima atribut utama yang saling berkaitan. Sistem SCADA yang baik harus memenuhi semua atribut ini sesuai kebutuhan operasionalnya.

🔩

RELIABILITY

R(t) = e^(-λt)

Kemampuan sistem bekerja benar selama periode waktu tertentu tanpa kegagalan. Diukur dengan MTBF (Mean Time Between Failures).

⏱️

AVAILABILITY

A = MTBF / (MTBF + MTTR)

Proporsi waktu sistem berfungsi dengan benar. Target sistem kritis: 99.999% (five nines). Bergantung pada MTBF dan MTTR.

🔧

MAINTAINABILITY

M(t) = 1 - e^(-μt)

Kemudahan dan kecepatan pemulihan sistem setelah kegagalan. Diukur dengan MTTR (Mean Time To Repair). Semakin kecil MTTR, semakin baik.

🛡️

SAFETY

SIL 1–4 (IEC 61508)

Sistem tidak menimbulkan bahaya bagi manusia dan lingkungan, bahkan saat gagal. Konsep "fail-safe" — gagal ke kondisi yang aman (valve tutup, bukan buka).

🔒

SECURITY

CIA Triad (AIC untuk OT)

Proteksi terhadap serangan yang disengaja (malware, unauthorized access) yang dapat mengganggu ketersediaan dan integritas sistem SCADA.

ℹ️ HUBUNGAN ANTAR PILAR

Meningkatkan Reliability (dengan hardware lebih baik) meningkatkan Availability. Meningkatkan Maintainability (dengan desain modular) juga meningkatkan Availability. Safety memastikan kegagalan tidak berbahaya. Security melindungi dari ancaman eksternal yang bisa merusak semua pilar lainnya.

Fault Tolerance vs High Availability vs Disaster Recovery

KONSEP	DEFINISI	SCOPE	CONTOH SCADA
Fault Tolerance	Sistem tetap berjalan normal meskipun ada komponen yang gagal — TANPA interupsi layanan	Hardware, Software, Network	Dual redundant PLC — jika PLC-A gagal, PLC-B langsung ambil alih dalam microseconds
High Availability	Meminimalkan downtime melalui failover otomatis — ada jeda singkat saat switching	Server, Aplikasi	SCADA server primary/standby — failover dalam 10–30 detik
Disaster Recovery	Pemulihan sistem setelah bencana besar — ada downtime yang diterima (RTO/RPO)	Site, Data Center	Backup SCADA di site lain — recovery dalam jam hingga hari

3.3Teknik Redundansi pada Sistem SCADA

Redundansi adalah strategi utama fault tolerance — menyediakan komponen cadangan yang siap mengambil alih fungsi komponen utama yang gagal. Ada tiga jenis redundansi utama dalam SCADA:

◈ TIPE-TIPE REDUNDANSI DALAM SISTEM SCADA ◈

HARDWARE:

PLC-A (Active)

⇄

PLC-B (Hot Standby)

+

PLC-C (Cold Standby)

NETWORK:

Ring A (Primary Path)

⇄

Ring B (Redundant Path)

→

RSTP Auto-Switch <1 detik

POWER:

PLN (Utility Power)

⇄

UPS (Battery)

⇄

Generator (Diesel)

SERVER:

SCADA Server-1 (Primary)

⇄

SCADA Server-2 (Standby)

+

Data Sync Real-time

A. Redundansi Hardware

KOMPONEN	TIPE REDUNDANSI	METODE	SWITCHING TIME
PLC / Controller	1+1 (Primary + Hot Standby)	CPU sync setiap scan cycle. I/O bus shared. Coprocessor dedicated untuk sync.	< 1 scan cycle (ms)
I/O Modules	Redundant I/O	Dual I/O bus, setiap field device terhubung ke 2 I/O module berbeda	< 100ms
Power Supply	Dual PSU + UPS	2 PSU paralel (load sharing). UPS battery backup. Generator untuk long-term	< 20ms (UPS)
SCADA Server	Active/Standby atau Active/Active	Database replication, application state sync, virtual IP failover	10–60 detik
Hard Disk	RAID (1, 5, 10)	RAID-1: mirroring. RAID-5: distributed parity. RAID-10: kombinasi	Transparan (online)

B. Redundansi Jaringan Komunikasi

TOPOLOGI RING REDUNDAN

// Ring Topology dengan RSTP (Rapid Spanning Tree Protocol)
// untuk Jaringan OT Industrial Ethernet

TOPOLOGI NORMAL (Ring Aktif):

  [MTU Server]
       │
  [Switch-Core-1] ────────────────── [Switch-Core-2]
       │                                    │
  [Switch-PLC-A] ── [PLC-Schneider-M580] ──┘
       │
  [Switch-PLC-B] ── [PLC-Schneider-M340]
       │
  [Switch-PLC-C] ── [PLC-Modicon-M251]
       │            └────────── RING BACK ──┘

JIKA Switch-PLC-A GAGAL:

  RSTP mendeteksi kegagalan dalam < 1 detik
  Jalur alternatif melalui Ring Back otomatis aktif
  Komunikasi pulih tanpa intervensi operator

PROTOKOL REDUNDANSI JARINGAN:
  RSTP      - IEEE 802.1w, recovery <1 detik
  HSR       - High-availability Seamless Redundancy (IEC 62439-3)
              Dua frame dikirim bersamaan, zero-switchover
  PRP       - Parallel Redundancy Protocol
              Dua jaringan LAN paralel penuh, transparan ke aplikasi
  MRP       - Media Redundancy Protocol (Siemens/Profinet)

C. Redundansi Software

Software Diversity — Menggunakan dua program berbeda (dikembangkan oleh tim berbeda) yang menjalankan fungsi yang sama. Jika satu memiliki bug, yang lain masih benar.
N-Version Programming — N versi program independen dijalankan paralel; keputusan diambil berdasarkan voting (majority vote)
Watchdog Timer — Timer hardware yang direset oleh program setiap siklus. Jika program crash/hang, watchdog timeout dan sistem di-restart otomatis
Checksum & CRC — Verifikasi integritas program PLC yang disimpan di memori; alarm jika ada perubahan tidak sah
Hot-Standby SCADA Application — Dua instance SCADA software berjalan paralel; satu active, satu standby dengan state sync real-time

3.4Mekanisme Failover dan Failback

Failover adalah proses otomatis pengalihan layanan dari komponen yang gagal ke komponen cadangan. Failback adalah proses mengembalikan layanan ke komponen asli setelah diperbaiki.

◈ TAHAPAN PROSES FAILOVER — SCADA SERVER ◈

T=0 NORMAL

SERVER-1 ACTIVE ✓

SERVER-2 STANDBY ●

SYNC: Real-time

T+5s FAILURE

SERVER-1 FAILED ✗

SERVER-2 STANDBY ●

HEARTBEAT LOST!

T+10s DETECT

SERVER-1 FAILED ✗

SERVER-2 SWITCHING ⟳

PROMOTING TO ACTIVE

T+15s ACTIVE

SERVER-1 OFFLINE ✗

SERVER-2 ACTIVE ✓

SERVICE RESTORED!

T+Nx FAILBACK

SERVER-1 RESTORED ●

SERVER-2 ACTIVE ✓

MANUAL FAILBACK

Jenis Failover Berdasarkan Otomatisasi

JENIS	MEKANISME	KEUNGGULAN	KELEMAHAN
Automatic Failover	Sistem mendeteksi kegagalan via heartbeat dan secara otomatis mengaktifkan standby tanpa intervensi	Sangat cepat, tidak butuh operator, 24/7	Bisa false positive — failover saat tidak perlu (split-brain scenario)
Assisted Failover	Sistem mendeteksi kegagalan dan memberi alert, tapi operator harus konfirmasi sebelum switchover	Operator tetap in-the-loop, hindari false positive	Lebih lambat — butuh respons manusia
Manual Failover	Operator secara manual memerintahkan switchover ke standby	Kontrol penuh, digunakan untuk planned maintenance	Paling lambat — harus ada operator yang sadar dan siap

⚠️ MASALAH SPLIT-BRAIN DALAM FAILOVER

Split-brain terjadi ketika kedua node (primary dan standby) sama-sama menganggap dirinya sebagai primary karena kehilangan koneksi heartbeat antar keduanya — namun keduanya masih aktif dan terhubung ke jaringan OT.

Akibat: Dua SCADA server mengirim perintah kontrol yang berbeda ke PLC/RTU yang sama → konflik → perilaku proses tidak terduga → bahaya!

Solusi: Quorum mechanism, STONITH (Shoot The Other Node In The Head), dedicated heartbeat link, atau tie-breaker node.

3.5Hot Standby vs Warm Standby vs Cold Standby

Terdapat tiga pendekatan utama kesiapan sistem cadangan, masing-masing dengan tradeoff antara biaya, kecepatan pemulihan, dan kompleksitas.

🟢 HOT STANDBY

Status: Berjalan penuh, sinkron real-time dengan primary

Switchover: < 1 detik (seamless untuk operator)

Data loss: Nol (zero data loss)

Biaya: Tertinggi — hardware identik penuh

Cocok: PLC kritis, SCADA server pembangkit listrik

Contoh: Schneider Modicon Quantum Hot Standby, Siemens S7-400H

🟡 WARM STANDBY

Status: Sistem menyala, data di-sync periodik (misal tiap 5 menit)

Switchover: 30 detik – 5 menit

Data loss: Minimal (data sejak sync terakhir)

Biaya: Sedang — hardware lebih murah

Cocok: SCADA server non-kritis, historian

Contoh: Database replication, VM snapshot

🔵 COLD STANDBY

Status: Sistem mati atau dalam kondisi dasar; harus di-boot dan dikonfigurasi

Switchover: Menit – jam (manual)

Data loss: Signifikan (data sejak backup terakhir)

Biaya: Terendah — bisa pakai hardware berbeda

Cocok: Disaster Recovery, sistem non-real-time

Contoh: Spare PLC di gudang, backup server VM

📌 CONTOH NYATA: SCHNEIDER MODICON HOT STANDBY

Schneider Electric Modicon M580 mendukung Hot Standby dengan arsitektur:

Dua CPU M580 identik terhubung via Ethernet Backplane khusus
CPU Primary menjalankan program dan mengirim state ke Secondary setiap scan cycle (biasanya 10–50ms)
Secondary memantau Primary via heartbeat; jika tidak ada respons dalam 1–3 scan cycles → otomatis jadi Primary
Switchover dalam < 1 scan cycle — field devices tidak merasakan perbedaan
LED status: Primary (hijau solid), Standby (hijau berkedip), Error (merah)

3.6MTBF, MTTR, dan Availability — Konsep & Formula

MTBF dan MTTR adalah dua metrik kuantitatif utama untuk mengukur keandalan dan pemeliharaan sistem SCADA. Keduanya digunakan untuk menghitung Availability sistem.

📊

MTBF

MTBF = Total Uptime / Jumlah Kegagalan

Mean Time Between Failures — rata-rata waktu sistem berfungsi normal di antara dua kegagalan berturut-turut. Semakin besar = semakin andal.

🔧

MTTR

MTTR = Total Repair Time / Jumlah Kegagalan

Mean Time To Repair — rata-rata waktu yang dibutuhkan untuk memulihkan sistem setelah kegagalan. Semakin kecil = semakin mudah diperbaiki.

⏱️

AVAILABILITY

A = MTBF / (MTBF + MTTR) × 100%

Persentase waktu sistem berfungsi. Kombinasi MTBF dan MTTR. Target Five-Nines: A = 99.999%.

📉

MTTF

MTTF = 1 / λ (λ = failure rate)

Mean Time To Failure — rata-rata waktu hingga kegagalan pertama. Digunakan untuk komponen non-repairable (sensor, kapasitor).

Tabel Availability — "Nines" Classification

AVAILABILITY	KELAS	DOWNTIME / TAHUN	DOWNTIME / BULAN	COCOK UNTUK
90%	One Nine	36.5 hari	~73 jam	Sistem non-kritis, development
99%	Two Nines	3.65 hari	~7.3 jam	Sistem bisnis umum
99.9%	Three Nines	8.76 jam	~44 menit	Layanan internet konsumen
99.99%	Four Nines	52.6 menit	~4.4 menit	SCADA utilitas, manufaktur
99.999%	Five Nines	5.26 menit	~26 detik	Pembangkit listrik, safety-critical
99.9999%	Six Nines	31.5 detik	~2.6 detik	Sistem nuklir, avionik

Availability Sistem Seri vs Paralel

FORMULA SISTEM SERI & PARALEL

╔══ SISTEM SERI — Semua komponen harus bekerja ══╗

  [Sensor] → [PLC] → [Network] → [SCADA Server]
  A_sensor=0.99, A_plc=0.999, A_net=0.9999, A_scada=0.999

  A_total_seri = A1 × A2 × A3 × A4
               = 0.99 × 0.999 × 0.9999 × 0.999
               = 0.9879 = 98.79%
  → Sistem seri MENURUNKAN ketersediaan!

╔══ SISTEM PARALEL — Cukup 1 komponen bekerja ══╗

  [SCADA-Server-1 (A=0.99)]
        ║ (parallel)
  [SCADA-Server-2 (A=0.99)]

  A_total_paralel = 1 - (1 - A1) × (1 - A2)
                  = 1 - (1 - 0.99) × (1 - 0.99)
                  = 1 - 0.01 × 0.01
                  = 1 - 0.0001
                  = 0.9999 = 99.99%
  → Redundansi SANGAT meningkatkan ketersediaan!

╔══ CONTOH: 3 Server Hot Standby (A masing=0.99) ══╗

  A_total = 1 - (1-0.99)³ = 1 - 0.000001 = 99.9999% (Six Nines!)

3.7Kalkulator MTBF / MTTR / Availability Interaktif

Gunakan kalkulator di bawah ini untuk menghitung availability berdasarkan nilai MTBF dan MTTR suatu sistem SCADA:

■ KALKULATOR AVAILABILITY SCADA

INPUT MTBF & MTTR

jam (MTBF)

jam (MTTR)

kali gagal/tahun

HASIL PERHITUNGAN

A = MTBF / (MTBF + MTTR)

—

Studi Kasus: Perhitungan MTBF Sistem SCADA WTP

CONTOH PERHITUNGAN NYATA

// Sistem SCADA Water Treatment Plant (WTP) Kota Bandung
// Data operasional 1 tahun (8760 jam)

DATA KEGAGALAN TERCATAT:
  Kegagalan 1 → Hardware failure RTU intake : Repair 6 jam
  Kegagalan 2 → Network switch mati          : Repair 2 jam
  Kegagalan 3 → SCADA server OS crash        : Repair 1.5 jam
  Kegagalan 4 → Power failure (PLN padam)    : Repair 0.5 jam
  ──────────────────────────────────────────────────
  Jumlah Kegagalan   = 4 kali
  Total Repair Time  = 6 + 2 + 1.5 + 0.5 = 10 jam
  Total Uptime       = 8760 - 10 = 8750 jam

PERHITUNGAN:
  MTBF = Total Uptime / Jumlah Kegagalan
       = 8750 / 4
       = 2187.5 jam ≈ 91 hari

  MTTR = Total Repair Time / Jumlah Kegagalan
       = 10 / 4
       = 2.5 jam

  Availability = MTBF / (MTBF + MTTR)
               = 2187.5 / (2187.5 + 2.5)
               = 2187.5 / 2190
               = 0.99886 = 99.886%

DOWNTIME AKTUAL:
  Downtime setahun = 10 jam = 600 menit
  Target (99.99%) = max 52.6 menit/tahun
  → TIDAK MEMENUHI TARGET! Perlu improvement.

REKOMENDASI:
  1. Hot standby untuk RTU intake (eliminasi kegagalan 1)
  2. Ring network redundancy (eliminasi kegagalan 2)
  3. Dual SCADA server (eliminasi kegagalan 3)
  4. Dual power supply + UPS (eliminasi kegagalan 4)
  → Proyeksi: A = 99.999% setelah improvement

✓Latihan Soal — Sesi 3

■ PERTANYAAN 1 / 5

1. Sistem SCADA pembangkit listrik PLN memiliki data berikut: dalam 1 tahun (8760 jam) terjadi 2 kali kegagalan dengan total waktu perbaikan 8 jam. Berapakah MTBF sistem tersebut?

A 4380 jam

B 4376 jam

C 8752 jam

D 2920 jam

✓ Benar! MTBF = Total Uptime / Jumlah Kegagalan = (8760 - 8) / 2 = 8752 / 2 = 4376 jam. Jangan lupa kurangi total waktu downtime (8 jam) dari total jam untuk mendapat uptime.

■ PERTANYAAN 2 / 5

2. Jika MTBF sebuah PLC adalah 5000 jam dan MTTR-nya adalah 5 jam, berapakah availability-nya? (Pilih yang paling mendekati)

A 99.0% (Two Nines)

B 99.9% (Three Nines)

C 99.9% — tepatnya 99.900% (A = 5000/5005)

D 99.99% (Four Nines)

✓ Benar! A = MTBF / (MTBF + MTTR) = 5000 / (5000 + 5) = 5000 / 5005 = 0.999001 ≈ 99.900% — tepat di Three Nines. Downtime: 8760 × 0.001 ≈ 8.76 jam/tahun.

■ PERTANYAAN 3 / 5

3. Availability total sistem yang terdiri dari 2 SCADA server redundan (paralel) masing-masing dengan availability 99% adalah...

A 99% (sama saja)

B 99.99% (Four Nines)

C 98% (seri)

D 100% (selalu available)

✓ Benar! A_paralel = 1 - (1-0.99) × (1-0.99) = 1 - 0.01 × 0.01 = 1 - 0.0001 = 99.99%. Dua komponen 99% dalam paralel menghasilkan Four Nines — inilah kekuatan redundansi!

■ PERTANYAAN 4 / 5

4. Perbedaan utama antara Hot Standby dan Cold Standby pada sistem SCADA adalah...

A Hot Standby berada di gedung berbeda, Cold Standby di gedung yang sama

B Hot Standby berjalan penuh dan sinkron real-time (switchover detik), Cold Standby dalam kondisi mati dan butuh waktu lama untuk aktif

C Hot Standby lebih murah dari Cold Standby

D Cold Standby menggunakan hardware yang lebih canggih

✓ Benar! Hot Standby berjalan paralel dengan primary secara sinkron — switchover <1 detik. Cold Standby dalam kondisi mati/minimal — perlu di-boot, dikonfigurasi, dan sync data — bisa memakan waktu menit hingga jam. Hot Standby biayanya lebih mahal.

■ PERTANYAAN 5 / 5

5. Prinsip "fail-safe" dalam konteks Safety pada sistem SCADA berarti...

A Sistem tidak pernah mengalami kegagalan apapun

B Ketika terjadi kegagalan, sistem secara otomatis berpindah ke kondisi yang aman (misal: valve tutup, motor berhenti)

C Sistem harus terus berjalan meskipun ada komponen yang rusak

D Operator harus selalu hadir 24 jam untuk memantau sistem

✓ Benar! Fail-safe berarti: jika terjadi kegagalan (apapun penyebabnya — hardware, software, komunikasi, atau power), sistem secara default masuk ke kondisi yang paling aman secara fisik. Contoh: valve gas tekanan tinggi harus "normally closed" — gagal = tetap tertutup, bukan terbuka.

Konsep Ketahanan Sistem(Fault Tolerance) pada SCADA

Konsep Ketahanan Sistem
(Fault Tolerance) pada SCADA