■ SESI 13 — KULIAH TEORI

Business Continuity Planning &
Disaster Recovery untuk SCADA/ICS

Perancangan dan implementasi rencana keberlangsungan bisnis (BCP) dan pemulihan bencana (DRP) khusus untuk sistem industri. Meliputi Business Impact Analysis (BIA), penetapan RTO/RPO, strategi backup konfigurasi PLC, dan prosedur failover yang aman untuk infrastruktur kritis.

BCP / DRPBIA — BUSINESS IMPACT ANALYSIS RTO / RPOHOT / WARM / COLD STANDBY BACKUP PLC CONFIGFAILOVER OTTABLETOP EXERCISE

KONTEN SESI

13.1

BCP vs DRP — Perbedaan & Hubungan

13.2

Business Impact Analysis ICS

13.3

RTO dan RPO untuk Sistem OT

13.4

Strategi Backup Konfigurasi OT

13.5

Site Recovery: Hot/Warm/Cold

13.6

Prosedur Failover yang Aman

13.7

Tabletop Exercise & Drills

✓

Latihan Soal

13.1BCP vs DRP — Perbedaan dan Hubungan

BCP (Business Continuity Plan) dan DRP (Disaster Recovery Plan) adalah dua dokumen berbeda namun saling melengkapi. Keduanya wajib dimiliki oleh operator infrastruktur kritis sesuai regulasi Indonesia (PP 82/2012 dan Perpres 82/2022).

ASPEK	BCP — BUSINESS CONTINUITY PLAN	DRP — DISASTER RECOVERY PLAN
Fokus	Keberlangsungan operasi bisnis/layanan selama gangguan	Pemulihan sistem teknis (IT/OT) setelah bencana
Scope	Seluruh organisasi: proses, orang, fasilitas, komunikasi	Sistem teknologi: server, jaringan, SCADA, database
Pertanyaan utama	"Bagaimana layanan tetap berjalan saat sistem down?"	"Bagaimana sistem dipulihkan ke kondisi normal?"
Contoh aksi ICS	Jalankan proses manual (operator valve fisik), pengurangan kapasitas, komunikasi ke pelanggan	Restore SCADA dari backup, rebuild HMI, restore konfigurasi PLC
Waktu berlaku	Aktif saat insiden terjadi hingga sistem pulih	Aktif setelah keputusan disaster declaration hingga full restore
Owner	Plant Manager / COO / Business Continuity Manager	IT/OT Manager / Technical Recovery Team

📌 SKENARIO KHAS: RANSOMWARE DI SCADA INFRASTRUKTUR LISTRIK

BCP aktif saat itu juga: Operator beralih ke kontrol manual panel lokal, komunikasi ke BUMN induk bahwa kapasitas berkurang, PLN mengaktifkan supply cadangan dari pembangkit lain, notifikasi ke konsumen prioritas.
DRP aktif paralel: Tim teknis restore SCADA server dari clean backup, rebuild HMI workstation, restore konfigurasi PLC dari backup offline, validasi integritas sebelum kembali online.
Target: BCP memastikan listrik tetap menyala (degraded capacity). DRP memastikan SCADA pulih penuh dalam RTO yang ditetapkan.

13.2Business Impact Analysis (BIA) untuk Sistem ICS

BIA adalah proses mengidentifikasi fungsi bisnis kritis dan menentukan dampak kuantitatif dari gangguan pada masing-masing fungsi. Hasil BIA menjadi dasar penetapan prioritas pemulihan dan investasi continuity.

Untuk ICS, BIA harus memasukkan dimensi yang tidak ada di IT biasa: dampak keselamatan, lingkungan, dan layanan publik — bukan hanya finansial.

SISTEM / FUNGSIMTPDRTORPOCRITICALITYDAMPAK JIKA GAGAL

Sistem kontrol turbin PLTU 15 menit 10 menit 0 detik KRITIS-1 Blackout, kerusakan turbin Rp 50M+, potensi ledakan

Sistem dosis klorin PDAM 30 menit 20 menit 5 menit KRITIS-1 Air tidak aman dikonsumsi, potensi wabah penyakit

SCADA distribusi gas alam 1 jam 30 menit 5 menit KRITIS-1 Gangguan pasokan industri, risiko kebocoran/ledakan

HMI monitoring proses 4 jam 2 jam 1 jam KRITIS-2 Operator buta — harus switch ke panel lokal manual

Process Historian / logging 8 jam 4 jam 1 jam PENTING Kehilangan data historis, masalah compliance audit

Sistem laporan manajemen SCADA 72 jam 24 jam 8 jam NORMAL Laporan terlambat — tidak ada dampak operasional langsung

MTPD = Maximum Tolerable Period of Disruption | RTO = Recovery Time Objective | RPO = Recovery Point Objective

13.3RTO dan RPO — Konsep dan Penerapan di Sistem OT

RTO (Recovery Time Objective) adalah waktu maksimum yang dapat ditoleransi dari saat gangguan hingga sistem kembali beroperasi. RPO (Recovery Point Objective) adalah toleransi kehilangan data — berapa lama data yang boleh hilang.

◈ VISUALISASI RTO DAN RPO ◈

OPERASI NORMAL

💥

SISTEM DOWN / DEGRADED

PEMULIHAN

T-∞ ← RPO → T=0 (Disaster) ← RTO → Full Recovery

RPO

≤ 5 min

Toleransi kehilangan data untuk sistem kontrol kritis (setpoint, alarm)

RTO

≤ 30 min

Waktu maksimum downtime sistem SCADA infrastruktur kritis

MTPD

≤ 1 jam

Batas maksimum operasi manual sebelum dampak permanen tidak dapat dihindari

⚠ RTO ICS JAUH LEBIH KETAT DARI IT BIASA

Sistem SCADA infrastruktur kritis memiliki RTO yang sangat pendek karena proses fisik terus berjalan. Turbin PLTU tidak bisa "pause" menunggu sistem SCADA dipulihkan — operator harus beralih ke kontrol manual dalam menit, bukan jam. Ini berarti strategi recovery harus benar-benar dipersiapkan dan diuji, bukan hanya terdokumentasi.

TIPE SISTEM OT	RTO TIPIKAL	RPO TIPIKAL	JUSTIFIKASI
Sistem kontrol safety (SIS/ESD)	≤ 1 menit	0 (no data loss)	Kegagalan SIS saat proses tidak aman = bencana
Kontrol proses utama (PLC/DCS)	≤ 10 menit	≤ 1 menit	Proses berlanjut di manual, tapi terbatas kapasitas
SCADA / HMI operator	≤ 2 jam	≤ 15 menit	Operator bisa kerja manual sementara
Historian / reporting	≤ 8 jam	≤ 1 jam	Dampak terbatas pada compliance dan analisis
Sistem bisnis (ERP, billing)	≤ 24 jam	≤ 4 jam	Tidak ada dampak operasional langsung

13.4Strategi Backup Konfigurasi OT

Backup konfigurasi OT adalah fondasi DRP. Tanpa backup yang valid dan teruji, recovery tidak mungkin dilakukan dalam RTO yang ditetapkan. Backup OT mencakup lebih dari sekadar data — juga program PLC, konfigurasi HMI, dan parameter proses.

STRATEGI BACKUP KONFIGURASI OT — KOMPREHENSIF

APA YANG HARUS DI-BACKUP (OT-SPECIFIC):

  PLC / RTU / IED:
    ✓ Program ladder logic / function block / structured text
    ✓ Data blocks (konfigurasi parameter, setpoint default)
    ✓ Hardware configuration (GSD, rack, module layout)
    ✓ Firmware version + hash (untuk deteksi modifikasi)
    ✓ IP address, node ID, Profibus address

  HMI / SCADA Server:
    ✓ Project file SCADA (WinCC, iFIX, Ignition, Wonderware)
    ✓ Tag database dan alarm configuration
    ✓ Graphic screens / faceplates
    ✓ User accounts dan RBAC configuration
    ✓ OS image (system state backup) — untuk rapid restore

  Jaringan OT:
    ✓ Konfigurasi firewall (rules, policies, objects)
    ✓ Switch configuration (VLAN, ACL, port config)
    ✓ Router / managed switch config
    ✓ Network diagram terkini (as-built)

ATURAN BACKUP 3-2-1 (ADAPTASI UNTUK OT):
  3 salinan backup (1 aktif + 2 backup)
  2 media berbeda (HDD + USB terenkripsi / tape)
  1 salinan offsite/offline — tidak terhubung ke jaringan OT
  +1 salinan immutable — tidak bisa diubah/dihapus (WORM media)

JADWAL BACKUP YANG DIREKOMENDASIKAN:
  PLC program         : Setiap kali ada perubahan program + bulanan otomatis
  SCADA project       : Setiap kali ada perubahan + mingguan otomatis
  OS image HMI        : Bulanan atau setelah patch/update mayor
  Konfigurasi jaringan: Setiap kali ada perubahan + mingguan
  Historian database  : Harian (incremental) + bulanan (full)

VERIFIKASI BACKUP (KRITIS!):
  ✓ Test restore ke environment lab setiap kuartal
  ✓ Hash verification setiap backup selesai
  ✓ Enkripsi backup (AES-256) — backup plaintext = risiko exfiltration
  ✓ Catat versi yang di-backup — jangan restore versi yang salah

13.5Strategi Site Recovery: Hot, Warm, dan Cold Standby

Pemilihan strategi recovery site ditentukan oleh RTO yang ditetapkan dalam BIA. Semakin pendek RTO, semakin mahal biaya infrastruktur yang dibutuhkan.

TIER 1 — RTO < 15 MENIT

Hot Standby Site

Karakteristik:
• Sistem identik berjalan paralel
• Data sync real-time (mirroring)
• Failover otomatis atau 1-click
• Operator bisa langsung switch

Cocok untuk:
Sistem kontrol kritis: SIS, DCS, SCADA distribusi listrik

Biaya: Sangat tinggi (2x infrastruktur)

TIER 2 — RTO 1–8 JAM

Warm Standby Site

Karakteristik:
• Hardware tersedia, software terinstal
• Data sync periodik (tiap 15-60 menit)
• Perlu konfigurasi manual sebelum aktif
• Failover manual oleh tim teknis

Cocok untuk:
SCADA server, HMI operator, Historian

Biaya: Sedang-tinggi

TIER 3 — RTO 8–72 JAM

Cold Standby Site

Karakteristik:
• Ruang dan utilitas tersedia
• Hardware perlu diadakan/dikirim
• Install dari awal dengan backup
• Membutuhkan waktu signifikan

Cocok untuk:
Sistem non-kritis, reporting, billing

Biaya: Relatif rendah

ℹ️ HOT STANDBY UNTUK SISTEM KONTROL KRITIS — TEKNIK IMPLEMENTASI

Untuk sistem kontrol proses yang memerlukan RTO <15 menit, hot standby biasanya diimplementasikan dengan redundant PLC controller (misalnya Siemens S7-400H atau Schneider Quantum Hot Standby) yang berjalan dalam mode sinkron. Saat primary controller gagal, secondary mengambil alih dalam <1 scan cycle (~10ms) tanpa gangguan proses. Ini berbeda dari hot standby site-level yang membutuhkan failover menit-an.

13.6Prosedur Failover yang Aman untuk Sistem ICS

Failover pada ICS harus dieksekusi dengan hati-hati. Berbeda dari IT, perpindahan traffic ke server backup bisa dilakukan transparan — di ICS, perpindahan kendali proses dari primary ke backup harus dikoordinasikan dengan operator dan divalidasi sebelum dan sesudah.

PROSEDUR FAILOVER SCADA SERVER — WARM STANDBY

KONDISI: SCADA Primary Server gagal / dikompromis
TARGET: Aktifkan Warm Standby dalam RTO 2 jam

PRE-FAILOVER CHECKLIST:
  □ Konfirmasi Primary Server memang gagal (bukan false alarm)
  □ Notifikasi Plant Manager dan Safety Officer
  □ Pastikan semua operator tahu akan ada transisi HMI
  □ Pastikan proses dalam kondisi stabil sebelum switch
  □ Verifikasi backup terbaru tersedia di Warm Standby Server

LANGKAH FAILOVER (harus dilakukan berurutan):

  T+0 — ISOLASI PRIMARY
  1. Putus Primary Server dari jaringan OT (jika dikompromis)
  2. Dokumentasikan waktu failover dimulai

  T+10 — RESTORE BACKUP KE WARM STANDBY
  3. Restore SCADA project dari backup terakhir yang verified clean
  4. Verifikasi hash backup sebelum restore
  5. Restore user database dan RBAC config
  6. Verifikasi koneksi ke PLC/RTU dari Warm Standby Server

  T+60 — VALIDASI SEBELUM GO-LIVE
  7. Engineer OT verifikasi semua tag terhubung dan nilai benar
  8. Uji alarm: trigger test alarm, pastikan muncul di HMI baru
  9. Uji kontrol: kirim perintah test ke I/O non-kritis, verifikasi respons
  10. Sign-off dari Plant Manager sebelum operator mulai gunakan

  T+90 — OPERASI DARI WARM STANDBY
  11. Operator shift beralih ke HMI baru
  12. Monitoring intensif 4 jam pertama
  13. Catat semua anomali untuk investigasi

YANG HARUS DIHINDARI:
  ✗ Restore backup tanpa verifikasi integritas (bisa restore malware)
  ✗ Go-live tanpa sign-off operator dan engineering
  ✗ Failover saat proses dalam kondisi tidak stabil

13.7Tabletop Exercise dan Drills — Uji Kesiapan BCP/DRP

BCP/DRP yang tidak pernah diuji sama dengan tidak punya BCP/DRP. Dokumen yang bagus tidak berguna jika tim tidak pernah mempraktikkannya. Setidaknya satu kali setahun harus dilakukan exercise untuk setiap level kritis.

TIPE EXERCISE	DESKRIPSI	PESERTA	FREKUENSI
Tabletop Exercise	Diskusi skenario di ruang rapat. Tim mendiskusikan respons terhadap skenario insiden tanpa aksi nyata. Murah dan efektif untuk mengidentifikasi gap prosedur.	Semua tim (IT, OT, Safety, Manajemen)	2x per tahun
Walk-through Drill	Tim walkthrough setiap langkah prosedur secara verbal dan fisik — tanpa benar-benar mengeksekusi. Verifikasi bahwa prosedur masuk akal secara teknis.	Tim teknis OT + IT	1x per tahun
Functional Exercise	Simulasi penuh di lab/test environment. Benar-benar eksekusi failover ke sistem backup di environment non-produksi untuk validasi teknis.	Tim IT + OT teknis	1x per tahun
Full-scale Drill	Simulasi nyata di produksi — planned maintenance window. Benar-benar failover ke warm/cold standby, ukur RTO aktual vs target.	Semua tim + manajemen	1x per 2 tahun

CONTOH SKENARIO TABLETOP — INFRASTRUKTUR LISTRIK

SKENARIO: "OPERATION DARK GRID"

Inject 1 (T=0):
  NOC menerima laporan: beberapa RTU substation tidak merespons.
  SIEM alert: multiple failed login ke SCADA server dari IP asing.
  → Pertanyaan: Langkah pertama? Siapa yang dihubungi? Triage severity?

Inject 2 (T+20 menit):
  Konfirmasi: SCADA server terinfeksi ransomware. File SCADA di-encrypt.
  2 unit pembangkit tidak bisa dikontrol dari SCADA.
  → Pertanyaan: Apakah BCP diaktifkan? Bagaimana komunikasi ke operator manual?

Inject 3 (T+45 menit):
  Media memberitakan "sistem listrik Kota X terganggu."
  Pelanggan industri menelpon menanyakan kapan normal.
  → Pertanyaan: Siapa yang bicara ke media? Apa yang boleh diungkap?

Inject 4 (T+2 jam):
  Tim berhasil restore SCADA dari backup ke warm standby server.
  Tapi backup berumur 6 jam — data setpoint terbaru hilang.
  → Pertanyaan: Bagaimana validasi setpoint sebelum kembali online? Siapa yang sign-off?

PERTANYAAN EVALUASI AKHIR:
  1. Berapa RTO aktual vs target?
  2. Gap prosedur apa yang ditemukan?
  3. Komunikasi mana yang tidak berjalan baik?
  4. Apa yang perlu diperbaiki dalam BCP/DRP?

✓Latihan Soal — Sesi 13

■ PERTANYAAN 1 / 5

1. Apa perbedaan utama antara BCP (Business Continuity Plan) dan DRP (Disaster Recovery Plan)?

ABCP dan DRP adalah istilah berbeda untuk dokumen yang sama

BBCP fokus pada keberlangsungan operasi bisnis/layanan selama gangguan (termasuk mode manual), sementara DRP fokus pada pemulihan sistem teknologi (IT/OT) ke kondisi normal

CBCP hanya untuk bencana alam, DRP hanya untuk serangan siber

DDRP dibuat oleh tim IT, BCP dibuat oleh tim OT

✓ Benar! BCP menjawab "bagaimana layanan tetap berjalan?" (termasuk operasi manual, pengurangan kapasitas, komunikasi ke stakeholder). DRP menjawab "bagaimana sistem teknis dipulihkan?" (restore server, rebuild HMI, restore konfigurasi PLC). Keduanya aktif bersamaan saat bencana — BCP memastikan layanan tidak terputus total sementara DRP bekerja untuk pemulihan penuh.

■ PERTANYAAN 2 / 5

2. RPO (Recovery Point Objective) pada konteks sistem ICS mengacu pada...

AWaktu maksimum yang dibutuhkan untuk memulihkan sistem ke kondisi operasional

BToleransi kehilangan data — berapa lama data boleh hilang saat recovery. RPO 5 menit berarti maksimum kehilangan data 5 menit terakhir sebelum disaster.

CTitik dalam arsitektur jaringan di mana recovery dimulai

DJumlah minimum staf yang harus hadir saat proses recovery

✓ Benar! RPO mendefinisikan seberapa sering backup harus dilakukan. RPO = 5 menit artinya backup harus dilakukan setiap 5 menit (atau kurang) agar kehilangan data tidak melebihi 5 menit. Untuk sistem kontrol kritis ICS, RPO bisa mendekati 0 (memerlukan mirroring real-time), karena kehilangan data setpoint/konfigurasi dapat berbahaya saat proses dilanjutkan.

■ PERTANYAAN 3 / 5

3. Mengapa backup konfigurasi PLC harus disimpan dalam kondisi OFFLINE dan terenkripsi?

AKarena penyimpanan online terlalu mahal untuk backup PLC

BBackup offline mencegah backup ikut terenkripsi saat ransomware menyerang, dan enkripsi mencegah attacker mendapatkan program PLC (yang bisa digunakan untuk reverse-engineer proses atau merencanakan serangan)

CRegulasi IEC 62443 mewajibkan backup offline untuk semua sistem OT

DBackup offline lebih cepat diakses saat proses recovery

✓ Benar! Dua alasan kritis: (1) Ransomware modern mencari semua drive yang terhubung ke jaringan — backup online akan ikut di-encrypt, membuat recovery tidak mungkin. Backup offline/air-gapped tidak bisa dijangkau ransomware; (2) Program PLC mengandung intellectual property dan informasi detail proses industri — enkripsi mencegah exfiltration yang bisa digunakan attacker untuk merencanakan sabotase lebih efektif.

■ PERTANYAAN 4 / 5

4. Strategi recovery site manakah yang tepat untuk sistem SCADA dengan RTO 30 menit?

ACold Standby — ruang kosong dengan hardware yang perlu diadakan

BHot Standby — sistem identik berjalan paralel dengan data sync real-time, failover dapat dilakukan dalam menit

CWarm Standby — hardware siap tapi perlu restore backup manual 1-2 jam

DCloud backup — restore dari cloud dalam 4-8 jam

✓ Benar! RTO 30 menit membutuhkan Hot Standby: sistem yang sudah berjalan dengan data terkini. Warm Standby membutuhkan 1-8 jam untuk restore dan konfigurasi, Cold Standby bahkan lebih lama. Hot Standby mahal (duplikasi infrastruktur penuh) tapi satu-satunya cara memenuhi RTO yang sangat pendek untuk sistem kritis. Contoh: redundant DCS controller yang sync setiap scan cycle.

■ PERTANYAAN 5 / 5

5. Mengapa uji coba (exercise/drill) BCP/DRP harus dilakukan secara berkala, bukan hanya disimpan sebagai dokumen?

AKarena regulasi ISO 22301 mewajibkan frekuensi drill tertentu

BKarena BCP/DRP yang tidak diuji tidak bisa diandalkan — prosedur mungkin tidak akurat setelah perubahan sistem, tim mungkin tidak familiar, dan RTO aktual mungkin jauh melebihi target yang ditetapkan

CKarena drill adalah cara terbaik melatih karyawan baru

DKarena asuransi siber mensyaratkan bukti drill untuk klaim

✓ Benar! BCP/DRP adalah dokumen "hidup" yang harus divalidasi secara berkala karena: (1) Sistem berubah — prosedur yang ditulis 2 tahun lalu mungkin mengacu software/hardware yang sudah diganti; (2) Tim berputar — orang baru tidak mengenal prosedur; (3) RTO aktual sering berbeda dari estimasi awal — hanya drill yang membuktikan apakah 30 menit benar-benar achievable; (4) Gap prosedur hanya terlihat saat dipraktikkan, bukan saat dibaca.

← SESI 12

SESI 13 / 16 — BCP & DRP UNTUK SCADA/ICS

SESI 14 →

Business Continuity Planning &Disaster Recovery untuk SCADA/ICS

Business Continuity Planning &
Disaster Recovery untuk SCADA/ICS