Analisis Pengaruh Strategi Preprocessing terhadap Risiko Data Leakage dalam Pengembangan Model Machine Learning

YOSUA, Panky Bintang Pradana (2026) Analisis Pengaruh Strategi Preprocessing terhadap Risiko Data Leakage dalam Pengembangan Model Machine Learning. Skripsi thesis, Universitas Jenderal Soedirman.

[img] PDF (Cover)
COVER-Panky Bintang Pradana Yosua-H1D022077-SKRIPSI-2026.pdf

Download (187kB)
[img] PDF (Legalitas)
LEGALITAS-Panky Bintang Pradana Yosua-H1D022077-SKRIPSI-2026.pdf
Restricted to Repository staff only

Download (1MB)
[img] PDF (Abstrak)
ABSTRAK-Panky Bintang Pradana Yosua-H1D022077-SKRIPSI-2026.pdf

Download (247kB)
[img] PDF (BabI)
BAB I-Panky Bintang Pradana Yosua-H1D022077-SKRIPSI-2026.pdf
Restricted to Repository staff only until 26 January 2027.

Download (839kB)
[img] PDF (BabII)
BAB II-Panky Bintang Pradana Yosua-H1D022077-SKRIPSI-2026.pdf
Restricted to Repository staff only until 26 January 2027.

Download (578kB)
[img] PDF (BabIII)
BAB III-Panky Bintang Pradana Yosua-H1D022077-SKRIPSI-2026.pdf
Restricted to Repository staff only until 26 January 2027.

Download (381kB)
[img] PDF (BabIV)
BAB IV-Panky Bintang Pradana Yosua-H1D022077-SKRIPSI-2026.pdf
Restricted to Repository staff only

Download (1MB)
[img] PDF (BabV)
BAB V-Panky Bintang Pradana Yosua-H1D022077-SKRIPSI-2026.pdf

Download (247kB)
[img] PDF (DaftarPustaka)
DAFTAR PUSTAKA-Panky Bintang Pradana Yosua-H1D022077-SKRIPSI-2026.pdf

Download (248kB)

Abstract

Data leakage merupakan permasalahan metodologis yang sering terjadi pada pipeline machine learning, khususnya pada tahap preprocessing, dan berpotensi menginflasi performa model secara tidak valid. Penelitian ini menganalisis dampak strategi preprocessing terhadap risiko data leakage serta pengaruhnya terhadap evaluasi kinerja model pada tugas klasifikasi klinis. Pendekatan kuantitatif eksperimental diterapkan menggunakan dataset klinis pediatric appendicitis yang terdiri atas fitur numerik dan kategorikal. Dua skenario preprocessing dibandingkan, yaitu leakage-free pipeline, di mana pemisahan data dilakukan sebelum seluruh transformasi, dan leakage-prone pipeline, di mana preprocessing diterapkan sebelum data splitting. Tahapan yang dianalisis meliputi imputasi missing values, encoding fitur kategorikal, penanganan ketidakseimbangan kelas, seleksi fitur, dan feature scaling. Model Logistic Regression dan XGBoost dievaluasi menggunakan ROC-AUC sebagai metrik utama dan F1-score sebagai metrik klasifikasi pendukung. Hasil eksperimen menunjukkan bahwa skenario leakage menghasilkan nilai ROC-AUC test yang lebih tinggi, berada pada rentang 0,966–0,972, dibandingkan skenario leakage-free yang hanya mencapai 0,941–0,948. Selain itu, konfigurasi leakage juga menunjukkan nilai F1-score yang lebih tinggi (0,884–0,907) dibandingkan skenario leakage-free (0,802–0,834). Meskipun tampak unggul secara evaluasi, peningkatan performa pada skenario leakage tidak merefleksikan kemampuan generalisasi yang valid. Analisis lebih lanjut mengidentifikasi bahwa feature selection dan feature scaling yang dilakukan sebelum data splitting merupakan kontributor utama inflasi kinerja model. Temuan ini menegaskan pentingnya perancangan preprocessing pipeline yang ketat untuk memastikan evaluasi model machine learning yang valid dan andal secara ilmiah.

Item Type: Thesis (Skripsi)
Nomor Inventaris: H26024
Uncontrolled Keywords: data leakage, preprocessing pipeline, evaluasi machine learning, rocauc, f1-score klasifikasi medis
Subjects: D > D18 Data processing Information systems
Divisions: Fakultas Teknik > S1 Teknik Informatika
Depositing User: Mr Panky Bintang Pradana Yosua
Date Deposited: 26 Jan 2026 08:20
Last Modified: 26 Jan 2026 08:20
URI: http://repository.unsoed.ac.id:443/id/eprint/39209

Actions (login required)

View Item View Item