Optimalisasi Klasifikasi Diabetes menggunakan K-Nearest Neighbors (KNN) berbasis Feature Subset Non-Klinis
Kata Kunci:
Klasifikasi Diabetes,, K-Nearest Neighbor,, Feature Subset Non-Klinis,, Optimalisai Nilai K,Abstrak
Diabetes dapat diprediksi tidak hanya melalui check-up klinis seperti GDS dan GDP, tetapi juga melalui ciri-ciri non-klinis seperti usia, jenis kelamin, tingkat pendidikan, riwayat merokok, dan aktivitas fisik. Penelitian ini bertujuan membangun model klasifikasi untuk memprediksi risiko diabetes menggunakan feature non-klinis dengan algoritma K-Nearest Neighbor (KNN). Dataset yang digunakan, berisi enam feature kategorikal dan numerik, memerlukan tahap prapemrosesan. Data numerik (usia dan aktivitas fisik) dinormalisasi menggunakan Normalisasi Min-Max untuk mencapai rentang [0, 1]. Data kategorikal diproses menggunakan One-Hot Encoding (untuk gender) dan Ordinal Encoding (untuk tingkat pendidikan dan merokok) untuk mempertahankan urutan data.Model KNN dilatih dengan menguji nilai K ganjil dari 3 hingga 15. Untuk mengidentifikasi nilai K optimal, digunakan 10-Fold Cross-Validation. Hasil pengujian menunjukkan bahwa K=15 merupakan model optimal, mencapai Akurasi tertinggi sebesar 60,13% dan F1-Score sebesar 58,72%. Kinerja ini menegaskan bahwa K=15 memberikan keseimbangan terbaik dalam memprediksi risiko, dan nilai K yang lebih besar efektif dalam mengurangi dampak noise pada dataset non-klinis ini.
Referensi
[1] I. R. Putrie, I. C. Putri, F. Rahmah, S. Jesica, dan B. Hasanuddin, “FENOMENA DIABETES MELITUS BERDASARKAN USIA DAN JENIS,” Jurnal Kesehatan Tambusai, vol. 6, no. September, hlm. 12489–12498, 2025.
[2] Habibah Yulia Resti dan Widya Hary Cahyati, “Kejadian Diabetes Melitus pada Usia Produktif di Puskesmas Kecamatan Pasar Rebo,” HIGEIA Journal of Public Health Research and Development, vol. 6, no. 3, hlm. 350–361, 2022.
[3] M. H. Fauziyyah dan F. Utama, “Literature Review : Faktor-Faktor Yang Berhubungan,” Jurnal Kesehatan Masyarakat, vol. 8, no. April, hlm. 266–278, 2024.
[4] P. S. Nugroho dan Y. Sari, “Hubungan Tingkat Pendidikan dan Usia dengan Kejadian Hipertensi di Wilayah Kerja Puskesmas Palaran Tahun 2019,” Jurnal Dunia Kesmas, vol. 8, no. 4, hlm. 1–5, 2020, doi: 10.33024/jdk.v8i4.2261.
[5] A. Gunawan dan I. Fenriana, “Design of Diabetes Prediction Application Using K-Nearest Neighbor Algorithm,” bit-Tech, vol. 6, no. 2, hlm. 110–117, 2023, doi: 10.32877/bt.v6i2.939.
[6] H. A. Dwi Fasnuari, H. Yuana, dan M. T. Chulkamdi, “Penerapan Algoritma K-Nearest Neighbor (K-Nn) Untuk Klasifikasi Penyakit Diabetes Melitus Studi Kasus : Warga Desa Jatitengah,” Antivirus : Jurnal Ilmiah Teknik Informatika, vol. 16, no. 2, hlm. 133–142, 2022.
[7] “Automated and optimal encoding of text data features for machine learning models,” Sep 2018.
[8] S. Dwididanti dan D. A. Anggoro, “Analisis Perbandingan Algoritma Bisecting K-Means dan Fuzzy C-Means pada Data Pengguna Kartu Kredit,” Emitor: Jurnal Teknik Elektro, vol. 22, no. 2, hlm. 110–117, 2022, doi: 10.23917/emitor.v22i2.15677.
[9] C. Herdian, A. Kamila, dan I. G. Agung Musa Budidarma, “Studi Kasus Feature Engineering Untuk Data Teks: Perbandingan Label Encoding dan One-Hot Encoding Pada Metode Linear Regresi,” Technologia : Jurnal Ilmiah, vol. 15, no. 1, hlm. 93, 2024, doi: 10.31602/tji.v15i1.13457.
[10] E. Poslavskaya dan A. Korolev, “Encoding categorical data: Is there yet anything ‘hotter’ than one-hot encoding?,” ArXiv, 2023, [Daring]. Tersedia pada: http://arxiv.org/abs/2312.16930
[11] R. Rahim dan A. S. Ahmar, “Cross-Validation and Validation Set Methods for Choosing K in KNN Algorithm for Healthcare Case Study,” JINAV: Journal of Information and Visualization, vol. 3, no. 1, hlm. 57–61, 2022, doi: 10.35877/454ri.jinav1557.
[12] Z. D. R. Sari, J. Jasmir, dan Y. Arvita, “Penerapan Data Mining Untuk Prediksi Penyakit Diabetes Jurnal Informatika Dan Rekayasa Komputer ( JAKAKOM ),” Jurnal Informatika Dan Rekayasa Komputer (JAKAKOM), vol. 4, no. April, hlm. 827–834, 2024.
[13] I. D. S. Tarigan, Roni Habibi, dan Rd. Nuraini Siti Fatonah, “Evaluasi Algoritma Klasifikasi Machine Learning Kategori Nilai Akhir Tunjangan Kinerja Pegawai,” Jurnal Sistem Cerdas, vol. 6, no. 3, hlm. 251–261, 2023, doi: 10.37396/jsc.v6i3.246.
[14] “Diabetes Health Indicators Dataset.” Diakses: 18 Oktober 2025. [Daring]. Tersedia pada: https://www.kaggle.com/datasets/mohankrishnathalla/diabetes-health-indicators-dataset
[15] K. Zhang dkk., “Description-Enhanced Label Embedding Contrastive Learning for Text Classification,” IEEE Trans Neural Netw Learn Syst, vol. 35, no. 10, hlm. 14889–14902, 2024, doi: 10.1109/TNNLS.2023.3282020.
[16] K. Neighbor, “Optimasi Seleksi Fitur Information Gain pada Algoritma Naïve Bayes,” JISKA(Jurnal Informatika Sunan Kalijaga), vol. 7, no. 3, hlm. 237–255, 2022, [Daring]. Tersedia pada: https://doi.org/10.14421/jiska.2022.7.3.237-255
[17] D. Singh dan B. Singh, “Investigating the impact of data normalization on classification performance,” Appl Soft Comput, vol. 97, hlm. 105524, 2020, doi: 10.1016/j.asoc.2019.105524.
[18] R. S. Daulay, “Analisis Kritis dan Pengembangan Algoritma K-Nearest Neighbor (KNN): Sebuah Tinjauan Literatur,” Jurnal Pendidikan Sains dan Komputer, vol. 4, no. 02, hlm. 131–141, 2024, doi: 10.47709/jpsk.v4i02.5055.
[19] L. Nur Aziza, R. Yuli Astuti, B. Akbar Maulana, dan N. Hidayati, “Application of the K-Nearest Neighbor Algorithm for Food Security Classification in Central Java Province,” MALCOM: Indonesian Journal of Machine Learning and Computer Science Journal, vol. 4, no. 2, hlm. 404–412, 2024, [Daring]. Tersedia pada: https://journal.irpi.or.id/index.php/malcom/article/download/1201/553
[20] I. Arora, N. Khanduja, dan M. Bansal, “Effect of Distance Metric and Feature Scaling on KNN Algorithm while Classifying X-rays,” CEUR Workshop Proc, vol. 3176, hlm. 61–75, 2022.
[21] Y. N. FUADAH, I. D. UBAIDULLAH, N. IBRAHIM, F. F. TALININGSING, N. K. SY, dan M. A. PRAMUDITHO, “Optimasi Convolutional Neural Network dan K-Fold Cross Validation pada Sistem Klasifikasi Glaukoma,” ELKOMIKA: Jurnal Teknik Energi Elektrik, Teknik Telekomunikasi, & Teknik Elektronika, vol. 10, no. 3, hlm. 728, 2022, doi: 10.26760/elkomika.v10i3.728.
[22] W. Wijiyanto, A. I. Pradana, S. Sopingi, dan V. Atina, “Teknik K-Fold Cross Validation untuk Mengevaluasi Kinerja Mahasiswa,” Jurnal Algoritma, vol. 21, no. 1, hlm. 239–248, 2024, doi: 10.33364/algoritma/v.21-1.1618.
[23] Pristian Luthfy Romadloni, Bagus Adhi Kusuma, dan Wiga Maulana Baihaqi, “Komparasi Metode Pembelajaran Mesin Untuk Implementasi Pengambilan Keputusan Dalam Menentukan Promosi Jabatan Karyawan,” JATI (Jurnal Mahasiswa Teknik Informatika), vol. 6 No. 2, no. 2, hlm. 622–628, 2022.
[24] P. Christen, D. J. Hand, dan N. Kirielle, “A Review of the F-Measure: Its History, Properties, Criticism, and Alternatives,” ACM Comput Surv, vol. 56, no. 3, 2024, doi: 10.1145/3606367.
[25] N. T. Ujianto, Gunawan, H. Fadillah, A. P. Fanti, A. D. Saputra, dan I. G. Ramadhan, “Penerapan algoritma K-Nearest Neighbors (KNN) untuk klasifikasi citra medis,” IT-Explore: Jurnal Penerapan Teknologi Informasi dan Komunikasi, vol. 4, no. 1, hlm. 33–43, 2025, doi: 10.24246/itexplore.v4i1.2025.pp33-43.
Unduhan
Diterbitkan
Terbitan
Bagian
Lisensi
Hak Cipta (c) 2025 David Thanlian Kurniawan (Author)

Artikel ini berlisensiCreative Commons Attribution-ShareAlike 4.0 International License.
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.








