Implementasi Chi-Square dan Oversampling Pada Klasifikasi Kesehatan Janin dengan Support Vector Machine
DOI:
https://doi.org/10.15575/telka.v11n3.327-337Kata Kunci:
Cardiotocography (CTG), Chi-Square, SMOTE, SVMAbstrak
Pemantauan kesehatan janin menjadi aspek penting karena hal tersebut merupakan bentuk antisipasi terkait deteksi potensi patologis yang berkemungkinan membahayakan janin maupun ibu hamil. Sebagaimana dilansir dalam website resmi UNICEF, setidaknya terdapat 2,3 juta bayi meninggal pada bulan pertama kelahiran dengan 90% dari total keseluruhan merupakan kasus kematian bayi didalam kandungan pada masa kehamilan diatas 20 minggu. Selain membahayakan bayi, kesehatan janin juga berdampak pada keselamatan ibu hamil. Oleh karena itu, perlu dilakukan suatu usaha mitigasi resiko guna memperkecil potensi kematian janin dengan mendeteksi kesehatan janin dengan melakukan klasifikasi dengan algoritma SVM. Data yang digunakan pada penelitian ini adalah hasil pemeriksaan kandungan berupa data cardiotocography, berisikan 2126 data yang berisikan 21 fitur yang terkategorikan menjadi 3 kelas yaitu 1665 normal, 295 kelas suspect dan 176 kelas pathologic. Berdasarkan perbedaan yang cukup signifikan pada jumlah data ditiap kelas, dilakukan balancing data dengan metode Synthetic Minority Over-Sampling Technique (SMOTE). Selain itu, dilakukan seleksi fitur dengan menggunakan Chi-Square pada 21 fitur yang kemudian didapati 12 fitur terpilih untuk diklasifikasikan menggunakan algoritma SVM. Skema klasifikasi dilakukan dengan beberapa tahapan, dan didapati bahwa penambahan seleksi fitur Chi-Square dan SMOTE berhasil meningkatkan akurasi klasifikasi menjadi 98%, dengan nilai presicion sebesar 99%, recall 98% dan F-1 Score sebesar 98%.
Fetal health monitoring is an important aspect because it forms for detect potential pathologies that may endanger fetus and pregnant mother. As reported on UNICEF, at least 2.3 million babies die in the first month of birth with 90% of the total being cases of intrauterus fetal death. In addition to endangering the baby, fetal health also has an impact on pregnant mother. As an effort to minimize the potential and risk of fetal death, is classify the health status of the fetus using the SVM algorithm. The data used in this study are gynecological results in the field of cardiotocography data, containing 2126 data that have been categorized into 3 classes, namely normal, suspect and pathologic classes. Cardiotocography data in this study was included 2,126 observations distributed across 21 features grouped into three categories: 1,665 normal, 295 suspect, and 176 pathological. Given the significant variation in the number of observations across each category, a data balancing technique, known as the Synthetic Minority Over-Sampling Technique (SMOTE), was employed to address this imbalance. Furthermore, a feature selection process was implemented, employing the Chi-Square method on the 21 features. This method identified 12 features that were subsequently classified using the SVM algorithm. The classification scheme was executed in multiple stages, and it was observed that the incorporation of both Chi-Square and SMOTE feature selection led to a substantial enhancement in classification accuracy, reaching 98%, accompanied by a 99% precision value, 98% recall, and an 98% F-1 score.
Referensi
WHO, “ World Birth Defects Day: Many birth defects, one voice,” WHO. Accessed: Dec. 11, 2024. [Online]. Available: https://www.who.int/southeastasia/news/detail/02-03-2023-world-birth-defects-day-many-birth-defects-one-voice
KEMENKES, Profil Kesehatan Indonesia 2022. Jakarta, 2022. Accessed: Jan. 01, 2025. [Online]. Available: https://kemkes.go.id/id/profil-kesehatan-indonesia-2022
F. Pamungkas and I. Kharisudin, “Analisis Sentimen dengan SVM, NAIVE BAYES dan KNN untuk Studi Tanggapan Masyarakat Indonesia Terhadap Pandemi Covid-19 pada Media Sosial Twitter”, prisma, vol. 4, pp. 628-634, Feb. 2021.
N. G. Ramadhan and A. Khoirunnisa, “Klasifikasi Data Malaria Menggunakan Metode Support Vector Machine,” Jurnal Media Informatika Budidarma, vol. 5, no. 4, p. 1580, 2021, doi: 10.30865/mib.v5i4.3347.
A. Desiani et al., “Penerapan Metode Support Vector Machine Dalam Klasifikasi Bunga Iris,” Indonesian Journal of Applied Informatics, vol. 7, no. 1, p. 12, Apr. 2023, doi: 10.20961/ijai.v7i1.61486.
D. Margarita, H. Maulana, E.P.Madyartha, “Klasifikasi Penyakit Daun Padi Menggunakan Support Vector Machine Berdasarkan Fitur Mendalam (Deep Feature),” JIPI (Jurnal Ilmiah Penelitian dan Pembelajaran Informatika), vol. 9, no. 4, pp. 2256–2270, 2024, doi: 10.29100/jipi.v9i4.5634.
E. Rizqi Mar’atus Sholiihah, I. G. Susrama Mas Diyasa, and E. Yulia Puspaningrum, “Perbandingan Kinerja Kernel Linear dan RBF Support Vector Machine Untuk Analisis Sentimen Ulasan Pengguna KAI Acces Pada Google Play Store,” JATI (Jurnal Mahasiswa Teknik Informatika), vol. 8, no. 1, pp. 728–733, Mar. 2024, doi: 10.36040/jati.v8i1.8800.
M. R. Santoso and P. Musa, “Rekomendasi Kesehatan Janin Dengan Penerapan Algoritma C5.0 Menggunakan Classifying Cardiotocography Dataset,” Jurnal Simantec, vol. 9, no. 2, pp. 65–76, Jun. 2021, doi: 10.21107/simantec.v9i2.10730.
N. Rahmayanti, H. Pradani, M. Pahlawan, and R. Vinarti, “Comparison Of Machine Learning Algorithms To Classify Fetal Health Using Cardiotocogram Data,” Procedia Comput Sci, vol. 197, pp. 162–171, 2022, doi: 10.1016/j.procs.2021.12.130.
D. Elreedy, A. F. Atiya, and F. Kamalov, “A Theoretical Distribution Analysis Of Synthetic Minority Oversampling Technique (SMOTE) For Imbalanced Learning,” Mach Learn, vol. 113, no. 7, pp. 4903–4923, Jul. 2024, doi: 10.1007/s10994-022-06296-4.
E. Sutoyo, M. Asri Fadlurrahman, J. Telekomunikasi Jl Terusan Buah Batu, K. Dayeuhkolot, K. Bandung, and J. Barat, “Penerapan SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Television Advertisement Performance Rating Menggunakan Artificial Neural Network,” JEPIN (Jurnal Edukasi dan Penelitian Informatika), vol. 6, pp. 379–385, Dec. 2020.
O. Siboro, Y. Pricilia Banjarnahor, A. Gultom, N. Antonius Siagian, and P. D. Silitonga, “Penanganan Data Ketidakseimbangan dalam Pendekatan SMOTE Guna Meningkatkan akurasi Algoritma K-NN in SNISTIK :Seminar Nasional Inovasi Sains Teknologi Informasi Komputer, Medan, 2024.
O. Somantri, W. E. Nugroho, and A. R. Supriyono, “Penerapan Feature Selection Pada Algoritma Decision Tree Untuk Menentukan Pola Rekomendasi Dini Konseling,” Jurnal Sistem Komputer dan Informatika (JSON), vol. 4, no. 2, p. 272, Dec. 2022, doi: 10.30865/json.v4i2.5267.
W. B. Santosa, A. Syukur, and P. Purwanto, “Pemilihan Fitur Menggunakan Algoritma Chi-Square Dan Particle Swarm Optimization (PSO) Untuk Meningkatkan Kinerja Deep Neural Network Pada Deteksi Penyakit Diabetes,” Jurnal Media Informatika Budidarma, vol. 8, no. 1, p. 488, Jan. 2024, doi: 10.30865/mib.v8i1.7277.
T. Ernayanti, M. Mustafid, A. Rusgiyono, and A. R. Hakim, “Penggunaan Seleksi Fitur Chi-Square dan Algoritma Multinomial Naive Bayes Untuk Analisis Sentimen Pelanggan Tokopedia,” Jurnal Gaussian, vol. 11, no. 4, pp. 562–571, Feb. 2023, doi: 10.14710/j.gauss.11.4.562-571.
A. Rahmadeyan and M. Mustakim, “Seleksi Fitur pada Supervised Learning: Klasifikasi Prestasi Belajar Mahasiswa Saat dan Pasca Pandemi COVID-19,” Jurnal Nasional Teknologi dan Sistem Informasi, vol. 9, no. 1, pp. 21–32, May 2023, doi: 10.25077/teknosi.v9i1.2023.21-32.
M. Sholeh, D. Andayati, and Rr. Y. Rachmawati, “Data Mining Model Klasifikasi Menggunakan Algoritma K-Nearest Neighbor Dengan Normalisasi Untuk Prediksi Penyakit Diabetes,” TeIKa, vol. 12, no. 02, pp. 77–87, Oct. 2022, doi: 10.36342/teika.v12i02.2911.
V. Putri, “Normalisasi Data Dengan Menggunakan Model Min Max Untuk Klasifikasi Nasabah Potensial Pada Bidang Pembelian Properti Menggunakan Algoritma K-Nearest Neighbor,” Informasi dan Teknologi Ilmiah (INTI), pp. 111–119, Jun. 2024.
C. Agustina and E. Rahmawati, “Optimalisasi Algoritma Random Forest Menggunakan SMOTE untuk Prediksi Pembatalan Tamu Hotel,” Jurnal Sains dan Manajemen, vol. 12, no. 2, 2024.
A. A. Arifiyanti and E. D. Wahyuni, “Smote: Metode Penyeimbang Kelas Pada Klasifikasi Data Mining,” SCAN - Jurnal Teknologi Informasi dan Komunikasi, vol. 15, no. 1, pp. 34–39, 2020, doi: 10.33005/scan.v15i1.1850.
C. Chairunnisa, I. Ernawati, and M. M. Santoni, “Klasifikasi Sentimen Ulasan Pengguna Aplikasi PeduliLindungi di Google Play Menggunakan Algoritma Support Vector Machine dengan Seleksi Fitur Chi-Square,” Informatik : Jurnal Ilmu Komputer, vol. 18, no. 1, p. 69, Aug. 2022, doi: 10.52958/iftk.v17i4.4594.
S. Taliki, I. C. R. Drajana, and A. Bode, “Support Vector Machine Berbasis Chi Square Untuk Prediksi Harga Beras Ecer Kabupaten Pohuwato,” Journal Of Science And Social Research, vol. 5, no. 2, p. 436, Jul. 2022, doi: 10.54314/jssr.v5i2.899.
K. Pal and Biraj. V. Patel, “Data Classification with k-fold Cross Validation and Holdout Accuracy Estimation Methods with 5 Different Machine Learning Techniques,” in 2020 Fourth International Conference on Computing Methodologies and Communication (ICCMC), IEEE, Mar. 2020, pp. 83–87. doi: 10.1109/ICCMC48092.2020.ICCMC-00016.
S. N. Aisah, Dian Candra Rini Novitasari, and Y. Farida, “Perbandingan Metode Extreme Learning Machine (ELM) dan Kernel Extreme Learning Machine (KELM) Pada Klasifikasi Penyakit Cedera Panggul,” Jurnal Fourier, vol. 12, no. 2, pp. 69–78, Oct. 2023, doi: 10.14421/fourier.2023.122.69-78.
Y. Widyaningsih, G. P. Arum, and K. Prawira, “Aplikasi K-Fold Cross Validation Dalam Penentuan Model Regresi Binomial Negatif Terbaik,” BAREKENG: Jurnal Ilmu Matematika dan Terapan, vol. 15, no. 2, pp. 315–322, Jun. 2021, doi: 10.30598/barekengvol15iss2pp315-322.
S. Rahayu and Y. Yamasari, “Klasifikasi Penyakit Stroke dengan Metode Support Vector Machine (SVM),” Journal of Informatics and Computer Science, vol. 05, 2024.
Z. Lai, X. Chen, J. Zhang, H. Kong, and J. Wen, “Maximal Margin Support Vector Machine for Feature Representation and Classification,” IEEE Trans Cybern, vol. 53, no. 10, pp. 6700–6713, Oct. 2023, doi: 10.1109/TCYB.2022.3232800.
S. Rabbani, D. Safitri, N. Rahmadhani, A. A. F. Sani, and M. K. Anam, “Perbandingan Evaluasi Kernel SVM untuk Klasifikasi Sentimen dalam Analisis Kenaikan Harga BBM,” MALCOM: Indonesian Journal of Machine Learning and Computer Science, vol. 3, no. 2, pp. 153–160, Oct. 2023, doi: 10.57152/malcom.v3i2.897.
N. Pratiwi and Y. Setyawan, “Analisis Akurasi Dari Perbedaan Fungsi Kernel Dan Cost Pada Support Vector Machine Studi Kasus Klasifikasi Curah Hujan Di Jakarta,” Journal of Fundamental Mathematics and Applications (JFMA), vol. 4, no. 2, pp. 203–212, Nov. 2021, doi: 10.14710/jfma.v4i2.11691.
R. Nurhidayat and K. E. Dewi, “Penerapan Algoritma K-Nearest Neighbor Dan Fitur Ekstraksi N-Gram Dalam Analisis Sentimen Berbasis Aspek,” KOMPUTA : Jurnal Ilmiah Komputer dan Informatika, vol. 12, no. 1, 2023.
M. Azhari, Z. Situmorang, and R. Rosnelly, “Perbandingan Akurasi, Recall, dan Presisi Klasifikasi pada Algoritma C4.5, Random Forest, SVM dan Naive Bayes,” Jurnal Media Informatika Budidarma, vol. 5, no. 2, p. 640, Apr. 2021, doi: 10.30865/mib.v5i2.2937.
A. Pangestu, Y. T. Arifin, and R. A. Safitri, “Analisis Sentimen Review Publik Pengguna Game Online Pada Platform Steam Menggunakan Algoritma NaÏve Bayes,” Jurnal Mahasiswa Teknik Informatika, vol. 7, no. 6, pp. 3106–3113, Dec. 2023.










