Statistik Non-Prametrik Merupakan Jalan Keluar dari Masalah Asumsi Tidak Terpenuhi tetapi Berpotensi Masuk ke dalam Masalah Baru yaitu Akurasi Rendah
Salah Satu Solusinya: Transformasi Data
Banyak orang menggunakan metode Statistik Non-Parametrik sebagai solusi dari tidak terpenuhinya asumsi-asumsi klasik semisal asumsi normalitas residual, homogenitas, dll.
Namun nyatanya tidak selamanya hal ini berakhir baik. Meski berhasil selamat dari syarat asumsi klasik namun bisa saja menghasilkan akurasi rendah seperti pada pembuatan prediksi dengan regresi maupun klasifikasi. Salah satu penyebab hal ini adalah skala variabel satu dengan yang lainnya berbeda jauh.
Misal pada Studi Kasus: Data Heart Disease UCI
Diplih 13 Variabel dengan karakteristik sebagai berikut
Y: Data Diskret, Range: 1 - 2
X1: Data Kontinu, Range: 29-77
X2: Data Diskret, Range: 0 - 1
X3: Data Diskret, Range: 0 - 4
X4: Data Kontinu, Range: 94 - 200
X5: Data Kontinu, Range: 126 - 564
X6: Data Diskret, Range: 0 - 1
X7: Data Diskret, Range: 0 - 2
X8: Data Kontinu, Range: 71 - 202
X9: Data Diskret, Range: 0 - 1
X10: Data Kontinu, Range: 0 - 6,2
X11: Data Diskret, Range: 0 - 3
X12: Data Diskret, Range: 0 - 3
X13: Data Diskret, Range: 1 - 3
Jika dibuat grafik maka akan membentuk sebaran data sebagai berikut:
Datanya sangat jomplang.
Hasil analisisnya menggunakan metode LVQ didapati:
Rata-Rata Akurasi Data Pelatihan: 76%
Rata-Rata Akurasi Data Uji: 62%
Tampak sangat tidak menjanjikan jika digunakan sebagai alat untuk melakukan prediksi guna mengambil keputusan. Maka solusi yang ditawarkan salah satunya akan kita cobakan beberapa transformasi Data sebagai berikut (Rumus di paling bawah):
1. Minmax
2. Decimal Scaling
3. Z-Score
4. Mean MAD
5. Sigmoid
6. Softmax
Didapati grafik plot sebaran data per variabelnya sebagai berikut:
Kemudian kita lihat hasil akurasinya:
Didapati bahwa terjadi peningkatan nilai akurasi lebih dari 10% baik pada hasil pelatihan maupun pengujian pada data yang telah ditransformasi.
Kemudian kita uji untuk mengetahui apakah perbedaan yang diberikan berbeda cukup signifikan atau tidak. Maka kita gunakan uji anova beserta uji lanjut DMRT.
Didapati hasil sebagai berikut:
Ada pengaruh signifikan penggunaan transformasi data. Kemudian jika pada percobaan di atas didapati hasil trnasformasi terbaik ada pada softmax untuk pelatihan dan sigmoid pada pengujian. Ketika kita perhatikan lagi pada plot sebaran data hasil transformasi, akurasi tertinggi diperoleh dari data hasil transformasi yang memiliki penyebaran yang seimbang diantara semua variabelnya. Sehingga masing-masing variabel memiliki kekuatan/pengaruh yang seimbang dalam menentukan hasil akhir nantinya.
Ternyata ada sebagian transformasi yang malah menghasilkan hasil yang lebih buruk daripada data aslinya pada data yang berbeda-beda.
Kesimpulan:
Transformasi data diperlukan sebagai salah satu solusi akurasi rendah pada percobaan analisis regresi maupun klasifikasi pada metode statistika non parametrik.
Kesimpulan ini sesuai dengan perkataan para ahli:
Pan et al (2016) menjelaskan bahwa salah satu strategi transformasi data adalah melakukan normalisasi. Normalisasi data adalah menyekalakan data sedemikian sehingga data berada dalam jangkauan yang lebih kecil, misalnya -1 s.d. 1 atau 0 s.d. 1.
Menurut Prasetyo (2014), data yang memiliki beberapa fitur (variabel) dengan jangkauan nilai yang berbeda-beda mengakibatkan fitur dengan nilai atau jangkauan yang besar mempunyai pengaruh yang lebih kuat dalam fungsi biaya daripada fitur dengan nilai atau jangkauan yang kecil. Masalah ini dapat ditangani menggunakan teknik normalisasi.
Lampiran:
Data set: https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data
Rumus-Rumus:
1. Minmax
Keterangan:2. Decimal Scaling
dengan j adalah nilai terkecil sedemikian sehingga nilai maksimal data hasil transformasi berada pada nilai kurang dari 1 pada rentang desimal nol koma sekian.
3. Z-Score
4. Mean MAD
5. Sigmoid
6. Softmax
Yuk bagi yang mau skripsi perlu tau ini apalagi kuliah jurusan statistika ketika asumsi tidak terpenuhi dan menggunakan metode non parametrik. Semoga bermanfaat :)
Tidak ada komentar:
Posting Komentar