Selasa, 03 Oktober 2023

Transformasi Data Salah Satu Solusi Akurasi Rendah Metode Statistika Non Parametrik

Statistik Non-Prametrik Merupakan Jalan Keluar dari Masalah Asumsi Tidak Terpenuhi tetapi Berpotensi Masuk ke dalam Masalah Baru yaitu Akurasi Rendah

Salah Satu Solusinya: Transformasi Data


Banyak orang menggunakan metode Statistik Non-Parametrik sebagai solusi dari  tidak terpenuhinya asumsi-asumsi klasik semisal asumsi normalitas residual, homogenitas, dll. 

Namun nyatanya tidak selamanya hal ini berakhir baik. Meski berhasil selamat dari syarat asumsi klasik namun bisa saja menghasilkan akurasi rendah seperti pada pembuatan prediksi dengan regresi maupun klasifikasi. Salah satu penyebab hal ini adalah skala variabel satu dengan yang lainnya berbeda jauh. 

Misal pada Studi Kasus: Data Heart Disease UCI

Diplih 13 Variabel dengan karakteristik sebagai berikut

Y: Data Diskret, Range: 1 - 2

X1: Data Kontinu, Range: 29-77

X2: Data Diskret, Range: 0 - 1

X3: Data Diskret, Range: 0 - 4

X4: Data Kontinu, Range: 94 - 200

X5: Data Kontinu, Range: 126 - 564

X6: Data Diskret, Range: 0 - 1

X7: Data Diskret, Range: 0 - 2

X8: Data Kontinu, Range: 71 - 202

X9: Data Diskret, Range: 0 - 1

X10: Data Kontinu, Range: 0 - 6,2

X11: Data Diskret, Range: 0 - 3

X12: Data Diskret, Range: 0 - 3

X13: Data Diskret, Range: 1 - 3

Jika dibuat grafik maka akan membentuk sebaran data sebagai berikut:

Datanya sangat jomplang.

Hasil analisisnya menggunakan metode LVQ didapati:
Rata-Rata Akurasi Data Pelatihan: 76%
Rata-Rata Akurasi Data Uji: 62%

Tampak sangat tidak menjanjikan jika digunakan sebagai alat untuk melakukan prediksi guna mengambil keputusan. Maka solusi yang ditawarkan salah satunya akan kita cobakan beberapa transformasi Data sebagai berikut (Rumus di paling bawah):
1. Minmax
2. Decimal Scaling
3. Z-Score
4. Mean MAD
5. Sigmoid
6. Softmax

Didapati grafik plot sebaran data per variabelnya sebagai berikut:


Data-datanya tampak menyebar lebih rata atau seimbang

Kemudian kita lihat hasil akurasinya:


Didapati bahwa terjadi peningkatan nilai akurasi lebih dari 10% baik pada hasil pelatihan maupun pengujian pada data yang telah ditransformasi. 

Kemudian kita uji untuk mengetahui apakah perbedaan yang diberikan berbeda cukup signifikan atau tidak. Maka kita gunakan uji anova beserta uji lanjut DMRT.

Didapati hasil sebagai berikut:


Ada pengaruh signifikan penggunaan transformasi data. Kemudian jika pada percobaan di atas didapati hasil trnasformasi terbaik ada pada softmax untuk pelatihan dan sigmoid pada pengujian. Ketika kita perhatikan lagi pada plot sebaran data hasil transformasi, akurasi tertinggi diperoleh dari data hasil transformasi yang memiliki penyebaran yang seimbang diantara semua variabelnya. Sehingga masing-masing variabel memiliki kekuatan/pengaruh yang seimbang dalam menentukan hasil akhir nantinya.

Namun hal ini belum bisa dipastikan ketika menggunakan data lain. Sehingga min blog sarankan untuk mencoba beberapa transformasi dan dipilih yang terbaik. Perhatikan gambar berikut ini kenapa min blog menyarankan agar mencoba beberapa transformasi data sekaligus.

Ternyata ada sebagian transformasi yang malah menghasilkan hasil yang lebih buruk daripada data aslinya pada data yang berbeda-beda.


Kesimpulan:
Transformasi data diperlukan sebagai salah satu solusi akurasi rendah pada percobaan analisis regresi maupun klasifikasi pada metode statistika non parametrik.

Kesimpulan ini sesuai dengan perkataan para ahli:

Pan et al (2016) menjelaskan bahwa salah satu strategi transformasi data adalah melakukan normalisasi. Normalisasi data adalah menyekalakan data sedemikian sehingga data berada dalam jangkauan yang lebih kecil, misalnya -1 s.d. 1 atau 0 s.d. 1.

Menurut Prasetyo (2014), data yang memiliki beberapa fitur (variabel) dengan jangkauan nilai yang berbeda-beda mengakibatkan fitur dengan nilai atau jangkauan yang besar mempunyai pengaruh yang lebih kuat dalam fungsi biaya daripada fitur dengan nilai atau jangkauan yang kecil. Masalah ini dapat ditangani menggunakan teknik normalisasi.


Lampiran:

Data set: https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data

Rumus-Rumus:

1. Minmax

Keterangan:

2. Decimal Scaling

dengan j adalah nilai terkecil sedemikian sehingga nilai maksimal data hasil transformasi berada pada nilai  kurang dari 1 pada rentang desimal nol koma sekian. 


3. Z-Score

x adalah data asli dikurangi rata-rata lalu hasilnya dibagi dengan standar deviasi atau akar varian.



4. Mean MAD

dengan nilai MAD (Mean Absolute Deviation):


5. Sigmoid



6. Softmax


Yuk bagi yang mau skripsi perlu tau ini apalagi kuliah jurusan statistika ketika asumsi tidak terpenuhi dan menggunakan metode non parametrik. Semoga bermanfaat :)

Tidak ada komentar:

Posting Komentar