31 Jul 2011

Statistika untuk Data Survey Multi-level

Analisa statistik merupakan sebuah alat yang cukup ampuh dalam meningkatkan validitas hasil studi dan memberikan kepercayaan pada tingkat tertentu yang diharapkan agar kesimpulan-kesimpulan yang dibuat dari data layak untuk dipertimbangkan kebenarannya.

Penelitian bertipe survey adalah penelitian yang cukup banyak dilakukan salah satunya untuk mengetahui fenomena alam dan menarik kesimpulan dari kejadian-kejadian alam tertentu baik dalam skala keruangan maupun skala rentang waktu tertentu. Pada perkembangannya, penelitian bertipe survey mampu menjawab permasalahan-permasalahan yang cukup pelik, hal tersebut terkait kenyataan bahwa fenomena alam itu sesungguhnya sangat kompleks dan penyederhanaan sistem alam pada beberapa kondisi menyebabkan penafsiran terhadap penomena alam menjadi keliru.

Analisa data survey paling sederhana dilakukan melalui uji korelasi antar 2 atau lebih variabel untuk melihat hubungan yang positif atau negatif yang terjadi antar variabel tersebut. Namun kelemahan dari uji ini adalah tidak dapat diketahuinya saling keterkaitan antar variabel ketika nilai satu variabel itu naik atau turun terhadap kenaikan dan penurunan nilai variabel lainnya. Bahwa terjadi sinergis/kontradiktif hubungan antar variabel di alam, itu dapat terlihat, namun hal ini perlu pengujian terlebih dahulu apakah distribusi data survey itu normal atau tidak, mengingat uji ini pada dasarnya mengasumsikan distribusi data yang normal.

Regresi merupakan metode analisa yang lebih berkembang daripada hanya sekedar pengujian korelasi. Melalui regresi dapat diketahui perubahan-perubahan nilai variabel terhadap variabel lainnya yang memberikan pengaruh perubahan terhadap nilai respon. Jika dasar uji adalah nilai tengah sampel, maka perubahan nilai tersebut adalah perubahan terhadap nilai tengah responnya.

Sebuah asumsi yang keliru umumnya dibuat bahwa semakin banyak variabel yang dimasukan dalam suatu persamaan regresi, maka semakin tinggi nilai R-square dari model dan semakin tinggi nilai signifikansinya. Bayangkan jika kita mempunyai 30 unit sampel dan kita masukan 30 variabel bebas maka regresi yang dibuat akan mempunyai nilai R-square yang mendekatai 100%! Kenyataan tersebut adalah benar, namun "useless" dalam menggunakan uji regresi!

Kepentingan utama kita dalam menggunakan uji-uji statistik adalah untuk mengetahui variabel-variabel utama yang menyebabkan suatu fenomena/perlakuan memberikan suatu nilai tertentu yang berguna dalam mengambil sebuah kesimpulan. Jika variabel cukup banyak dan kita sendiri menjadi bingung menarik kesimpulan dengan kehadiran variabel-variabel tersebut, maka statistika "means nothing" telah kita gunakan. Pemilihan variabel-variabel utama tersebut merupakan kunci penting uji statistik.

Selain mendapatkan variabel-variabel utama, hal lain yang perlu mendapatkan perhatian adalah uji statistik dilakukan terhadap sampel data. Sampel data berasal dari suatu populasi. Dengan kondisi tersebut, sangat penting untuk diyakinkan bahwa sampel-sampel yang kita ambil mewakili populasi yang akan diduga. Jangan sampai terjadi bahwa pengujian yang kita lakukan hanyalah menerangkan sampel tetapi tidak bisa menerangkan populasi, sehingga kesimpulan yang dibuat terhadap fenomena alam (populasi) tidak valid. Dalam kegiatan survey semakin banyak sampel data baik diambil secara acak maupun terstratifikasi, semakin kita mendekati kondisi populasi.

Setelah kita yakin bahwa sampel-sampel yang kita punya mewakili kondisi populasi, maka langkah pengujian statistik untuk data survey cukup valid untuk dilakukan.
Selain mengetahui hubungan (dengan uji korelasi), beberapa uji terkait data survey diantaranya adalah uji beda, uji pengaruh, uji peringkat dll. Namun perlu diperhatikan bawha uji-uji tersebut berbeda dengan pemahaman hasil yang dilakukan melalui suatu design experiment.

Hal yang sangat krusial untuk diperhatikan adalah bahwa di alam tidak dapat ditemukan suatu kondisi yang benar-benar homogen. Sehingga istilah ulangan yang digunakan dalam design experiment maknanya berbeda dengan istilah yang digunakan dalam suatu penelitian menggunakan metode survey. Ulangan yang mungkin dilakukan dalam metode penelitian survey adalah ulangan pengukuran (repeated measurement), sementara itu dalam design experiment yang dimaksud ulangan adalah plot-plot penelitian yang didalamnya terdapat titik-titik pengamatan yang akan diamati pada waktu pengukuran tertentu dan pengukurannya dilakukan secara berulang. Plot-plot penelitian tersebut tidak dapat dibuat melalui survey karena homogenitas yang dicermikan oleh plot tersebut tidak dapat dibuat di alam.

Dalam survey, yang disebut ulangan biasanya merujuk pada jumlah responden atau jumlah titik pengamatan tertentu di alam. Pengukuran berulang (mis. bulanan, semesteran atau tahunan) terhadap responden atau titik-titik pengamatan tertentu inilah yang disebut sebagai metode survey dengan repeated measurement.

Multi-level data dalam kegiatan survey terjadi pada survey dengan repeated measurement. Dalam teknik ini maka suatu nilai data adalah merupakan kumpulan nilai dari satu responden/titik pengamatan dalam suatu komunitas/kondisi lahan tertentu, sementara itu itu komunitas-komunitas/kondisi-kondisi lahan secara akumulasi menggabungkan nilai-nilai data individu kedalam suatu data populasi.

Pengujian korelasi dari multi-level data ini dilakukan secara bertingkat pada level komunitas, kemudian komunitas dalam populasi. Namun demikian pengujian statistik, diantaranya dengan dasar korelasi, lebih lanjut seperti pengujian regresi akan mendapatkan permasalahan cukup besar karena multi-level data akan memberikan nilai autokorelasi data yang besar yang tidak dapat diakomodir oleh analisa regresi "tradisional".

Korelasi dan regresi adalah metode uji yang biasa digunakan untuk analisa data survey. Kedua uji statistik tersebut umumnya dianggap sederhana dan paling mudah untuk digunakan terkait data survey. Namun, fikirkan kembali pemahaman seperti itu!
Pengujian korelasi dan regresi tidak semudah yang dibayangkan. Kompleksitas kondisi/fenomena alam menyebabkan kesulitan tersendiri untuk menentukan variabel-variabel mana yang penting untuk diperhatikan! Validitas, keterwakilan data terhadap populasi dan pemilihan uji-uji penunjang yang benar sangat penting untuk diperhatikan.

Kembali ke multi-level data. Misalkan kita mempunyai 30 desa untuk diamati pendapatan petaninya dan dari masing-masing desa kita ambil 30 petani sebagai responden,bagaimana kita mengujinya? Perlu diperhatikan pengujian dengan regresi "regresi tradisional" untuk mengetahui variabel-variabel yang mempengaruhi pendapatan petani secara populasi (misalnya dalam satu kecamatan) akan mendapat kendala dengan autokorelasi yang tinggi, karena pada dasarnya data akan terkluster kedalam desa, dimana data dalam satu desa sangat ditentukan oleh kondisi alam di desa tersebut dan akan disebut independen jika dibandingkan dengan nilainya dengan desa lainnya. Menggunakan regresi tradisional akan menyebabkan outlier yang terdeteksi sangat besar! Kita akan mengasumsikan banyak data tak berguna, padahal data yang kita ambil adalah benar-benar hasil survey yang sesungguhnya layak untuk diuji!

Kondisi tersebut umumnya dijembatani dengan merata-ratakan nilai dalam satu desa dan kemudian meregresikan nilai rata-rata desa-desa tersebut. Nilai-nilai yang overlap antar desa dihilangkan (sebagai outlier) untuk mempertahankan independency data. Uji regresi tersebut benar ketika distribusi rata-rata desa-desa tersebut mengikuti distribusi normal, bila distribusi mengikuti distribusi selain normal maka pengujian regresi baik binom, logistik, lognormal menggunakan GLM (Generalized Linear Model) dapat menjadi uji alternatif dalam regresi.

Sesungguhnya multi-level data tidak perlu diuji dengan pengujian yang menekankan normalitas dan independency yang demikian ketat apalagi jika kemudian memberikan kenyataan outlier yang besar. Beberapa uji sederhana dapat dilakukan misalnya dengan PCA (Principal Component Analysis), CA (Correspondence Analysis), CCA (Canonical Correspondence Analysis) atau metode uji lainnya. Sementara itu pengujian menggunakan regresi untuk multi-level data dapat dilakukan secara baik tanpa menghilangkan unsur pengelompokan data yang terjadi yaitu menggunakan GEE (Generalized Estimating Equation).

Namun satu hal yang paling penting dalam penggunaan analisa data survey adalah kejelian peneliti dalam melihat keunikan atau trend yang terjadi dari fenomena-fenomena alam. Pemahaman tersebut sangat perlu ditunjang oleh pemahaman teori yang memadai. Uji-uji statistik tidak dapat dilakukan pada semua fenomena alam, dan uji-uji statistik ditujukan untuk mengetahui variabel-variabel utama. Bagaimana kita menentukan variabel-variabel yang penting untuk diuji menggunakan statistika?

Disinilah kejelian dan pemahaman teori diperlukan. Bahkan dalam menarik kesimpulan, suatu hasil uji akan membutuhkan penjelasan-penjelasan yang cukup kompleks mengapa suatu variabel tersebut berhubungan/berpengaruh terhadap suatu nilai respon (fenomena) yang kita amati.

Demikian sedikit ulasan tentang statistika untuk multi-level data survey. Jangan pernah menyederhanakan fenomena alam. Alam itu kompleks dan semakin kompleks kita berfikir tentang alam, maka semakin kita bisa mendekati alam.