Apa perbedaan antara populasi dan sampel? Variabel dan statistik umum apa yang digunakan untuk masing-masing variabel dan statistik, dan bagaimana hubungan satu sama lain?
Populasi adalah himpunan entitas yang diteliti. Misalnya, rata-rata tinggi badan pria. Ini adalah populasi hipotetis karena mencakup semua pria yang telah hidup, masih hidup dan akan hidup di masa depan. Saya suka contoh ini karena ini mendorong pulang poin bahwa kita, sebagai analis, memilih populasi yang ingin kita pelajari. Biasanya tidak mungkin untuk mensurvei/mengukur seluruh populasi karena tidak semua anggota dapat diobservasi (misalnya pria yang akan ada di masa depan). Jika memungkinkan untuk mencacah seluruh populasi, sering kali hal itu memakan biaya yang mahal dan akan memakan banyak waktu. Pada contoh di atas, kita memiliki populasi "men" dan parameter yang menarik, yaitu tinggi badan mereka.
Sebagai gantinya, kita dapat mengambil subset dari populasi ini yang disebut sampel dan menggunakan sampel ini untuk menarik kesimpulan tentang populasi yang diteliti, dengan beberapa kondisi. Dengan demikian kita bisa mengukur rata-rata tinggi badan pria dalam sampel populasi yang kita sebut statistik dan menggunakannya untuk menarik kesimpulan tentang parameter yang diminati dalam populasi. Ini adalah kesimpulan karena akan ada beberapa ketidakpastian dan ketidakakuratan yang terlibat dalam menarik kesimpulan tentang populasi berdasarkan sampel. Ini harus jelas - kita memiliki lebih sedikit anggota dalam sampel kita daripada populasi kita, oleh karena itu kita telah kehilangan beberapa informasi.
Ada banyak cara untuk memilih sampel dan studi tentang hal ini disebut teori sampling. Metode yang umum digunakan disebut Simple Random Sampling (SRS). Dalam SRS, setiap anggota populasi memiliki probabilitas yang sama untuk dimasukkan ke dalam sampel, oleh karena itu istilah "random". Ada banyak metode pengambilan sampel lainnya, misalnya pengambilan sampel berstrata, pengambilan sampel klaster, dll yang semuanya memiliki kelebihan dan kekurangan.
Penting untuk diingat bahwa sampel yang kita tarik dari populasi hanya satu dari sejumlah besar sampel potensial. Jika sepuluh peneliti mempelajari populasi yang sama, menarik sampel mereka sendiri maka mereka mungkin akan memperoleh jawaban yang berbeda. Kembali ke contoh kita sebelumnya, masing-masing dari sepuluh peneliti dapat menghasilkan rata-rata tinggi badan pria yang berbeda, yaitu statistik yang dimaksud (rata-rata tinggi badan) bervariasi dari sampel ke sampel - ia memiliki distribusi yang disebut distribusi sampling. Kita dapat menggunakan distribusi ini untuk memahami ketidakpastian dalam estimasi parameter populasi.
Distribusi sampling dari rata-rata sampel dikenal sebagai distribusi normal dengan standar deviasi yang sama dengan standar deviasi sampel dibagi dengan ukuran sampel. Karena hal ini dapat dengan mudah dikacaukan dengan deviasi standar sampel, maka lebih umum untuk menyebut deviasi standar dari distribusi sampling sebagai standard error.
Populasi adalah seluruh kumpulan nilai, atau individu, yang Anda minati. Sampel adalah subset dari populasi, dan merupakan himpunan nilai yang benar-benar Anda gunakan dalam estimasi Anda.
Jadi, misalnya, jika Anda ingin mengetahui rata-rata tinggi badan penduduk Cina, itu adalah populasi Anda, yaitu, populasi Cina. Masalahnya adalah, ini adalah angka yang cukup besar, dan Anda tidak akan bisa mendapatkan data untuk semua orang di sana. Jadi Anda menarik sampel, yaitu, Anda mendapatkan beberapa pengamatan, atau tinggi beberapa orang di Cina (subset dari populasi, sampel) dan melakukan inferensi berdasarkan itu.
Populasi adalah segala sesuatu dalam kelompok studi. Misalnya, jika Anda mempelajari harga saham Apple, itu adalah harga saham historis, saat ini, dan bahkan semua harga saham di masa depan. Atau, jika Anda menjalankan pabrik telur, itu adalah semua telur yang dibuat oleh pabrik.
Anda tidak selalu harus mengambil sampel, dan melakukan uji statistik. Jika populasi Anda adalah keluarga dekat Anda yang masih hidup, Anda tidak perlu mengambil sampel, karena populasinya kecil.
Pengambilan sampel populer karena berbagai alasan: