Ölçmede güvenilirlik ve geçerlilik

Standart

GEÇERLİLİK
Geçerlik, bir ölçme aracının ölçmeyi amaçladığı özelliği, başka herhangi bir özellikle karıştırmadan, doğru olarak ölçebilme derecesidir. Başka bir deyimle bir ölçme aracının, geliştirilmiş bulunduğu konuda maksada hizmet etmesidir. Sözgelimi, uzunluk ölçmek için geliştirilmiş bir araç olan metre, kişilerin boylarını ölçme maksadına hizmet eder; fakat kişilerin ağırlıklarını ölçme maksadına hizmet etmez. Bu demektir ki, bir ölçme aracı olarak metre uzunluk ölçmede geçerlidir; fakat ağırlık ölçmede geçerli değildir. Aslında bir aracın sadece kullanıldığı maksat için geçerliğe sahip olması söz konusudur. Bu durum, şöyle bir örnekle somutlaştırılabilir: Bir okuduğunu anlama testi, okuduğunu anlama yeteneğini ölçmede yüksek bir geçerliğe sahip olabilir, fakat aynı test, çok büyük bir olasılıkla, matematikte problem çözme yeteneğini ölçmede geçerliğe sahip değildir. Bir aracın geçerli olması için, onun sadece ölçmek için düzenlediği özelliği ölçmesi, yani onu başka özelliklerle karıştırmadan ölçmesi de gerekir. Lise son sınıf öğrencilerinin sosyoloji bilgilerini ölçmek için bir yazılı yoklama yapıldığını ve sınav sonunda her bir öğrenciye, başarısının özeti olan bir puan verildiğini düşünelim. Bu sınav, lise sosyoloji bilgilerinin tümünü ölçüyorsa; elde edilen puanlarda, yazı güzelliği, anlatımın biçimi ve düzgünlüğü, bilgiyi sunuş biçimi gibi, sosyoloji bilgisi dışındaki başka etkenlerin etkisi yoksa söz konusu sınavın geçerliği tamdır. Bu durumda sınavdan elde edilen puan, bizim ölçmek istediğimiz sosyoloji bilgilerinin tümünün ve sadece sosyoloji bilgilerinin bir ölçüsü olur. Uygulamada ve özellikle eğitimde, bir çok durumda, ölçmek istediğimiz bilgi ve becerilerin tümünü bir sınavla ölçmek olanaksız olduğu gibi, sınavdan elde edilen puana, ölçme konusu bilgi ve beceriler dışındaki başka etkenlerde etki eder. Bu etkenlerden ötürü, elde edilen puana hata karışır. Bu nedenle, özellikle eğitimde kullanılan ölçme araçlarının geçerliği, hiçbir zaman tam değildir.
Bir başarı testinin niteliği, ölçülecek olanın ne olduğunun ve onun nasıl ölçüleceğinin açıkça belirlenmiş olmasına bağlıdır. “Ne ölçülecek sorusunun cevabı, testin uygunluk ya da ilgililiğine değindir. “Nasıl ölçülecek?” sorusunun cevabı ise, büyük ölçüde testin güvenirliğini ilgilendirir. Ölçtüğü şeyle ilgili olan ve ölçtüğü şeyi tutarlı olarak ölçen bir test geçerlidir. Bu yargı, geçerliğin iki önemli öğesi olduğunu belirtir: (1) Uygunluk ya da ilgililik ve (2) güvenirlik.
Bir test için uygunluk, onun, ölçmek için düzenlediği özellik ya da özelliklerle ilgili olmasıdır. Genellikle, sınıftaki öğrenci başarısını ölçmek üzere düzenlenen bütün testler için uygunluk, bir mantıksal analiz ve uzman yargısı konusudur. Uygunluk, güvenirlik gibi, testin uygulanmasından elde edilen veriler temelinde, istatistiksel olarak belirlenemez. Bir test, kapsadığı maddeler, dersin geliştirmek istediği davranışları yansıtıyor ve onları yeterlice örnekliyorsa, ilgilidir.
Güvenirlik ise, ölçmenin tutarlılığıyla ilgilidir. Eğer bir test güvenilirse, o, ölçmek için düzenlendiği özellik ya da özellikleri tutarlıca ölçer. Bir testi değişik zamanlarda alan kişilerin, o testten aldıkları puanlar ya da aldıkları puana göre aynı kişilerin grup içindeki sıraları değişmiyorsa, söz konusu test güvenilirdir.
Bir testin, belli özellik ya da özelliklerin geçerli bir ölçüsü olabilmesi için, onun, söz konusu özellik ya da özellikleri tutarlı biçimde ölçmesi gerekir. Bu nedenle güvenirlik, geçerliğin, önemli bir parçasıdır. Bir test, geçerli olmak için güvenilir olmak zorundadır. Ne var ki, güvenirlik, geçerlik için gerekli koşul olmasına karşın, yeterli koşul değildir. Güvenilir olan bir test, her zaman geçerli olmayabilir. Hatta bazen, testi güvenilir yapma amacı, testi geçerli kılma amacı ile çatışabilir de. Örneğin, içindeki maddeler aynı özelliği, aynı davranış ya da davranışları ölçen homojen bir testin, içindeki maddeler farklı özellikleri ya da farklı davranışları ölçen heterojen bir testten daha güvenilir olması beklenir. Öte yandan, birbirinden farklı ve çok sayıda davranış geliştirmek isteyen bir ders için geliştirilen bir başarı testi, geçerli olmak için, değişik davranışları ölçecek farklı maddeleri kapsamalıdır. Bu bakımdan, içindeki maddeleri aynı şeyi ölçer duruma getirerek testi homojenleştirmekle testin güvenirliğini yükseltme çabası, testin geçerliğini düşürebilir. Bir testin geçerliği, bir derece sorunudur. Ya hep, ya hiç sorunu değil. Bir test hepten geçerli veya hepten geçersiz olmaktan ziyade, daha çok veya daha az geçerli olabilir. Üstelik bir testin geçerliği, tam olarak yalnızca testin kendisiyle belirlenemez. O, testin kullanılış maksadına, uygulandığı gruba, uygulanma ve puanlanma biçimine de bağlıdır. Bu nedenle, “bu testin geçerliği nedir?” diye sormak yerine, “belli bir maksatla belli bir gruba, belli bir biçimde uygulandığı zaman bu testten elde edilen puanların geçerliği nedir?” diye sormak daha doğru olur. Bundan ötürü, özel bir maksat dışında, bir testin geçerliğini, “yüksek”, veya “düşük” olarak nitelememek gerekir. Çünkü geçerlik, daima belli bir maksat için geçerliktir.
Bir testin geçerliği, çoğun, o testten elde edilen puanlarla belli bir ölçüt ya da ölçütler takımı arasındaki ilişki bakımından belirlenir. Geçerliğin, istatistiksel olarak belirlenmesidir bu. Bu işlemde ölçüt ya da ölçütler takımı olarak neyin alınmış olduğu ya da alınması gerektiği, testin kullanış maksadına bağlıdır. Test puanlarıyla ölçüt ya da ölçütler takımı arasındaki ilişki katsayısına geçerlik katsayısı adı verilir. Geçerlik katsayısı, (-1,00) ile (+1,00) arasında değişir.
Geçerlik, bir ölçme aracının kullanıldığı maksada hizmet derecesidir demiştik. Eğitim ve psikolojide ölçme aracı olarak kullanılan testler, birçok maksat için geliştirilebilirler. Eğitimde kullanılan testler için söz konusu olabilecek başlıca geçerlik türleri, fazla ayrıntılarına inilmeden aşağıda tartışılmıştır.

GÜVENİRLİK
Bir ölçme aracının sahip olması istenilen ikinci önemli özellik, güvenirliktir. Güvenilir bir ölçme aracı, aynı özellikle ilgili olarak arka arkaya yapılan ölçmelerde yaklaşık olarak aynı sayısal sonucu verir. Güvenilir bir test, aynı gruba iki ya da üç kez uygulandığında, gruptaki her bir kişi, bütün uygulamalarda yaklaşık olarak aynı puanı almalıdır.

Bir anlamda güvenirlik, geçerliğin bir parçasıdır. Bir testin ölçmek istediği özelliği doğru olarak ölçebilmesi için, o testin, ilkin söz konusu özelliği tutarlı olarak ölçmesi gerekir. Yalnız, güvenirlik geçerliğin tek güvencesi değildir. Son derece güvenilir bir test, kullanıldığı maksat için çok küçük bir geçerliğe sahip olabilir. Örneğin, cebir bilgisini ölçmede geçerli olan bir cebir testi, İngilizce bilgisini ölçmek için kullanıldığında belki güvenilir olabilir, fakat hiçbir zaman geçerli olamaz.
Pratikte, bir nesne ya da özellik değişik zamanlarda ölçüldüğünde, ölçmelerin hepsinde aynı ölçümü elde etmek hemen hemen olanaksızdır. Çünkü çeşitli nedenlerle, tam anlamıyla hatadan arınık bir ölçme yapılamaz. Bu nedenle, bir testten elde edilen bireysel puanlar, bir ölçmeden diğerine değişecektir.

Kaynaklar : http://www.webegitim.net

About these ads

One thought on “Ölçmede güvenilirlik ve geçerlilik

Bir Cevap Yazın

Aşağıya bilgilerinizi girin veya oturum açmak için bir simgeye tıklayın:

WordPress.com Logosu

WordPress.com hesabınızı kullanarak yorum yapıyorsunuz. Log Out / Değiştir )

Twitter resmi

Twitter hesabınızı kullanarak yorum yapıyorsunuz. Log Out / Değiştir )

Facebook fotoğrafı

Facebook hesabınızı kullanarak yorum yapıyorsunuz. Log Out / Değiştir )

Google+ fotoğrafı

Google+ hesabınızı kullanarak yorum yapıyorsunuz. Log Out / Değiştir )

Connecting to %s