Normallik Testleri-Spss
Bir analize başlamadan, ilk yapılması gereken test, normallik testidir. Fakat istatistiğin üstadı Barbara G. Tabachnick ve Linda S. Fidell’in çok sevdiğim bir sözü var, “Çöp girip, gül çıkmaz””. Yani verilerin önce hatasız düzeltilmesi, organize edilmesi gerek. Hatasız bir analiz yapabilmemiz için öncelikle verilerimizin doğru oluşturulduğundan emin olmalıyız. Ayrıca normallik testlerinin analizini yapacağımız her bir veri setine ayrı ayrı yapılması gerektiğini söylemeliyim. Dolayısıyla binlerce verinin olduğu bir veri setinde sadece analiz edeceğimiz veri setini ayırmamız gerekecektir. Normallik testlerine başlamadan önce verilerin kontrolü ve organizasyonunun (ayırma işlemi) nasıl yapılması gerektiğini öğrenmemiz önemlidir. Bu düzenleme ve organizasyona ait ayrıntılı bilgiye buradan ulaşabilirsiniz.
Bu makalede; boğucu, sıkıcı ve neredeyse gereksiz teorik bilgiden ziyade, alanda ve sahada bize lazım olacak kadarı ile normallik testleri nedir, hangi durumlarda hangi normallik testi kullanılmalı ve normallik testlerinin uygulanması- yorumlanması konuları anlatılacaktır. Hem literatürden hem de tecrübelerden yola çıkarak normallik testlerinin alanda nasıl kullanıldığı konusundaki eksikliği ya da kafa karışıklığını gidermeyi umuyoruz.
Normallik testleri birçok istatistiksel test için ön gerekliliktir. Çünkü T-Testi, Anova, Pearson Korelasyon Testi gibi parametrik testlerin varsayımı, verilerin normallik gösterdiğidir. Verilerimiz eğer normallik varsayımını sağlamıyorsa, Mann- Whitney-U, Kruskal Wallis Sperman vb. non-parametrik (parametrik olmayan) testlere yönelmemiz doğru olacaktır. Normallik testleri, analitik yöntem ve grafiksel yöntem olmak üzere iki temel boyutta incelenmektedir.
1. Normallik Belirlemede Analitik Yöntem
Shapiro-Wilk, Kolmogorov-Smirnov ve basıklık- çarpıklık (skewness- kurtosis) değerlerinin incelenmesi oldukça objektif ve popüler analitik test yöntemlerdir. Bu yöntemler aşağıda ayrıntılı olarak açıklanacaktır. Analiz sonunda çıkan sonuca göre, verilerimiz normal dağılıyor ya da dağılmıyor diyebiliriz. Açıkçası kongre, sempozyum, savunma vb. ortamlarda net rakamlarla konuşmak araştırmacının işini bir nebze kolaylaştırabilir.
Fakat çoğu zaman tek bir normallik testi ile karar vermek ve non-parametrik testlere yönelmek bulgularımızı ve dolayısıyla çalışmamızı zayıflatabiliyor. Bunun sebebi parametrik testlerin non-parametrik testlerden daha güçlü olmasıdır. Şahsi görüşüm, etkili olduğu düşünülen bir araştırmada, tek bir normallik testi yapıp çıkan sonuca göre non-parametrik bir teste yönelmemek gerekiyor. Çünkü normalliğin incelenebildiği birden çok yöntem var ve normallik yakalanabilecekken non-parametrik bir testi kullanmak daha az güçlü bir analizi araştırmamızda kullanmamız anlamına geliyor. Non-parametrik bir testi kullanmadan önce verilerin kesinlikle normal dağılmadığını anlamamız gerekiyor. Bu noktada, analitik yöntemler yanında grafiklerin de önemini vurgulamamız gerekiyor.
Veri sayısı az olduğunda normalliği yakalamak zor olabilir. Veri sayısı 30’dan fazla ise, dağılım normal kabul edilebilir (1).
2. Normallik Belirlemede Grafiksel Yöntem
Histogram, Q-Q Plot, Stem and Leaf ve Boxplot grafikleri yardımıyla, verilerin normallik varsayımını sağlayıp sağlamadığı hakkında yorum yapılır. Bahsettiğimiz grafikler aşağıda ayrıntısıyla açıklanacaktır. Sadece rakamlara göre verilerimizin normalliği hakkında yorum yapmanın bazı sakıncalarından dolayı aslında birçok usta istatistikçi, analitik testlerin yanında grafikleri de yorumlamanın daha doğru olacağını ifade eder. Bu yöntemin gerçekten tecrübe istediği aşikâr. Çünkü tamamen objektif değil ve yorumlamaya sübjektif bir bakış açısı karışmaktadır. Normalliğin incelenmesinde eğer tecrübenize güveniyorsanız, aslında grafikler bize çok şey anlatmaktadır.
Spss uygulaması üzerinde normallik testleri nasıl yapılır, veriler nasıl düzenlenir, hangi durumlarda ne tür yorumlar yapılır adım adım inceleyeceğiz.
Normallik Testlerinin Uygulaması
Bu bölümde Analitik ve Grafiksel yöntemler, bir Spss çıktısında verilen sıra ile tek tek incelenecektir.
Normallik testlerine ulaşmak için, Spss ana sayfasında yer alan Analyze…explore seçenekleri tıklanır (Şekil 1).
Açılan pencerede, sol kısımda tüm veri grupları listelenir. Normallik testine tabi tutulacak veri setleri seçilir ve sağ kısımdaki boşluğa atılır (Şekil 2).
Şekil 2.’de sağ kısımda bulunan plots butonuna tıklanır ve Şekil 3.’te gösterilen pencere açılır. Stem and leaf, Histogram ve Normality plots with tests seçenekleri işaretlenir. Stem and Leafs ve Histogram grafikleri kullanmayacaksanız sadece Normality plots with tests seçeneğini işaretleyebilirsiniz.
Şimdi açılan penceredeki tabloları tek tek inceleyelim.
Açılan sayfada listenin en başındaki tablodan kayıp-kaçak veri kontrolü yapılır. Kayıp-kaçak veri (missing values), Spss’e veri girişi yapılırken meydana gelen hatalı girişleri (yanlış değer, boş hücre vb.) kontrol etmemize olanak tanır. Veri sayısı fazla ise gözle kontrolü zordur. Bu tabloyu inceleyerek hangi parametrede kaç kayıp veri olduğunu görebilirsiniz. Gördüğünüz gibi benim 523 adet deneğim vardı ve Valid N=523, Cases Missing N=0 yazıyor.
Normallik Testleri ve Yorumlanması
1. Analitik Yöntemlerle Normalliğin İncelenmesi
Şekil 4.te gösterildiği gibi verilerin tam ve doğru olduğu kontrol edildikten sonra Descriptives tablosu incelenebilir. Bu tablo bize normallik için oldukça önemli bilgiler vermektedir (Şekil 5).
Bu kapsamda;
1- Aritmetik ortalama (mean) , mod ve medyan (median) değerlerinin birbirine eşit ya da yakın olması,
2- Skewness (çarpıklık) ve kurtosis (basıklık) değerlerinin ±1 sınırları içinde 0’a yakın olması,
3- Skewness (çarpıklık) ve kurtosis (basıklık) değerlerinin kendi standart hatalarına (Std. Error) bölünmesi ile hesaplanan çarpıklık ve basıklık indekslerinin ±2 sınırları içinde 0’a yakın olması, normal dağılımın varlığına kanıt olarak değerlendirilmektedir (2-6).
Normallik varsayımına yönelik incelemelerde betimsel (analitik) yöntemlerin, grafiksel yöntemlerle birlikte kullanılarak sonuçların birlikte değerlendirilmesi daha kesin kararlar vermemizde yardımcı olabilir (3, 7-8).
Shapiro-Wilk ve Kolmogorow Smirnow Testleri
Shapiro-Wilk ve Kolmogorov-Smirnov testleri, çok yaygın kullanılan normallik testleridir (Şekil 6).
Veri sayımız 30’dan az ise kolmogorov-Smirnov tavsiye edilmiyor (1). Bu sebeple, veri sayısı 30’dan az ise Shapiro-Wilk, fazla ise Kolmogorov-Smirnov tercih edilebilir. Hangi testi kullanacaksanız, normal dağılım olduğunu varsaymak için p>0,05 (sig.) olması gerekiyor. Şekil 6.’da tüm p değerleri 0,05’ten küçük. Yani veriler normal dağılmıyor.
2. Grafiksel Yöntemlerle Normalliğin İncelenmesi
Histogram
Yorumlaması en kolay grafik türüdür diyebiliriz. Veriler eğer normal dağılım gösteriyorsa, verilerin frekanslarını temsil eden çubuklar üst noktalarından birleştirildiğinde, grafik çan eğrisine benzer bir görünüm alır. Bu, verilerin normal dağıldığını gösterir. Ayrıca histogram grafiğine bakarak verilerin basıklık ve çarpıklığı hakkında da yorum yapılabilmektedir (Şekil 7).
Stem and Leaf
Stem-and-leaf yani gövde ve yaprak grafiği, teorik, görünüm yorumlama konularından histogram grafiğe çok benzemektedir. Fakat stem and leaf grafikte orijinal veriler kullanılır. Bu grafik türünde de, tıpkı histogram da olduğu gibi, minimum değer, maksimum değer, median ve frekans verileri bulunur ve bu verilere göre normal dağılım hakkında karar verilir.
Sten and Leaf grafiği 3 bloktan oluşur. 1. blok, verilerimizin sıklığını; 2. blok stem yani verilerimizin en büyük ondalık rakamını, örneğin 24 için= 2 (20 anlamında); 3. blok leaf yani verilerimizin daha alt basamak gruplarını, örneğin 24 için=4 ifade eder. Leaf rakamlarının çokluğu, o verilerin frekansının yüksek olduğu anlamına gelir ve bu ifade, eğer normal bir dağılım varsa, eğik bir çan şeklini alır. Lütfen Şekil 8.i inceleyiniz.
Normal Q-Q Plot
Normal Q-Q grafiğinde amaç, elde edilen doğrusal çizginin altındaki ve üstündeki noktaların, değişkenin birim değerlerinin kuramsal dağılımından hangi düzeyde bir sapma gösterdiğini belirlemektir. Şekil 9’da görüldüğü gibi, değerler (noktalar) verilen çizgiye mümkün olan en paralel düzeyde ve düz olarak konumlanmalıdır. 45 derecelik eğimle oluşan çizgi, varsayımsal teorik değerler ile oluşurken, dairesel halkalara benzeyen noktalarla oluşan değerler, bizim gerçek değerlerimizdir.
Detrended Normal Q-Q Plot
Detrended Normal Q-Q Plot, yani eğilimden arındırılmış Q-Q grafiği, Normal Q-Q grafiği ile aynı bilgileri gösterir, ancak farklı bir şekilde. Eğer veriler normal dağılıyorsa, grafik üzerindeki noktalar, yatay çizgi üzerinde (sıfır çizgisi) kümelenir ve herhangi bir şekil oluşturması beklenmez. Noktalar, gözlemlenen niceliklerde sapmanın büyüklüğünü ve yönünü gösterir. Her bir nokta, gözlenen dağılımdan beklenen dağılımın çıkarılması (gözlenen – beklenen) ile hesaplanır. Bu durum, Normal Q-Q grafiğinde eğilim çizgisinin altındaki bir noktanın, gözlemlenen – beklenen > 0 olduğu için, Detrended Normal Q-Q grafiğinde eğilim çizgisinin üzerinde görüneceği anlamına gelir.
Box Plot
Box Plot, yani kutu grafiği; doğru yorumlanabilirse, tek başına bir çok bilgi verebilmesi sayesinde oldukça kullanışlı bir grafik türüdür. Şeklin en alt çizgisi minimum değeri, kutunun en alt çizgisi %25’lik 1. çeyreği, kutunun tam ortasındaki çizgi median yani %50′ lik 2. çeyreği, kutunun üst çizgisi %75′ lik 3. çeyreği, şeklin en üst çizgisi ise maksimum değeri temsil eder. Ayrıca (a.) olarak gösterilen alan, minimum değer ile 1. çeyrek arasındaki uzaklığı, (b.) olarak gösterilen alan ise 3. çeyrek ve maksimum değer arasındaki uzaklığı gösterir. Lütfen aşağıda verilen şekli inceleyiniz.
Normal dağılım varsayımı için;
1.Median çizgisi; 1. çeyrek ve 3. çeyrek çizgilerinin mümkün olduğunca ortasında olmalıdır.
2.Minimum Değer çizgisi ile 1. çeyrek çizgisi arasındaki (a.) mesafesi ve maksimum değer çizgisi ile 3. çeyrek çizgisi arasındaki (b.) mesafe mümkün olduğunca eşit uzaklıkta olmalıdır.
Eğer bu iki koşul sağlanabiliyorsa, verilerimizin normal dağıldığı varsayılabilir.
Sonuç
Normal dağılımın test edilmesi ve alınan sonuca göre doğru analizlerin yapılması, çalışmamızın doğru rapor edilmesi adına önemlidir. Kaliteli bir analize tabi tutulmayan bir çalışmanın geçerli ve güvenilir bilgileri sunması beklenemez. Bu açıdan, çalışmamızda kullanacağımız verilerin dağılımı ile ilgili, yukarıda verilen yöntemlerin bir arada kullanılması, daha sağlıklı sonuçlar alabilmemizi sağlayacaktır.
*** Çalışmalarınızda kullanabileceğiniz SPSS.25 uygulamasını buradan temin edebilirsiniz.
*** Çalışmalarınızda kullanabileceğiniz AMOS.24 uygulamasını buradan temin edebilirsiniz. Uygulamayı kurmakta sorun yaşarsanız, kurulum videosu için tıklayınız.
***Ya da vakit kaybetmeden, birebir profesyonel destek almak için benimle iletişime geçebilirsiniz.
Kaynakça
1- Kul, S. (2014). Uygun istatistiksel test seçim klavuzu. Plevra Bülteni, 8(2), 26-29.
2- Tabachnick, B. G., Fidell, L. S., & Ullman, J. B. (2007). Using multivariate statistics (Vol. 5). Boston, MA: Pearson.
3- McKillup, S. (2011). Statistics explained: an introductory guide for life scientists. Cambridge University Press. (kitabı indirebilirsiniz)
4- Wilcox, R. (2011). Modern statistics for the social and behavioral sciences: A practical introduction. CRC press.
5- Howitt, D., & Cramer, D. (2011). Introduction to SPSS statistics in psychology: for version 19 and earlier. Pearson.
6- Lind, D. A., Marchal, W. G., & Wathen, S. A. (2006). Basic statistics for business & economics. Boston: McGraw-Hill/Irwin.
7- Abbott, M. L. (2014). Understanding educational statistics using Microsoft Excel and SPSS. John Wiley & Sons.
8- Gnanadesikan, R. (2011). Methods for statistical data analysis of multivariate observations (Vol. 321). John Wiley & Sons.
Hocam merhaba, verdiğiniz bilgiler çok değerli. Teşekkür ederim. Çalışmamda verilerimin normalliğini basıklık çarpıklık değerleri ve grafik inceleyerek yazacağım. Yalnız bir sorum olacaktı basıklık çarpıklık katsayılarını standart hata oranına böldüğümüzde sıfıra yakın olması normal dağılıma uygun oluyor. Anlattığınız örnekte bu değerler kaç çıktı söylemediniz?
Benim verdiğim örneklerdeki değerler tamamen gelişigüzel değerler. Tam hatırlamıyorum ama, her örneğim bile farklı değerlerden oluşmuş olabilir.
Emeğinize sağlık hocam. Ayrıntılı ve konunun anlaşılması için her şey düşünülmüş
Tebrik ederim kardeşim
teseķkurler 😊