VERİLERİN SINIFLANDIRILMASI Yrd. Doç. Dr. Ünal ERKORKMAZ Sakarya Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı uerkorkmaz@sakarya.edu.tr NİTEL VE NİCEL VERİLERİN SINIFLANDIRMASI Sınıflandırma ya da Gruplandırma, veri setinde belirli bir değere ya da belirli iki değer aralığında değerlere sahip kaç birim bulunduğunu tablo düzeninde gösterme işlemidir. Sınıflandırılmış verilerin uygun tablo ile gösterilmesine frekans serisi ya da frekans tablosu adı verilir. Yrd. Doç. Dr. Ünal ERKORKMAZ Slayt 2 / 22 Veriler, bir değişkenin, ölçüm, tartım ya da sayım sonucu n birimden elde edilmiş sayısal yada isimsel değerlerdir. Değerlerin nitel ya da nicel özellikte olmalarına göre veriler farklı yapıdadır. Nitel Değişkenler, Birimlerin; sosyal, kültürel, ekonomik ve sağlıkla ilgili kalite, durum ve pozisyon özelliklerini isimsel ya da kod değerleri cinsinden belirten iki ve daha fazla seçenekli karakteristik özellikleridir. Nicel Değişkenler, Birimlerin; sosyal, kültürel, ekonomik ve sağlıkla ilgili belirli bir ölçü aleti ile ölçüm, tartım ve sayım sonucu değerleri saptanan nicel (kantitatif) özelliklerini belirten değişkenlerdir. Yrd. Doç. Dr. Ünal ERKORKMAZ Slayt 3 / 22 Yrd. Doç. Dr. Ünal ERKORKMAZ 1
NİTEL VERİLERİN SINIFLANDIRILMASI Nitel veriler sınıflandırılırken değişkenin kaç seçeneği (kategori, şık, sınıf) varsa belirlenir ve her bir SEÇENEĞE sahip kaçar birim bulunduğu sayılarak belirlenir. Örneğin, AHastanesidoğum kliniğinde 2000 Mayıs ayında doğum yapan 50 kadının Eğitim Durum larına ilişkin verileri aşağıda verilmiştir. Bu kadınları Eğitim Durumu seçeneklerine göre frekans tablosu halinde aşağıdaki gibi gösterilir (Veriler türetilmiştir.). Yrd. Doç. Dr. Ünal ERKORKMAZ Slayt 4 / 22 Kadınların Eğitim Durumlarını (ED) gösteren seçeneklerin kod değerleri: (1) Okuryazar (2) İlkokul mezunu (3) Ortaokul mezunu (4) Lise ve Dengi Okul mezunu (5) Meslek Yüksek Okulu Mezunu (6) 4+ Yıllık Fakülte/ Yüksek Okul Mezunu ED değişkeni verileri 6 seçeneklidir. 50 Kadının eğitim durumları 1 3 4 3 2 1 4 2 3 1 2 6 4 3 3 2 3 2 5 4 2 2 3 3 2 1 1 6 2 5 3 6 5 1 4 5 4 3 2 3 3 5 4 5 2 4 3 6 5 6 Yrd. Doç. Dr. Ünal ERKORKMAZ Slayt 5 / 22 Sonra her nitelikte kaç kadın gözlendiği sayılarak ya da dizideki her kod tek tek ele alınarak aşağıdaki tablodaki seçeneklerden hangisine girdiği bir çizgi ile belirlenerek sınıflandırma işlemi yapılır. Tabloda iki sütun vardır. 1. sütun eğitim durumunun sınıflarını (kategorilerini), 2. sütun ise frekansları gösterir. Yrd. Doç. Dr. Ünal ERKORKMAZ Slayt 6 / 22 Yrd. Doç. Dr. Ünal ERKORKMAZ 2
Üniversite Uygulama Hastanesinde Mayıs 1999 da doğum yapan kadınların eğitim durumlarına göre dağılımı Eğitim Durumu Kod Kadın Sayısı Çetelemesi Kadın Sayısı (frekans) Okur Yazar 1 6 İlk Okul 2 11 Orta Okul 3 13 Lise 4 8 Önlisans 5 7 Lisans 6 5 Toplam - - 50 Yrd. Doç. Dr. Ünal ERKORKMAZ Slayt 7 / 22 NİCEL VERİLERİN SINIFLANDIRILMASI Birimlerin nicel (quantitatif, sayısal) özellikleri ölçülebilir ve tartılabilir niteliktedir. Bu tip değişkenlerin verilerine nicel veriler adı verilir. Nicel veriler Aralıklı (Interval) ya da Oransal (Ratio, Proportional) ölçümleme teknikleri ile elde edilirler. Yrd. Doç. Dr. Ünal ERKORKMAZ Slayt 8 / 22 Sayısal verilerde sınıflandırma Tanımlar Değişim Aralığı: En büyük değer En küçük değer (R) Sınıf: Bir alt ve üst sınır ile belirlenmiş veri grubu Sınıf Sayısı: Veri dizisindeki grup sayısı (k) Sınıf Aralığı: Ardışık iki sınıfın alt ya da üst sınırları arasındaki fark (SA) Sınıf Sınırları: Bir sınıfta yer alabilecek en küçük ve en büyük değerleri gösterir. SBD (Alt Sınır) ve SÜD (Üst Sınır) Sınıf Değeri: Bir sınıfın alt ve üst sınırlarının ortalamasıdır. (SD, x) Sınıf Frekansı: Sınıftaki değer sayısını gösterir. (f) Sınıf Göreli Frekansı (%): Sınıfın frekansının toplam değer sayısı (n) içindeki payını gösterir. (%f) Yrd. Doç. Dr. Ünal ERKORKMAZ Slayt 9 / 22 Yrd. Doç. Dr. Ünal ERKORKMAZ 3
SINIF SAYISI VE SINIF ARALIĞININ BELİRLENMESİ Nicel verilerin sınıflandırılmasında öncelikle verilerin kaç sınıfta gruplanacağı ve sınıf aralığının kaç olacağının belirlenmesi önem taşır. Değişkene Özel ya da Önceden belirlenmiş bir sınıflama yok ise aşağıdaki genel kural uygulanır. Veri setinde yer alan enküçük (minimum) ve enbüyük (maksimum) değerler saptanır (X min, X max ). Setin dağılım aralığı (R, range, değişim genişliği), R = X max -X min biçimde hesaplanır. Yrd. Doç. Dr. Ünal ERKORKMAZ Slayt 10 / 22 Dağılım aralığı R bir kez 8 sayısına bölünerek C1 sayısı, bir kez 15 ye bölünürek C2 sayısı belirlenir. C1=R/8 C2=R/15 Sınıf aralığı (SA), C2 < SA < C1 olacak biçimde, bu aralıkta yer alan devirli tamsayı olarak seçilir. Devirli sayı, katları kolaylıkla alınabilen 1, 2, 2.5, 3, 5, 7.5, 10, 15, 20, 25, 50, 100... gibi sayılardır. Sınıf sayısı belirlendikten sonra X min birinci sınıf içinde ve X max son sınıfta yer alacak şekilde her sınıfın sınıf başlangıç değerleri (SBD(i)) belirlenir. Yrd. Doç. Dr. Ünal ERKORKMAZ Slayt 11 / 22 Sınıfdeğerleri (SD(i)) (Sınıf ortadeğerleri (SD(i)) Sınıf Başlangıç Değerleri (SBD(i)) ve Sınıf Üst Değerleri (SÜD(i)) belirlenir (i=1, 2,...,k). Örneğin, 60 deney hayvanı (kobay) ın ağırlıklarına ilişkin veri setinde en küçük kobay ağırlığı 120 gram ve en büyük kobay ağırlığı 145 gram olarak saptanmıştır. Bu 60 kobayınağırlıklarını uygun şekilde sınıflandırmak için SA ve k aşağıdaki gibi belirlenir. Dağılım aralığı, R=145-120=25 olarak hesaplanır. C1 ve C2 değerleri; C1=25/8=3.13, C2=25/15=1.67 olarak hesaplanır. Yrd. Doç. Dr. Ünal ERKORKMAZ Slayt 12 / 22 Yrd. Doç. Dr. Ünal ERKORKMAZ 4
Sınıf Aralığı 1.67 <SA< 3.13 olarak alınır. Sürekli Nicel değişkenlerin Frekans Tablosunda sınıf sayısı 8 ile 15 arasında olması ideal durumdur. Bu kurala uyacak şekilde C1 ve C2 ye yakın devirli sayılar SA olarak alınabilir. Eğer SA=1 alınırsa k=25, SA=2 alınırsa k=13 ve SA=3 alınırsa k=9 olarak belirlenir. Örneğimizde SA=2 ya da SA=3 alınırsa uygun sınıflandırma yapılabilir. Örneğimizde biz SA=3 ü uygun görüyoruz. SA=3 olacak biçimde sınıfların SBD, SD ve SÜD leri aşağıdaki Tablo da verilmiştir. Yrd. Doç. Dr. Ünal ERKORKMAZ Slayt 13 / 22 Ağırlık sınıflarının alt, üst ve sınıf değerleri Sınıf SBD SÜD SD, x 1 120 122 121 2 123 125 124 3 126 128 127 4 129 131 130 5 132 134 133 6 135 137 136 7 138 140 139 8 141 143 142 9 144 146 145 Yrd. Doç. Dr. Ünal ERKORKMAZ Slayt 14 / 22 Sınıfların alt, üst ve sınıf değerleri, verilerin ölçülebilen en küçük değerlerine göre farklılık gösterir. i. sınıf üst değeri SÜD(i)=SBD(i+1)-e biçiminde, i. sınıf değeri SD(i)= x(i)=(sbd(i)+süd(i))/2 biçiminde hesaplanır. 2. ve sonraki sınıfların SBD değerleri SBD(i+1)=SBD(i)+SA biçiminde hesaplanır. Burada e değeri bir hata (ölçülebilen en küçük değer, hassasiyet değeridir ve değişkenin ölçüm birimine göre e=1, 0.1, 0.01, 0.001, 0.0001... olarak alınır. Yrd. Doç. Dr. Ünal ERKORKMAZ Slayt 15 / 22 Yrd. Doç. Dr. Ünal ERKORKMAZ 5
Örneğin; yukarıdaki tabloda ağırlık değişkeni sürekli bir değişkendir ve SÜD(i) değerleri bir sonraki sınıfın SBD(i+1) değerine e (e=1) bir farkla yaklaşan değerler olarak alınmıştır. Yrd. Doç. Dr. Ünal ERKORKMAZ Slayt 16 / 22 Bir önceki örneğimizde ki 60 kobay ın ağırlıklarına ilişkin veri setinde en küçük kobay ağırlığı 120.0 gram ve en büyük kobay ağırlığı 145.6 gram olarak saptanmış olsaydı Bu 60 kobayın ağırlıklarını uygun şekilde sınıflandırmak için SA ve k aşağıdaki gibi belirlenirdi. Dağılım aralığı, R=145.6-120.0=25.6 olarak hesaplanır. C1 ve C2 değerleri; C1=25.6/8=3.2, C2=25.6/15=1.71 ve yine SA =3 olarak hesaplanırdı. Buna göre hazırlanacak tabloda e=0.1 e göre SBD, SÜD ve SD aşağıdaki gibi olurdu. Yrd. Doç. Dr. Ünal ERKORKMAZ Slayt 17 / 22 Ağırlık sınıflarının alt, üst ve sınıf değerleri Sınıf SBD SÜD SD, x 1 120.0 122.9 121.45 2 123.0 125.9 124.45 3 126.0 128.9 127.45 4 129.0 131.9 130.45 5 132.0 134.9 133.45 6 135.0 137.9 136.45 7 138.0 140.9 139.45 8 141.0 143.9 142.45 9 144.0 146.9 145.45 Yrd. Doç. Dr. Ünal ERKORKMAZ Slayt 18 / 22 Yrd. Doç. Dr. Ünal ERKORKMAZ 6
Örnek: 50 öğrencinin boy uzunlukları (cm olarak) aşağıdaki gibi verilmiştir. Bu verileri uygun şekilde sınıflandıralım. Boy uzunluğu (cm ) : 162, 171, 173, 164, 167, 173, 178, 168, 172, 166 170, 169, 180, 169, 173, 177, 164, 178, 170, 163 176, 174, 178, 179, 180, 166, 171, 170, 165, 175 169, 170, 172, 176, 181, 177, 171, 167, 168, 170 169, 165, 170, 169, 171, 176, 176, 169, 170, 165 Bu dizide X min = 162 cm, X max = 181 cm dir. R = 181-162 = 19 C1 =19/8 =2.38 C2 = 19/15 = 1.27 1.27 < SA < 2.38 SA = 2 cm alınabilir. Yrd. Doç. Dr. Ünal ERKORKMAZ Slayt 19 / 22 162 cm lik boy uzunluğuna sahip öğrenci 1. sınıfta yer alacak şekilde ilk sınıf alt değeri (SBD(1)) saptanır. 181 değeri en son sınıf içinde yer alacak biçimde SBD(i+1) değerleri SBD(i+1)=SBD(i)+SA biçiminde hesaplanır. SÜD(i) değerleri veri tipine uygun biçimde belirlendikten sonra diğer sınıfların SÜD(i+1) değerleri SÜD(i+1)=SÜD(i)+SA biçiminde hesaplanır. Belirlenen uygun sınıf sınırlarını içeren bir tablo yapılır ve veri setindeki değerlerin girdikleri sınıflar çeteleme yöntemi ile belirlenir ve verilerin uygun sınıflama tablosu elde edilir. Yrd. Doç. Dr. Ünal ERKORKMAZ Slayt 20 / 22 Örneğimizde uygun sınıflar, çeteleme yapısı ve frekans tablosu aşağıdaki gibi elde edilir. Bu tablo hazırlanırken ilk gözlem değeri 162 cm 1. sınıfa ait bir gözlemdir ve 1. sınıfın çetelemesine bir adet düz çizgi ( ) çekilir. 2. gözlem 172 değeri 6. sınıfa gireceği için 6. sınıfın çetelemesine bir düz çizgi eklenir. Tüm gözlem değerleri sıra ile taranarak tüm değerler ait oldukları sınıflarda gösterilir. Her sınıfın çetelemesi sayılır ve frekans sütunu oluşturulur. Çeteleme değerleri kolay sayılsın diyebeşerli gruplar halinde ayrı ayrı gösterilir. Yrd. Doç. Dr. Ünal ERKORKMAZ Slayt 21 / 22 Yrd. Doç. Dr. Ünal ERKORKMAZ 7
50 öğrencinin boy uzunlukları frekans tablosu Boy Uzunluğu Sınıf Frekans Çeteleme (k) (f) SBD SÜD SD 1 162 163 162.5 2 2 164 165 164.5 5 3 166 167 166.5 4 4 168 169 168.5 8 5 170 171 170.5 11 6 172 173 172.5 5 7 174 175 174.5 2 8 176 177 176.5 6 9 178 179 178.5 4 10 180 181 180.5 3 Toplam - - - - 50 Yrd. Doç. Dr. Ünal ERKORKMAZ Slayt 22 / 22 Yrd. Doç. Dr. Ünal ERKORKMAZ 8