Sihirli Fasulyeler

Simpson Paradoksu

Bilim 3577 11.01.18 16.10.18 0

İstatistiksel verilerin önemi gün geçtikçe artıyor. Hastanelerden, siyasi partilere, hava yolu şirketlerinden, deterjan alan sade bir vatandaşa kadar artık herkes istatistiksel verilere göre karar veriyor. İnternet kullanıcılarının yüzde 40'ı şu uygulamayı kullanıyor sen de kullan, bu sabun bakterilerin yüzde 99'unu öldürüyor bunu al, bu ilaç hastaların yüzde 80'ini tedavi etti bunu kullan... Liste uzayıp gidiyor. Elbetteki bilimsel yöntemlerle elde edilen bu sonuçların güvenilir olduklarını düşünüyoruz. Fakat bazı durumlarda rakamlar değiştirilmeden, rakamların gösterdiği sonuçlar tamamen farklı yorumlanabilir. Ayrıca güvendiğimiz bu sonuçlar bilerek bize farklı şekilde gösteriliyor olabilir.

Şöyle bir senaryo düşünelim. Farzedelim ki baş ağrısı problemimiz var. Doktora gittik ve muayene olduk. Doktor tedavi için 2 farklı ilacın olduğunu söyledi. Bu ilaçlara A ve B ilaçları diyelim. Doktora hangi ilacı önerdiğini sorduk. Doktor bize ilaçlar için yapılmış test sonuçlarını gösterdi. Her iki ilaç için iki farklı test yapılmış. İlk testte A ilacı 90 kişi üzerinde denenmiş ve yüzde 70 başarı sağlamış, B ilacı 10 kişi üzerinde denenmiş ve yüzde 80 başarı sağlanmış. İkinci testte A ilacı 10 kişi üzerinde denenmiş ve yüzde 40 başarı sağlanmış, B ilacı ise 90 kişi üzerinde denenmiş ve yüzde 50 başarı sağlanmış. Aşağıdaki tabloda veriler daha net şekilde görülebilir.

Test No	A'nın Başarı Oranı	B'nin Başarı Oranı
Test 1	63/90 = Yüzde 70	8/10 = Yüzde 80
Test 2	4/10 = Yüzde 40	45/90 = Yüzde 50

İstatiklere baktığımızda B ilacının başarısı iki testte de A ilacından daha fazladır. Herhalde bu rakamlar önümüze konsa tereddütsüz B ilacını seçerdik. Fakat toplam kişi sayısı göz önüne alındığında sonuç tamamen farklılaşmaktadır. Tabloda gördüğünüz gibi A ilacı toplamda 100 kişi üzerinde denenmiş ve 67 kişide başarılı olmuş, B ilacı ise yine toplam 100 kişide denenmiş ve 53 kişide başarılı olmuş. Yani toplam kişi sayısını göz önünde bulundurursak, A ilacının başarısı yüzde 67 iken B ilacının başarı oranı yüzde 53'dür.

Test No	A'nın Başarı Oranı	B'nin Başarı Oranı
Test 1 + Test 2	67/100 = Yüzde 67	53/10 = Yüzde 53

Verilere toplam olarak baktığımızda sonuç tamamen farklılaşmaktadır. İşte bu duruma Simpson paradoksu adı verilir. Simpson paradoksu gruplanmış ve gruplanmamış verilerin zıt sonuçlar gösterdiği durumlardır.

Paradoksu anlamak için, paradoks için en bilinen örneği inceleyelim. 1973 yılında Berkeley Üniversitesi cinsiyet ayrımı yaptığı gerekçesiyle dava edilmiştir. Davanın dayanak noktası istatistiksel verilerdir. Bu verilere göre üniversiteye başvuru yapan erkek öğrencilerin yüzde 44'ü kabul edilirken, kız öğrencilerin yüzde 35'i kabul edilmiştir. Üniversiteye başvuran kız öğrenci sayısı 4321 iken erkeklerin sayısı 8442'dir. Yani toplamda 3714 erkek öğrenci kabul edilirken, sadece 1512 kız öğrenci kabul edilmiştir. Rakamlara baktığımızda üniversitenin gerçekten de erkek öğrencilere daha fazla yer verdiğini görürüz. Bu veri, toplam yani gruplanmamış veridir. Eğer veriler gruplanırsa sonucun tamamen farklılaştığını görebiliriz. Mahkeme verileri detaylandırmak istemiş ve her bölüm için kabul edilen erkek ve kız öğrencilerin sayısını istemiştir. Aşağıdaki tabloda üniversitenin en büyük 6 bölümünü ve bu bölümlere kabul edilen öğrenci sayılarını görebilirsiniz.

Bölüm	Erkek Öğrenci		Kız Öğrenci
Bölüm	Başvuran	Kabul Edilen	Başvuran	Kabul Edilen
A	825	Yüzde 62	108	Yüzde 82
B	560	Yüzde 63	25	Yüzde 68
C	325	Yüzde 37	593	Yüzde 34
D	417	Yüzde 33	375	Yüzde 35
E	191	Yüzde 28	393	Yüzde 24
F	373	Yüzde 6	341	Yüzde 7

Gördüğünüz gibi 6 departmanın 4'ünde kız öğrencilerin kabul oranı, erkek öğrencilerin kabul oranından fazladır. Eğer A bölümünün verilerine bakarsak, erkek ve kız öğrencileri kabul etme oranının en fazla olduğu bölümün A olduğunu görürüz. F ise kabul oranı en az olan bölümdür. Başvuran erkek öğrencilerin yüzde 10'u A bölümüne, yüzde 4'ü F bölümüne, başvuran kız öğrencilerin ise yüzde 2'si A'ya, yüzde 8'i ise F'ye başvuru yapmışlardır. Yani erkekler en fazla öğrenci kabul eden bölüme, kız öğrenciler ise en az öğrenci kabul eden bölüme daha fazla sayıda başvuru yapmışlardır. Bu nedenle toplam yüzdeler gruplanmış yüzdelere göre büyük farklılıklar göstermektedir.

Ürünlerin üstünde yazan, reklamlarda ve araştırmalarda bizlere gösterilen sonuçlar aslında tam tersini söylüyor olabilir. Emin olmak için Simpson paradoksunu göz önünde bulundurmalı, gruplanmış ve gruplanmamış verileri bizzat kendimiz incelemeliyiz.

İstatistiksel olarak doğru sonuçların farklı yorumlanabildiği başka yöntemler de mevcuttur. Bu yöntemlere Grafiklerle Nasıl Kandırılıyoruz adlı makalemden ulaşabilirsiniz.

Konuyu geliştirmemize yardımcı ol, konuyu değerlendir.

İlk Sen Değerlendir

Toplam Değerlendirme : 0

Bu konuyu paylaş

Yorum yaz, soru sor, geliştirme öner

İlk Yorumu Sen Yap

Sitene Destek Ver