Medyan (ya da ortanca) bir anakütle ya da örneklem veri serisini küçükten büyüğe doğru sıraladığımızda, seriyi ortadan ikiye ayıran değere denir. İstatistiğin bir alt dalı olan betimsel istatistikde medyan bir merkezsel konum ölçüsü kabul edilir.1
Bir olasılık dağılımı simetrik olmayıp, çarpıklık gösteriyorsa, medyan, aritmetik ortalamadan daha uygun bir merkezsel konum ölçüsüdür. Simetrik olmama, sıralanmış veri değerleri için ya en küçük değerlerin ya da en büyük değerlerin diğerlerinden çok daha fazla uzaklaşması ile ortaya çıkar. Bu beklenmedik küçük veya büyük değerlere aykırı değer (outlier) adı verilir. Eğer veri dağılımı asitmetrik olan aykırı değerler kapsıyorsa, medyan aritmetik ortalamaya nazaran daha güçlü (robust) bir merkezsel konum ölçüsü halini alır.
Veri sayıları küçükten büyüğe doğru sıralandıktan sonra, n gözlem sayısı olmak üzere, medyan değerinin bu seri içindeki sıra numarası şu şekilde bulunur:
$$Medyan pozisyonu= \frac{(n+1)}{2}$$
Eğer gözlem sayısı tek ise medyanın sıra numarası bir tam sayı olacaktır ve doğrudan medyan bulunur. Eğer gözlem sayısı çift ise medyanın sıra numarası ½ li bir sayı çıkar. Bu durumda bu sayının etrafındaki iki değerin aritmetik ortalaması medyandır.
Örnek:
1,3,4,5,7,8,13 dizisinin medyanı 4. sıradaki eleman olan 5'tir.
2,4,6,8 dizisinin medyan pozisyonu 2.5'tir. Bu durumda 2. ve 3. elemanların aritmetik ortalaması yani (4+6)/2=5 medyan değeridir.
Gözlem sayısı küçükse, gözlem değerlerinin sıralaması elle kolay olarak yapılabilmekte ve bu hesaplama kolaylığı merkezsel konum ölçüsü olarak medyanın tercih edilmesine bir neden olmaktadır. Ancak gözlem sayısı n artıkça, sıralama işlemleri gittikçe zorlaşmaktadır; ayrıca basit el hesap makinaları ile sıralama yapmak imkanı olmamaktadır. Bilgisayar kullanılmadan ve elle yapılan işlemler kullanarak büyük gözlem sayılı verilerinin sıralanması zorluğu nedeni ile medyan büyük veri kullanılması gerektiren araştırmalarda kullanılmamıştır. Ama bilgisayarların gelişmesi ile medyan kullanılmasının bu dezavantajı kaybolmuştur. Bilgisayarla yapılan veri sıralanması için, özellikle çok büyük gözlem sayıda veri için özel hızlı sıralama algoritmaları kullanılmaktadır. Bu sıralama algoritmalarında genellikle (n log n) işlem yapılmaktadır ama özel böl ve fethet algoritması kullanılması ile sadece n işlem gerekmektedir.
Veri değerleri gruplanmış ve çokluk dağılımları olarak verilmişler ise, medyan, gözlem sayısında N/2 inci değerin denk düştüğü sınıftadır ve interpolasyon ile ortaya çıkartılan formülü şu şekilde verilir:
$$Medyan = L + \frac{c}{f}\left(\frac{N}{2}-d\right)$$
Reel doğrusu üzerinde olan ve F fonksiyonu ile ifade edilen yığmalı dağılım fonksiyonu gösteren herhangi bir olasılık dağılımı için, kesikli veya sürekli olması özelliğine bakılmadan, medyan değeri m şu eşitsizlik ifadelerine her zaman uyar:
$$\operatorname{P}(X\leq m) \geq \frac{1}{2} \quad\land\quad \operatorname{P}(X\geq m) \geq \frac{1}{2},!$$
veya
$$\int_{-\infty}^m \mathrm{d}F(x) \geq \frac{1}{2} \quad\land\quad \int_m^{\infty} \mathrm{d}F(x) \geq \frac{1}{2},!$$
Belirli parametreleri olan belirli dağılımların medyanları hakkında şunlar söylenebilir:
Medyan, mutlak dağılmaların ortalamalarının en küçük değerini bulan bir merkezsel noktadır. Olasılık kuramının özel terimlerine göre
$$E(\left|X-c\right|),$$
ifadesini en küçük yapan c değeri için, X rassal değişkenin olasılık dağılımının medyanıdır. Dikkat edilmesi gerekir ki, c her zaman tek değildir ve onun için genellikle kesinlikle tanımlanamaz.
Orijinal kaynak: medyan. Creative Commons Atıf-BenzerPaylaşım Lisansı ile paylaşılmıştır.
Ne Demek sitesindeki bilgiler kullanıcılar vasıtasıyla veya otomatik oluşturulmuştur. Buradaki bilgilerin doğru olduğu garanti edilmez. Düzeltilmesi gereken bilgi olduğunu düşünüyorsanız bizimle iletişime geçiniz. Her türlü görüş, destek ve önerileriniz için iletisim@nedemek.page