standart sapma ne demek?

Standart sapma, Olasılık kuramı ve istatistik bilim dallarında, bir anakütle, bir örneklem, bir olasılık dağılımı veya bir rassal değişken, veri değerlerinin yayılımının özetlenmesi için kullanılan bir ölçüdür. Matematik notasyonunda genel olarak, bir anakütle veya bir rassal değişken veya bir olasılık dağılımı için standart sapma σ (eski Yunan harfi olan küçük sigma) ile ifade edilir; örneklem verileri için standart sapma için ise s veya s' (anakütle σ değeri için yansız kestirim kullanılır.)

Standart sapma varyansın kareköküdür. Daha matematiksel bir ifade ile standart sapma veri değerlerinin aritmetik ortalamadan farklarının karelerinin toplamının veri sayısı -1'e bölümünün kareköküdür, yani verilerin ortalamadan sapmalarının kareler ortalamasının karekökü olarak tanımlanır. Standart sapma kavramının yayılma ölçüsü olarak kullanılmasını anlamak için ölçüm birimine bakmak gerekir. Diğer yayılma ölçüsü olan varyans verilerin ortalamadan farklarının karelerinin ortalaması olarak tanımlanır. Böylece varyans ölçüsü için veri birimlerinin karesi alınması gerekir ve varyansın birimi veri biriminin karesidir. Bu durum pratikte istenmeyen sonuçlar yaratabilir (Örneğin veriler birimi kilogram ise varyans birimi kilogram kare olur). Bundan kaçınmak için standart sapma için varyansın karekökü alınarak standart sapma birim veri birimi olması sağlanır ve verinin yayılımı böylece veri birimleri ile ölçülür.

Standart sapma genel olarak niceliksel ölçekli sayılar için en çok kullanılan verilerin ortalamaya göre yayılmasını gösteren bir istatistiksel ölçüdür. Eğer birçok veri ortalamaya yakın ise, standart sapma değeri küçüktür; eğer birçok veri ortalamadan uzakta yayılmışlarsa standart sapma değeri büyük olur. Eğer bütün veri değerleri tıpatıp ayni ise standart sapma değeri sıfırdır

Tanımlama ve hesaplama

Rassal değişken için standart sapma

Bir rassal değişken olan X için standart sapma şöyle tanımlanır:

$$\begin{array}{lcl} \sigma & = &\sqrt{\operatorname{E}((X - \operatorname{E}(X))^2)} = \sqrt{\operatorname{E}(X^2) - (\operatorname{E}(X))^2} \ & = & \sqrt{\operatorname{Var}(X)} \end{array}$$

Burada E(X) X için beklenen değer yani ortalama ve Var(X) X için varyans değeridir.

Her rassal değişken dağılım tipi için bir standart değer var olması gerekli değildir. Çünkü bazı dağılımlar için beklenen değer bulunamaz. Örneğin, Cauchy dağılımı gösteren bir rassal değişken X için bir standart sapma yoktur; çünkü E(X) tanımlanamaz.

Eğer bir rassal değişken X (reel sayılar olan) $\scriptstyle x_1,\dots,x_n$ değerlerini eşit olasılıkla alırsa, o rassal değişken için standart sapma şöyle hesaplanır:

Önce, X için ortalama $\overline{x}$, şu toplam olarak tanımlanır:

$$\overline{x} = \frac{1}{n}\sum_{i=1}^n x_i = \frac{x_1+x_2+\cdots+x_n}{n}$$

Burada N alınan örneklem büyüklüğü sayısıdır.

Sonra, standart sapma ifadesi şöyle basitleştirilir:

$$\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2}.$$

Yani, bir aralıklı tekdüze dağılım gösteren rassal değişken X için standart sapma şöyle hesaplanır:

  1. Her $x_i$ değeri için x<sub>i</sub> le ortalama değer olan $\scriptstyle\overline{x}$ arasında olan farklar $\scriptstyle x_i - \overline{x}$ olarak bulunur.
  2. Bu farkların kareleri hesaplanır.
  3. Bu farkların karelerinin ortalaması bulunur. Bu değer varyans, yani σ<sup>2</sup>, olur.
  4. Bu varyans değerinin kare kökü alınır.

Ancak hesapları elle veya el hesap makinesi ile yapmak için genellikle daha uygun bir formül kullanılır:

$$\sigma = \sqrt{\frac{1}{n} \left(\sum_{i=1}^n x_i^2 - n\overline{x}^2\right)}.$$

Bu iki formülün birbire eşitliği biraz cebir kullanılarak gösterilebilir:

$$\begin{align} \sum_{i=1}^n (x_i - \overline{x})^2 & = {} \sum_{i=1}^n (x_i^2 - 2 x_i\overline{x} + \overline{x}^2) \ & {} = \left(\sum_{i=1}^n x_i^2\right) - \left(2 \overline{x} \sum_{i=1}^n x_i\right) + n\overline{x}^2 \ & {} = \left(\sum_{i=1}^n x_i^2\right) - 2 \overline{x} (n\overline{x}) + n\overline{x}^2 \ & {} = \left(\sum_{i=1}^n x_i^2\right) - n\overline{x}^2. \end{align}$$

Anakütle standart sapma değerinin örneklem standart sapma kullanılarak kestirimi

Pratik hayatta, her bir anakütle elemanın ölçülmesini gerektiren bir anakütle standart sapma değeri bulmak, bazı çok nadir haller dışında (örnegin standart hale getirilmiş mekanik test etme), hiç realistik değildir. Nerede ise her halde, anakütleden bir rastgele örneklem alınır ve bu örneklemden anakütle standart sapması için bir kestirim değer bulunur. Bu kestirim, çok kere örneklem standart sapmasını anakütle standard sapmasının aynı olan bir formülü kullanmak suretiyle yapılır:

$$s = \sqrt{\frac{1}{N-1} \sum_{i=1}^N (x_i - \overline{x})^2},,$$

Burada $\scriptstyle{x_1,,x_2,,\ldots,,x_n}$ örneklem değerleri ve $\scriptstyle\overline{x}$ örneklem ortalamasıdır. Bölen değer olan n − 1

$$\scriptstyle(x_1-\overline{x},,\dots,,x_N-\overline{x})$$. vektörü içinde bulunan serbestik derecesi olur.

Bu belki bir bakıma uygundur; çünkü eğer bir anakütle varyansının kavramsal olarak var olduğu biliniyorsa ve örneklem için anakütleden her eleman çekiminden sonra bu eleman geri konulursa, bilinmektedir ki örneklem varyansı (yani s<sup>2</sup>) anakütle varyansı (yani σ<sup>2</sup>) için bir yansız kestirim olur. Ancak bu standart sapmalar için doğru değildir ; yani yukaridaki gibi bulunan örneklem standart sapması (s) anakütle standart sapması (σ) için yansız kestirim değeri değildir ve s ile anakütle standart sapması biraz daha küçükçe tahmin edilir. Eğer rassal değişken normal dağılım gösteriyorsa, bu yansız olan kestirim pratikte çok kolay olmayan bir dönüşüm ile elde edilebilmektedir. Ayrıca zaten bir kestirim için yansız olmak karakteri her zaman çok istenir bir özellik değildir.

Çok kullanılan diğer bir kestrim ise benzer bir ifade ile şöyle verilir:

$$\sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2},,.$$ olur. Eğer anakütle normal dağılım gösteriyorsa, bu şekildeki kestirim yansız kestirimden her zaman biraz daha küçük ortalama hata karesi gösterir ve bu nedenle normal için maksimum olabilirlik kestirimi olur.

Bir sürekli rassal değişken için standart sapma

Sürekli olasılık dağılımları için genellikle standart sapma değerinin dağılıma özel olan parametreleri kullanılarak hesaplanması için formül vardır. Genel olarak ise, p(x) olasılık yoğunluk fonksiyonu olan bir sürekli rassal değişken olan X için standart sapma şöyle verilir:

$$\sigma = \sqrt{\int (x-\mu)^2 , p(x) , dx}$$ Burada

$$\mu = \int x , p(x) , dx$$

Örneğin

Burada önce çok ufak bir anakütle veri serisi için standart sapma hesaplaması gösterilmektedir. Bu seri bir inşaat firmasının yabancılara yaptığı aylık daire satış sayılarını göstermektedir ve veri serisi şudur: { 5, 2, 11, 12, 3, 6 }.

1. Önce bir aritmetik ortalama $\overline{x}$ şöyle hesaplanır:

$$\sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2},,.$$.

Burada i her veriye verilen sıra numarasıdır yani i=1,2,3,...,6. Yani

$$x_1 = 5,!$$

$$x_2 = 2,!$$

$$x_3 = 11,!$$

$$x_4 = 12,!$$

$$x_5 = 3,!$$

$$x_6 = 6,!$$ Bu halde N = 6 olup veri büyüklüğü veya anakütle hacmidir.

$$\overline{x}=\frac{1}{6}\sum_{i=1}^6 x_i$$        N yerine 6

$$\overline{x}=\frac{1}{6} \left ( x_1 + x_2 + x_3 + x_4 + x_5 + x_6 \right )$$

$$\overline{x}=\frac{1}{6} \left ( 5 + 2 + 11 + 12 + 3 + 6 \right )$$

$$\overline{x}= 6.5$$    Bu aritmetik ortalamadır.

2. Standart sapma $\sigma,!$ değerini bulma:

$$\sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2},,.$$

$$\sigma = \sqrt{\frac{1}{6} \sum_{i=1}^6 (x_i - \overline{x})^2}$$        N yerine 6

$$\sigma = \sqrt{\frac{1}{6} \sum_{i=1}^6 (x_i - 6.5)^2}$$       $\overline{x}$ yerine 6.5

$$\sigma = \sqrt{\frac{1}{6} \left [ (5 - 6.5)^2 + (2 - 6.5)^2 + (11 - 6.5)^2 + (12 - 6.5)^2 +(3 - 6.5)^2 + (6 - 6.5)^2 \right ] }$$

$$\sigma = \sqrt{\frac{1}{6} \left ( (-1.5)^2 + (-4.5)^2 + (4.5)^2 + (5.5)^2 + (-3.5)^2 + (-0.5)^2 \right ) }$$

$$\sigma = \sqrt{\frac{1}{6} \left ( 2.25 + 20.25 + 20.25 + 30.25 + 12.25 + 0.25 \right ) }$$

$$\sigma = \sqrt{\frac{85.5}{6}}$$

$$\sigma = \sqrt{14.25}$$

$$\sigma = 3.77,!$$   Bu standart sapma değeri olur.

Bu sonucun dikkati çekecek bir yanı verilerin tam sayı olmasına rağmen standart sapmanın (ve ayni şekilde aritmetik ortalamanın) kesirli olmasıdır.

Bu hesaplamayı daha kolaylaştırmak için şu formül kullanılabilir:

$$\sigma = \sqrt{\frac{1}{n} \left(\sum_{i=1}^n x_i^2 - n\overline{x}^2\right)}.$$

1. Önce bir aritmetik ortalama $\overline{x}$ hesaplanır:

$$\overline{x}=\frac{1}{N}\sum_{i=1}^N x_i$$.

$$\overline{x}=\frac{1}{6} \left ( 5 + 2 + 11 + 12 + 3 + 6 \right )$$

$$\overline{x}= 6.5$$    Bu aritmetik ortalamadır.

2. Sonra toplam kareler bulunur:

$$\sum{(x_i)^2}$$ = 5<sup>2</sup> + 2<sup>2</sup> + 11<sup>2</sup> + 12<sup>2</sup> + 3<sup>2</sup> + 6 <sup>2</sup>

$$\sum{(x_i)^2}$$ = 25+4+121+144+9+36

$$\sum{(x_i)^2}$$ = 339

3. Bunlar formüle konulur:

Yani $\sum{(x_i)^2}$ = 339     $\overline{x}= 6.5$    $n=6$     formüle girer:

$$\sigma = \sqrt{\frac{1}{6} \left ( 339 - 6 \times {6.5}^2\right)}$$

$$\sigma = \sqrt{\frac{1}{6} \ (339 - 253.5)}$$

$$\sigma = \sqrt{\frac{1}{6} \ (85.5)}$$

$$\sigma = \sqrt{14.25}$$

$$\sigma = 3.77,!$$   Bu standart sapma değeridir.

Açıklama ve uygulama

Belli bir seri sayı için standart sapma değerini bilmek ve bu kavramı anlamak demek bir ortalama etrafında bu serinin ne kadar yayılım gösterdiğini anlamaktır. Standart sapmanın büyük olması veri noktalarının ortalamadan daha uzak yayıldıklarını; küçük bir standart sapma ise ortalama etrafında daha çok yakın gruplaştıklarını gösterir.

Standart sapma belirsizliğin bir ölçüsü olarak hizmet edebilir. Fiziksel bilimlerde, tekrar tekrar yapılan deneyler ve deneylerde alınan ölçüler ise gösterilen standart sapma olgusu bu deneyin ölçülmesindeki kesinlik ve doğruluğunu gösterir. Ölçümlerin teoriye dayanan bir tahmin ile karşılaştırıp birbirine uygunluk gösterip göstermediğine karar vermede ölçümlerin standart sapması önemli rol oynar. Eğer ölçümlerin standart sapması teorik tahminden çok daha uzaksa, sınanan teorinin değiştirilmesi gerekir. İşte bu uzaklık standart sapmalarla belirlenir.

Finansmanda, standart sapma verilmiş bir menkul (hisse seneti, tahvil, emlak vb.) için rizikonun veya bir menkuller portföyü için rizikoları temsil eder. Bir yatırım portföyünün etkin olarak idare edilmesini tayin eden en önemli faktörlerden birisi rizikodur. Çünkü her tek bir menkulün veya bir menkuller portföyünün getirisindeki mümkün yayılımını riziko tanımlar ve rizikonun standart sapma ile tanımlanması ise yatırım kararları için bir matematiksel temel sağlar. En geniş kavramla, yatırım rizikosu arttıkça menkul veya menkuller portföyünün beklenen getirisi da artış gösterir. Buna neden yatırımcıların menkul getirileri için riziko primlerini artırmaları olarak açıklanır. Diğer bir deyişle, eğer bir yatırım daha yüksek riziko seviyesi taşıyorsa, yatırımcılar o yatırımından daha yüksek bir getiri beklemeleri gereklidir.

Uzunca bir zaman içinde herhangi bir menkul için yıllık getirilerinin ortalamasını bulmakla o menkul için beklenen getiri değerini vermektedir. Her yıl için elde edilen getiriden bu beklenen getiri farkı bulunursa buna finansmancılar ve muhasebeciler tarafından varyans adı verilir (Dikkat edilirse bu istatistiksel varyans kavramından farklıdır). Her bir yıl için varyansın karesini bulmak ve bu varyans karelerinin ortalamasının kare kökü o menkulün standart sapmasını yani rizikosunu gösterir. İşte bu rizikolar yani varyansların karelerinin toplamının ortalamasının kare kökü, standart sapmadır ve rizikoyu ölçer. Menkullerin karşılaştırılımı için temel çalışma işte bu ölçü ile yapılır.

Standart sapmalar için pratik uygulamalar daha değişik alanlarda da verilebilir; fakat burada bu ufak sayıda uygulamalar bile standart sapmanın uygun bir şekilde önemini ortaya çıkartmaktadır.

Normal dağılım gösteren veriler için kurallar

Pratikte, çok zaman verilerin yaklaşık olarak bir normal dağılım gösteren anakütleden geldiği varsayılır. Bu varsayıma neden olarak merkezsel limit teoreminin geçerliliği iddiası olur. Merkezsel limit teoremine göre birçok birbirinden bağımsız ve hepsi aynı dağılım gösteren rassal değişkenlerin toplamı limitte bir normal dağılıma göre eğilim gösterirler. Eğer bu varsayım geçerli ise, değerler yaklaşık %68,27 olasılıkla ortalamadan eksi ve artı bir standart sapma noktalarının arasında bulunur; ortalamadan artı ve eksi 2 standart sapma noktaları arasında %95,45 olasılıkla ve ortalamadan artı ve eksi 3 standart sapma noktaları arasında %99,73 olasılıkla bulunur. Bu 68-95-99.7 kuralı veya bir emprik kural olarak bilinir.

Güvenlik aralıkları şöyle gösterilebilir:

σ%68,26894921371
%95,44997361036
%99,73002039367
%99,99366575163
%99,99994266969
%99,99999980268
%99,99999999974

Normal dağılımlar için ortalamadan bir standart sapma uzaklıktaki eğri üzerindeki noktalar bir enfeksiyon noktası da olurlar.

Çebişev'in eşitsizliği

Yakınlık standart sapma birimlerinde ifade edilirse, herhangi bir veri serisi için, Çebişev'in eşitsizliği ile ispat edilmiştir ki veri değerlerin çok büyük çoğunluğu ortalama değere yakındır. Çebişev'in eşitsizliği sadece normal dağılım gösteren seriler için değil, bütün rastgele dağılım gösteren veri serileri için geçerlidir. Buna göre, şu zayıf sınırlar ve bu sınırlar içinde bulunan veri yüzdesi şöyle verilebilir:

Ortalamadan √2 standart sapma uzaklıkları arasında değerlerin en aşağı %50si bulunur.

Ortalamadan 2 standart sapma uzaklıkları arasında değerlerin en aşağı %75i bulunur.

Ortalamadan 3 standart sapma uzaklıkları arasında değerlerin en aşağı %89u bulunur.

Ortalamadan 4 standart sapma uzaklıkları arasında değerlerin en aşağı %94ü bulunur.

Ortalamadan 5 standart sapma uzaklıkları arasında değerlerin en aşağı %96sı bulunur.

Ortalamadan 6 standart sapma uzaklıkları arasında değerlerin en aşağı %97si bulunur.

Ortalamadan 7 standart sapma uzaklıkları arasında değerlerin en aşağı %98i bulunur.

Genel olarak:

ortalamadan k standart sapma uzaklıkları arasında değerlerin en aşağı %(1 − 1/k<sup>2</sup>) × 100 si bulunur.

Standart sapma ve ortalama arasındaki ilişki

Çok kere bir veri serisinin özetlenmesinde ortalama ve standart sapma birlikte bildirilmektedir. Bir anlamda, eğer ortalama verilerinin merkezi olarak kullanılan ölçü ise, standart sapma veri yayılımının doğal ölçüsüdür. Buna neden ortalama noktasından standart sapmanın, verinin herhangi bir noktasından standarize edilmiş sapmadan daha küçük olduğudur. Bu matematiksel ifade ile şöyle gösterilebilir: x<sub>1</sub>, ..., x<sub>n</sub> reel sayılar olsun ve şu fonksiyon tanımlansın:

$$\sigma(r) = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - r)^2}$$ Ya birinci türev alınıp sıfıra eşit yaparak veya daha kolay bir cebirsel yol olan kare tamamlaması kullanarak σ(r) nın tek ve sadece tek bir minimum noktasının aritmetik ortalama olduğu; yani

$$r = \overline{x}.,$$ gösterilebilir.

Standart sapma ile ortalama arasındaki diğer bir ilişki ise yayılım özelliğine dayanan veri karşılaştırılmaları için kullanılan varyasyon katsayısıdır. Bir veri serisi için varyasyon katsayısı standart sapma ile ortalama arasındaki orandır. Böylece, standart sapma (ve ortalama) veri birimleri ile boyutlu iken (örneğin veri TL ile ise standart sapma ve ortalama TL birimlerindedir); varyasyon katsayısı boyutsuz sırf bir sayıdır. Bu nedenle değişik birimlerde olan verilerin yayılımlarının karşılaştırılması için kullanılabilir.

Ayrıca bakınız

<div style="-moz-column-count:2; column-count:2;"> </div>

Kaynakça

Dış kaynaklar

  • Spiegel, Murray R, ve Stephens, Larry J. (Tr.Çev.: Çelebioğlu, Salih) (2013) İstatistik, İstanbul: Nobel Akademik Yayıncılık ISBN 9786051337043

Dış bağlantılar

Orijinal kaynak: standart sapma. Creative Commons Atıf-BenzerPaylaşım Lisansı ile paylaşılmıştır.

Kategoriler