eda ne demek?

EDA, Exploratory Data Analysis'in kısaltmasıdır ve Türkçe'ye Keşfedici Veri Analizi olarak çevrilebilir. Veri biliminin temel bir aşaması olan EDA, veriler hakkında genel bir anlayış geliştirmek ve veri setinin yapısını, örüntülerini, aykırı değerlerini ve ilişkilerini keşfetmek için kullanılır. İstatistiksel yöntemler, görselleştirmeler ve özetleyici istatistikler kullanarak gerçekleştirilir.

EDA'nın amacı, verilerle ilgili önseziler kazanmak ve daha gelişmiş analizler için veriyi hazırlamaktır. Bu süreç, genellikle veri temizleme, veri dönüştürme ve özellik mühendisliği adımlarını içerir.

EDA'nın Ana Hedefleri:

  • Veri Anlayışı: Veri setinin boyutunu, değişken türlerini, eksik değerlerin varlığını ve dağılımlarını anlamak.
  • Örüntü ve İlişkilerin Keşfi: Veri setindeki eğilimleri, kümelenmeleri ve değişkenler arasındaki ilişkileri tespit etmek.
  • Aykırı Değerlerin Tespiti: Olağan dışı gözlemleri ve olası hataları belirlemek.
  • Veri Temizliği ve Hazırlığı: Eksik değerlerin işlenmesi, aykırı değerlerin ele alınması ve verinin modelleme için uygun hale getirilmesi.
  • Hipotez Oluşturma: Gelecekteki daha formal analizler için hipotezler geliştirmek.

EDA'da Kullanılan Teknikler:

  • Özetleyici İstatistikler: Ortalama, medyan, mod, standart sapma, varyans, çarpıklık ve basıklık gibi istatistiksel ölçütler.
  • Görselleştirmeler: Histogram, box plot, scatter plot, pair plot, heatmap gibi grafiksel gösterimler.
  • Eksik Veri Analizi: Eksik verilerin oranının belirlenmesi ve eksik verilerin doldurulması veya çıkarılması için stratejilerin belirlenmesi.
  • Aykırı Değer Analizi: Aykırı değerlerin tespiti ve bunların işlenmesi için yöntemlerin belirlenmesi.
  • Korelasyon Analizi: Değişkenler arasındaki ilişkinin gücünü ve yönünü ölçmek.

EDA'nın Faydaları:

  • Daha İyi Model Performansı: Veri hakkında derin bir anlayış, daha iyi model performansı sağlayacak doğru model seçimi ve özellik mühendisliği için yol gösterir.
  • Hata Tespiti: Veri setindeki hataları ve tutarsızlıkları erken aşamada tespit etmeye yardımcı olur.
  • Daha İyi Karar Verme: Veriye dayalı daha bilinçli kararlar alınmasını sağlar.
  • Zaman ve Kaynak Tasarrufu: Daha ileri analizlerde zaman ve kaynak kaybını önler.

Kısacası, EDA, veri bilimi sürecinin olmazsa olmaz bir parçasıdır ve verileri anlamak, temizlemek ve modelleme için hazırlamak için kritik bir adımdır. İstatistiksel yazılımlar (R, Python, SAS vb.) ve görselleştirme araçları EDA sürecinde yaygın olarak kullanılır.