idf ne demek?

İDF, Ters Doküman Sıklığı (Inverse Document Frequency) anlamına gelir ve bir kelimenin bir doküman koleksiyonunda ne kadar nadir olduğunu ölçen bir terimdir. Doğal Dil İşleme (DDİ) ve Bilgi Erişimi alanlarında sıklıkla kullanılır.

IDF'nin Amacı:

IDF, bir kelimenin bir doküman içindeki önemini belirlemeye yardımcı olur. Sıkça geçen kelimeler (örneğin, "ve", "ya da" gibi bağlaçlar) genellikle bilgi taşımazlar. IDF, bu tür kelimelerin ağırlığını azaltarak, daha az görünen ve dolayısıyla daha anlamlı olabilecek kelimelere daha fazla önem verilmesini sağlar.

IDF Nasıl Hesaplanır:

IDF, genellikle aşağıdaki formülle hesaplanır:

IDF(t) = log_e(Toplam Doküman Sayısı / İçinde t Terimini İçeren Doküman Sayısı)

Burada:

  • t: İncelenen terim (kelime).
  • Toplam Doküman Sayısı: Koleksiyondaki toplam doküman sayısıdır.
  • İçinde t Terimini İçeren Doküman Sayısı: Koleksiyonda, incelenen t terimini içeren dokümanların sayısıdır.

Logaritma (genellikle doğal logaritma log_e kullanılır), IDF değerlerinin çok büyük olmasını engellemek için kullanılır.

IDF ve TF-IDF:

IDF, genellikle TF-IDF (Terim Frekansı - Ters Doküman Sıklığı) olarak bilinen bir ağırlıklandırma şemasının bir parçası olarak kullanılır. TF-IDF, bir kelimenin bir dokümandaki sıklığını (TF) ve kelimenin doküman koleksiyonundaki nadirliğini (IDF) birleştirerek, kelimenin doküman için ne kadar önemli olduğunu gösteren bir puan elde eder.

IDF'nin Kullanım Alanları:

  • Metin Sınıflandırma: Dokümanları kategorilere ayırmak için kullanılır.
  • Bilgi Erişimi (Arama Motorları): Arama sorgularıyla ilgili dokümanları sıralamak için kullanılır.
  • Metin Özetleme: Bir dokümanın en önemli kelimelerini belirlemek için kullanılır.
  • Anahtar Kelime Çıkarımı: Bir dokümanın anahtar kelimelerini belirlemek için kullanılır.