İDF, Ters Doküman Sıklığı (Inverse Document Frequency) anlamına gelir ve bir kelimenin bir doküman koleksiyonunda ne kadar nadir olduğunu ölçen bir terimdir. Doğal Dil İşleme (DDİ) ve Bilgi Erişimi alanlarında sıklıkla kullanılır.
IDF'nin Amacı:
IDF, bir kelimenin bir doküman içindeki önemini belirlemeye yardımcı olur. Sıkça geçen kelimeler (örneğin, "ve", "ya da" gibi bağlaçlar) genellikle bilgi taşımazlar. IDF, bu tür kelimelerin ağırlığını azaltarak, daha az görünen ve dolayısıyla daha anlamlı olabilecek kelimelere daha fazla önem verilmesini sağlar.
IDF Nasıl Hesaplanır:
IDF, genellikle aşağıdaki formülle hesaplanır:
IDF(t) = log_e(Toplam Doküman Sayısı / İçinde t Terimini İçeren Doküman Sayısı)
Burada:
t
: İncelenen terim (kelime).Toplam Doküman Sayısı
: Koleksiyondaki toplam doküman sayısıdır.İçinde t Terimini İçeren Doküman Sayısı
: Koleksiyonda, incelenen t
terimini içeren dokümanların sayısıdır.Logaritma (genellikle doğal logaritma log_e
kullanılır), IDF değerlerinin çok büyük olmasını engellemek için kullanılır.
IDF ve TF-IDF:
IDF, genellikle TF-IDF (Terim Frekansı - Ters Doküman Sıklığı) olarak bilinen bir ağırlıklandırma şemasının bir parçası olarak kullanılır. TF-IDF, bir kelimenin bir dokümandaki sıklığını (TF) ve kelimenin doküman koleksiyonundaki nadirliğini (IDF) birleştirerek, kelimenin doküman için ne kadar önemli olduğunu gösteren bir puan elde eder.
IDF'nin Kullanım Alanları:
Ne Demek sitesindeki bilgiler kullanıcılar vasıtasıyla veya otomatik oluşturulmuştur. Buradaki bilgilerin doğru olduğu garanti edilmez. Düzeltilmesi gereken bilgi olduğunu düşünüyorsanız bizimle iletişime geçiniz. Her türlü görüş, destek ve önerileriniz için iletisim@nedemek.page