apriori ne demek?

Apriori Algoritması

Apriori algoritması, birliktelik kuralı öğrenimi problemlerinde sıkça kullanılan bir algoritmadır. Özellikle veri madenciliği alanında, bir veri setindeki öğeler arasındaki ilişkileri belirlemek için kullanılır. Amaç, veri setinde sıkça birlikte görülen öğe kümelerini (yani sık geçiş kümelerini) bulmaktır.

Temel İlkeler:

  • Sık Geçiş Kümeleri (Frequent Itemsets): Belirli bir destek eşiğini aşan öğe kümeleridir. Destek (Support), bir öğe kümesinin veri setinde ne sıklıkta görüldüğünü ifade eder.
  • Destek Eşiği (Support Threshold): Bir öğe kümesinin sık geçiş kümesi olarak kabul edilmesi için gereken minimum destek değeridir. Bu eşik, kullanıcı tarafından belirlenir.
  • Apriori Prensibi: Eğer bir öğe kümesi sık geçiş kümesi ise, bu kümenin tüm alt kümeleri de sık geçiş kümesidir. Aynı şekilde, eğer bir öğe kümesi sık geçiş kümesi değilse, bu kümenin hiçbir üst kümesi sık geçiş kümesi olamaz. Bu prensip, algoritmanın verimliliğini artırmak için kullanılır.

Algoritmanın Adımları:

  1. Başlangıç: Her bir öğenin (tekil öğeler) destek değerini hesaplayın ve destek eşiğini aşanları "sık geçiş kümeleri" olarak işaretleyin.
  2. Aday Küme Oluşturma: Önceki adımda bulunan sık geçiş kümelerini kullanarak yeni aday kümeler oluşturun. Bu aday kümeler, bir önceki iterasyondaki sık geçiş kümelerinin birleşimi ile oluşturulur.
  3. Destek Hesaplama: Her bir aday kümenin destek değerini hesaplayın.
  4. Sık Geçiş Kümelerini Belirleme: Destek eşiğini aşan aday kümelerini sık geçiş kümeleri olarak işaretleyin.
  5. Tekrar: Aday küme oluşturma, destek hesaplama ve sık geçiş kümelerini belirleme adımlarını, yeni sık geçiş kümeleri bulunana kadar veya aday küme oluşturulamaz hale gelene kadar tekrarlayın.
  6. Birliktelik Kurallarını Oluşturma: Elde edilen sık geçiş kümelerinden güven (confidence) ve kaldıraç (lift) gibi metrikler kullanarak birliktelik kuralları çıkarılır.

Avantajları:

  • Anlaşılması ve uygulanması kolaydır.
  • Geniş bir uygulama yelpazesine sahiptir (market sepeti analizi, tıbbi teşhis, web kullanım analizi vb.).

Dezavantajları:

  • Büyük veri setleri için hesaplama maliyeti yüksek olabilir. Özellikle aday küme oluşturma ve destek hesaplama adımları zaman alıcıdır.
  • Düşük destek eşiği kullanıldığında çok sayıda sık geçiş kümesi oluşabilir, bu da analizi zorlaştırabilir.