Bilgi erişim değerlendirmesi için inovasyon metrikleri ve madde tepki teorisi / Mehmet Deniz Türkmen; thesis advisor Mücahid Kutlu.
Material type:
- text
- unmediated
- volume
- Integrating innovation metrics and item response theory for information retrıeval evaluation [Other title]
Item type | Current library | Home library | Collection | Call number | Copy number | Status | Date due | Barcode | |
---|---|---|---|---|---|---|---|---|---|
![]() |
Merkez Kütüphane Tez Koleksiyonu / Thesis Collection | Merkez Kütüphane | Tezler | TEZ TOBB FBE BİL YL’24 TÜR (Browse shelf(Opens below)) | 1 | Ödünç Verilemez-Tez / Not For Loan-Thesis | TZ01627 |
Tez (Yüksek Lisans)--TOBB ETÜ Fen Bilimleri Enstitüsü Ocak 2024
Bilgi erişim (BE) sistemleri değerlendirilirken çeşitli metrikler kullanılır ve genelde metriklerin dikkate aldığı birkaç temel kriter bulunmaktadır. Bunlar bulunan dokümanların ilgililik derecesi, sıralaması ve kapsadığı konu çeşitliliğidir. Bu tür bir değerlendirme, kullanıcı deneyimine odaklanarak pragmatik bir değerlendirme sunar. Bu tezde standart bilgi erişim metrikleri tarafından hesaba katılmayan değerlendirme kriterleri keşfedilmektedir. Bu amaçla, inovasyon metrikleri ve Madde Tepki Kuramı (IRT) bazlı değerlendirme olmak üzere iki adet metrik sınıfı üzerinde çalışılmıştır. Önerilen metrikler, BE sistemlerini kollektif olarak değerlendirmesi ve dokümanlara ait yeni kriterleri değerlendirme sürecine dahil etmesiyle ön plana çıkmaktadır. İnovasyon metriklerinde, doküman nadirliği tanımlanmış ve Bilgi Erişim yöntemlerinde çeşitliliğin ödüllendirilmesi hedeflenmiştir. IRT-bazlı değerlendirmede ise dokümanlara ait zorluk, ayrıştırıcılık gibi özelliklerin bilgi erişim değerlendirmesinde kullanılarak performans ölçümündeki hata payının azaltılması ve daha esnek bir değerlendirme ortamı amaçlanmıştır. Metrikler tasarlanırken literatürde sıklıkla kullanılan iki standart metrik (Precision@K ve Average Precision) temel alınmıştır ve bu metrikler değiştirilerek özgün versiyonları oluşturulmuştur. Bilgi erişim (BE) değerlendirme etkinliklerinde (evaluation campaigns) katılımcılar genellikle rekabetçi sonuçlar elde etmek için popüler ve güncel yöntemlerin varyasyonlarını kullanırlar. Bu etkili bir strateji olsa da, daha radikal ve yenilikçi metotların keşfedilmesini engellemektedir. Ayrıca birçok katılımcı benzer yaklaşımları temel olarak kullandığı için, sunulan yaklaşımların genel çeşitliliği sınırlı olabilir. Bu çalışmada, bilgi erişim değerlendirme etkinliklerinde yaklaşımların çeşitlilik kazanmasını teşvik etmek amacıyla tasarlanmış inovasyon metrikleri önerilmektedir. Bunun için var olan geleneksel metriklere eklentiler yapılarak amaç doğrultusunda yeni formlar kazandırılmıştır. Geleneksel BE metrikleri yalnızca kullanıcı deneyimine odaklanırken, önerilen ``inovasyon'' metrikleri, diğer BE sistemleri tarafından bulunamamış ilgili dokümanları bulan, daha farklı ve yüksek riskli stratejilerin keşfedilmesini ödüllendirmektedir. Diğer yandan, Madde Tepki Kuramı (Item Response Theory, IRT), eğitimsel değerlendirmede kullanılan matematiksel modelleri kapsar. IRT'de bir katılımcının verdiği doğru cevap sayısı ile aldığı puan arasındaki ilişki klasik yöntemlere göre daha karmaşıktır. IRT modelleri, katılımcıların performansını ölçerken soruların zorluğu, ayrıştırıcılığı gibi faktörleri de hesaba katar. Bu sayede daha doğru ve esnek bir değerlendirme mümkün olmaktadır. Buradan hareketle, tezde ilk defa IRT modelleri bilgi erişim değerlendirmesine uyarlanmıştır. Dört TREC koleksiyonunda yapılan deneyler, önerilen metriklerin sistem sıralamalarını değiştirdiğini göstermektedir. Metriklerin nasıl davrandığı, varsayımsal BE sistemleri ile yapılan kontrollü bir deneyde analiz edilmektedir. Ayrıca, baz alınan standart Precision@K ve Average Precision metrikleri tezde önerilen doğrultuda güncellendiğinde daha yüksek değerlendirme stabilitesi ve ayrıştırma gücüne sahip olduğu görülmüştür.
When evaluating Information Retrieval (IR) systems, various metrics are used, and generally, there are a few fundamental criteria that metrics take into account. These include the relevance of retrieved documents, their ranking, and the diversity of topics covered. Such an evaluation provides a pragmatic assessment by focusing on user experience. This thesis explores evaluation criteria not considered by standard information retrieval metrics. For this purpose, two classes of metrics were studied: innovation metrics and Item Response Theory (IRT) based metrics. The proposed metrics diverge by collectively evaluating IR systems and incorporating new criteria for document evaluation. Innovation metrics introduce document rareness and reward diversity among information retrieval methods. Through IRT-based metrics, document properties such as difficulty and discrimination are included in IR evaluation to reduce measurement error and to enable a more flexible evaluation. When designing metrics, two standard metrics commonly used in the literature (Precision@K and Average Precision) were taken as a basis, and these metrics were modified to create authentic versions. In information retrieval evaluation campaigns, participants often explore variations of popular and state-of-the-art methods to achieve competitive results. While this is an effective strategy, it hinders the discovery of more radical and innovative methods. Moreover, since many participants use similar approaches as a basis, the overall diversity of the presented approaches may be limited. In this study, innovation metrics are designed to encourage diversity in approaches in IR campaigns. Existing traditional metrics are extended to form proposed metrics. While traditional IR metrics focus on only user experience, the proposed "innovation" metrics reward the discovery of relevant documents that other IR systems cannot retrieve and encourage outlier and higher-risk strategies. On the other hand, Item Response Theory (IRT) encompasses mathematical models, mostly used in educational assessment. The relationship between the number of correct answers a participant gives and the score they receive is more complex in IRT than in classical assessment methods. IRT models take into account parameters such as difficulty and discrimination of questions when measuring participant performances. In this way, IRT provides a more accurate and flexible assessment. Therefore, in this thesis, for the first time, IRT models have been adapted to information retrieval evaluation. Experiments conducted on four TREC collections show that the proposed metrics change system rankings. The behavior of metrics is analyzed in a controlled experiment with hypothetical IR systems. Additionally, when the baseline Precision@K and Average Precision metrics were modified in the direction proposed in the thesis, higher evaluation stability and discriminative power were observed.
There are no comments on this title.