000 07912nam a2200409 i 4500
999 _c200459531
_d77743
003 TR-AnTOB
005 20240125160803.0
007 ta
008 171111s2024 xxu e mmmm 00| 0 eng d
035 _a(TR-AnTOB)200459531
040 _aTR-AnTOB
_beng
_erda
_cTR-AnTOB
041 0 _atur
099 _aTEZ TOBB FBE BİL YL’24 TÜR
100 1 _aTürkmen, Mehmet Deniz
_eauthor
_9144779
245 1 0 _aBilgi erişim değerlendirmesi için inovasyon metrikleri ve madde tepki teorisi /
_cMehmet Deniz Türkmen; thesis advisor Mücahid Kutlu.
246 1 3 _aIntegrating innovation metrics and item response theory for information retrıeval evaluation
264 1 _aAnkara :
_bTOBB ETÜ Fen Bilimleri Enstitüsü,
_c2024.
300 _axviii, 47 pages :
_billustrations ;
_c29 cm
336 _atext
_btxt
_2rdacontent
337 _aunmediated
_bn
_2rdamedia
338 _avolume
_bnc
_2rdacarrier
502 _aTez (Yüksek Lisans)--TOBB ETÜ Fen Bilimleri Enstitüsü Ocak 2024
520 _aBilgi erişim (BE) sistemleri değerlendirilirken çeşitli metrikler kullanılır ve genelde metriklerin dikkate aldığı birkaç temel kriter bulunmaktadır. Bunlar bulunan dokümanların ilgililik derecesi, sıralaması ve kapsadığı konu çeşitliliğidir. Bu tür bir değerlendirme, kullanıcı deneyimine odaklanarak pragmatik bir değerlendirme sunar. Bu tezde standart bilgi erişim metrikleri tarafından hesaba katılmayan değerlendirme kriterleri keşfedilmektedir. Bu amaçla, inovasyon metrikleri ve Madde Tepki Kuramı (IRT) bazlı değerlendirme olmak üzere iki adet metrik sınıfı üzerinde çalışılmıştır. Önerilen metrikler, BE sistemlerini kollektif olarak değerlendirmesi ve dokümanlara ait yeni kriterleri değerlendirme sürecine dahil etmesiyle ön plana çıkmaktadır. İnovasyon metriklerinde, doküman nadirliği tanımlanmış ve Bilgi Erişim yöntemlerinde çeşitliliğin ödüllendirilmesi hedeflenmiştir. IRT-bazlı değerlendirmede ise dokümanlara ait zorluk, ayrıştırıcılık gibi özelliklerin bilgi erişim değerlendirmesinde kullanılarak performans ölçümündeki hata payının azaltılması ve daha esnek bir değerlendirme ortamı amaçlanmıştır. Metrikler tasarlanırken literatürde sıklıkla kullanılan iki standart metrik (Precision@K ve Average Precision) temel alınmıştır ve bu metrikler değiştirilerek özgün versiyonları oluşturulmuştur. Bilgi erişim (BE) değerlendirme etkinliklerinde (evaluation campaigns) katılımcılar genellikle rekabetçi sonuçlar elde etmek için popüler ve güncel yöntemlerin varyasyonlarını kullanırlar. Bu etkili bir strateji olsa da, daha radikal ve yenilikçi metotların keşfedilmesini engellemektedir. Ayrıca birçok katılımcı benzer yaklaşımları temel olarak kullandığı için, sunulan yaklaşımların genel çeşitliliği sınırlı olabilir. Bu çalışmada, bilgi erişim değerlendirme etkinliklerinde yaklaşımların çeşitlilik kazanmasını teşvik etmek amacıyla tasarlanmış inovasyon metrikleri önerilmektedir. Bunun için var olan geleneksel metriklere eklentiler yapılarak amaç doğrultusunda yeni formlar kazandırılmıştır. Geleneksel BE metrikleri yalnızca kullanıcı deneyimine odaklanırken, önerilen ``inovasyon'' metrikleri, diğer BE sistemleri tarafından bulunamamış ilgili dokümanları bulan, daha farklı ve yüksek riskli stratejilerin keşfedilmesini ödüllendirmektedir. Diğer yandan, Madde Tepki Kuramı (Item Response Theory, IRT), eğitimsel değerlendirmede kullanılan matematiksel modelleri kapsar. IRT'de bir katılımcının verdiği doğru cevap sayısı ile aldığı puan arasındaki ilişki klasik yöntemlere göre daha karmaşıktır. IRT modelleri, katılımcıların performansını ölçerken soruların zorluğu, ayrıştırıcılığı gibi faktörleri de hesaba katar. Bu sayede daha doğru ve esnek bir değerlendirme mümkün olmaktadır. Buradan hareketle, tezde ilk defa IRT modelleri bilgi erişim değerlendirmesine uyarlanmıştır. Dört TREC koleksiyonunda yapılan deneyler, önerilen metriklerin sistem sıralamalarını değiştirdiğini göstermektedir. Metriklerin nasıl davrandığı, varsayımsal BE sistemleri ile yapılan kontrollü bir deneyde analiz edilmektedir. Ayrıca, baz alınan standart Precision@K ve Average Precision metrikleri tezde önerilen doğrultuda güncellendiğinde daha yüksek değerlendirme stabilitesi ve ayrıştırma gücüne sahip olduğu görülmüştür.
520 _aWhen evaluating Information Retrieval (IR) systems, various metrics are used, and generally, there are a few fundamental criteria that metrics take into account. These include the relevance of retrieved documents, their ranking, and the diversity of topics covered. Such an evaluation provides a pragmatic assessment by focusing on user experience. This thesis explores evaluation criteria not considered by standard information retrieval metrics. For this purpose, two classes of metrics were studied: innovation metrics and Item Response Theory (IRT) based metrics. The proposed metrics diverge by collectively evaluating IR systems and incorporating new criteria for document evaluation. Innovation metrics introduce document rareness and reward diversity among information retrieval methods. Through IRT-based metrics, document properties such as difficulty and discrimination are included in IR evaluation to reduce measurement error and to enable a more flexible evaluation. When designing metrics, two standard metrics commonly used in the literature (Precision@K and Average Precision) were taken as a basis, and these metrics were modified to create authentic versions. In information retrieval evaluation campaigns, participants often explore variations of popular and state-of-the-art methods to achieve competitive results. While this is an effective strategy, it hinders the discovery of more radical and innovative methods. Moreover, since many participants use similar approaches as a basis, the overall diversity of the presented approaches may be limited. In this study, innovation metrics are designed to encourage diversity in approaches in IR campaigns. Existing traditional metrics are extended to form proposed metrics. While traditional IR metrics focus on only user experience, the proposed "innovation" metrics reward the discovery of relevant documents that other IR systems cannot retrieve and encourage outlier and higher-risk strategies. On the other hand, Item Response Theory (IRT) encompasses mathematical models, mostly used in educational assessment. The relationship between the number of correct answers a participant gives and the score they receive is more complex in IRT than in classical assessment methods. IRT models take into account parameters such as difficulty and discrimination of questions when measuring participant performances. In this way, IRT provides a more accurate and flexible assessment. Therefore, in this thesis, for the first time, IRT models have been adapted to information retrieval evaluation. Experiments conducted on four TREC collections show that the proposed metrics change system rankings. The behavior of metrics is analyzed in a controlled experiment with hypothetical IR systems. Additionally, when the baseline Precision@K and Average Precision metrics were modified in the direction proposed in the thesis, higher evaluation stability and discriminative power were observed.
653 _aDeğerlendirme
653 _aMetrikler
653 _aBilgi erişim
653 _aMadde tepki kuramı
653 _aEvaluation
653 _aMetrics
653 _aInformation retrieval
653 _aItem responce theory
700 1 _aKutlu, Mücahid
_9131600
_eadvisor
710 _aTOBB Ekonomi ve Teknoloji Üniversitesi.
_bFen Bilimleri Enstitüsü
_977078
942 _cTEZ
_2z