MARC View

000			07912nam a2200409 i 4500
999			_c200459531 _d77743
003			TR-AnTOB
005			20240125160803.0
007			ta
008			171111s2024 xxu e mmmm 00\| 0 eng d
035			_a(TR-AnTOB)200459531
040			_aTR-AnTOB _beng _erda _cTR-AnTOB
041	0		_atur
099			_aTEZ TOBB FBE BİL YL’24 TÜR
100	1		_aTürkmen, Mehmet Deniz _eauthor _9144779
245	1	0	_aBilgi erişim değerlendirmesi için inovasyon metrikleri ve madde tepki teorisi / _cMehmet Deniz Türkmen; thesis advisor Mücahid Kutlu.
246	1	3	_aIntegrating innovation metrics and item response theory for information retrıeval evaluation
264		1	_aAnkara : _bTOBB ETÜ Fen Bilimleri Enstitüsü, _c2024.
300			_axviii, 47 pages : _billustrations ; _c29 cm
336			_atext _btxt _2rdacontent
337			_aunmediated _bn _2rdamedia
338			_avolume _bnc _2rdacarrier
502			_aTez (Yüksek Lisans)--TOBB ETÜ Fen Bilimleri Enstitüsü Ocak 2024
520			_aBilgi erişim (BE) sistemleri değerlendirilirken çeşitli metrikler kullanılır ve genelde metriklerin dikkate aldığı birkaç temel kriter bulunmaktadır. Bunlar bulunan dokümanların ilgililik derecesi, sıralaması ve kapsadığı konu çeşitliliğidir. Bu tür bir değerlendirme, kullanıcı deneyimine odaklanarak pragmatik bir değerlendirme sunar. Bu tezde standart bilgi erişim metrikleri tarafından hesaba katılmayan değerlendirme kriterleri keşfedilmektedir. Bu amaçla, inovasyon metrikleri ve Madde Tepki Kuramı (IRT) bazlı değerlendirme olmak üzere iki adet metrik sınıfı üzerinde çalışılmıştır. Önerilen metrikler, BE sistemlerini kollektif olarak değerlendirmesi ve dokümanlara ait yeni kriterleri değerlendirme sürecine dahil etmesiyle ön plana çıkmaktadır. İnovasyon metriklerinde, doküman nadirliği tanımlanmış ve Bilgi Erişim yöntemlerinde çeşitliliğin ödüllendirilmesi hedeflenmiştir. IRT-bazlı değerlendirmede ise dokümanlara ait zorluk, ayrıştırıcılık gibi özelliklerin bilgi erişim değerlendirmesinde kullanılarak performans ölçümündeki hata payının azaltılması ve daha esnek bir değerlendirme ortamı amaçlanmıştır. Metrikler tasarlanırken literatürde sıklıkla kullanılan iki standart metrik (Precision@K ve Average Precision) temel alınmıştır ve bu metrikler değiştirilerek özgün versiyonları oluşturulmuştur. Bilgi erişim (BE) değerlendirme etkinliklerinde (evaluation campaigns) katılımcılar genellikle rekabetçi sonuçlar elde etmek için popüler ve güncel yöntemlerin varyasyonlarını kullanırlar. Bu etkili bir strateji olsa da, daha radikal ve yenilikçi metotların keşfedilmesini engellemektedir. Ayrıca birçok katılımcı benzer yaklaşımları temel olarak kullandığı için, sunulan yaklaşımların genel çeşitliliği sınırlı olabilir. Bu çalışmada, bilgi erişim değerlendirme etkinliklerinde yaklaşımların çeşitlilik kazanmasını teşvik etmek amacıyla tasarlanmış inovasyon metrikleri önerilmektedir. Bunun için var olan geleneksel metriklere eklentiler yapılarak amaç doğrultusunda yeni formlar kazandırılmıştır. Geleneksel BE metrikleri yalnızca kullanıcı deneyimine odaklanırken, önerilen ``inovasyon'' metrikleri, diğer BE sistemleri tarafından bulunamamış ilgili dokümanları bulan, daha farklı ve yüksek riskli stratejilerin keşfedilmesini ödüllendirmektedir. Diğer yandan, Madde Tepki Kuramı (Item Response Theory, IRT), eğitimsel değerlendirmede kullanılan matematiksel modelleri kapsar. IRT'de bir katılımcının verdiği doğru cevap sayısı ile aldığı puan arasındaki ilişki klasik yöntemlere göre daha karmaşıktır. IRT modelleri, katılımcıların performansını ölçerken soruların zorluğu, ayrıştırıcılığı gibi faktörleri de hesaba katar. Bu sayede daha doğru ve esnek bir değerlendirme mümkün olmaktadır. Buradan hareketle, tezde ilk defa IRT modelleri bilgi erişim değerlendirmesine uyarlanmıştır. Dört TREC koleksiyonunda yapılan deneyler, önerilen metriklerin sistem sıralamalarını değiştirdiğini göstermektedir. Metriklerin nasıl davrandığı, varsayımsal BE sistemleri ile yapılan kontrollü bir deneyde analiz edilmektedir. Ayrıca, baz alınan standart Precision@K ve Average Precision metrikleri tezde önerilen doğrultuda güncellendiğinde daha yüksek değerlendirme stabilitesi ve ayrıştırma gücüne sahip olduğu görülmüştür.
520			_aWhen evaluating Information Retrieval (IR) systems, various metrics are used, and generally, there are a few fundamental criteria that metrics take into account. These include the relevance of retrieved documents, their ranking, and the diversity of topics covered. Such an evaluation provides a pragmatic assessment by focusing on user experience. This thesis explores evaluation criteria not considered by standard information retrieval metrics. For this purpose, two classes of metrics were studied: innovation metrics and Item Response Theory (IRT) based metrics. The proposed metrics diverge by collectively evaluating IR systems and incorporating new criteria for document evaluation. Innovation metrics introduce document rareness and reward diversity among information retrieval methods. Through IRT-based metrics, document properties such as difficulty and discrimination are included in IR evaluation to reduce measurement error and to enable a more flexible evaluation. When designing metrics, two standard metrics commonly used in the literature (Precision@K and Average Precision) were taken as a basis, and these metrics were modified to create authentic versions. In information retrieval evaluation campaigns, participants often explore variations of popular and state-of-the-art methods to achieve competitive results. While this is an effective strategy, it hinders the discovery of more radical and innovative methods. Moreover, since many participants use similar approaches as a basis, the overall diversity of the presented approaches may be limited. In this study, innovation metrics are designed to encourage diversity in approaches in IR campaigns. Existing traditional metrics are extended to form proposed metrics. While traditional IR metrics focus on only user experience, the proposed "innovation" metrics reward the discovery of relevant documents that other IR systems cannot retrieve and encourage outlier and higher-risk strategies. On the other hand, Item Response Theory (IRT) encompasses mathematical models, mostly used in educational assessment. The relationship between the number of correct answers a participant gives and the score they receive is more complex in IRT than in classical assessment methods. IRT models take into account parameters such as difficulty and discrimination of questions when measuring participant performances. In this way, IRT provides a more accurate and flexible assessment. Therefore, in this thesis, for the first time, IRT models have been adapted to information retrieval evaluation. Experiments conducted on four TREC collections show that the proposed metrics change system rankings. The behavior of metrics is analyzed in a controlled experiment with hypothetical IR systems. Additionally, when the baseline Precision@K and Average Precision metrics were modified in the direction proposed in the thesis, higher evaluation stability and discriminative power were observed.
653			_aDeğerlendirme
653			_aMetrikler
653			_aBilgi erişim
653			_aMadde tepki kuramı
653			_aEvaluation
653			_aMetrics
653			_aInformation retrieval
653			_aItem responce theory
700	1		_aKutlu, Mücahid _9131600 _eadvisor
710			_aTOBB Ekonomi ve Teknoloji Üniversitesi. _bFen Bilimleri Enstitüsü _977078
942			_cTEZ _2z