000 03531nam a2200409 i 4500
999 _c200435239
_d53451
003 TR-AnTOB
005 20230908000942.0
007 ta
008 171111s2018 xxu e mmmm 00| 0 eng d
040 _aTR-AnTOB
_beng
_erda
_cTR-AnTOB
041 0 _atur
099 _aTEZ TOBB FBE BİL YL’18 SAR
100 1 _aSarı, Mustafa
_9110755
245 1 0 _aDerin öğrenme yöntemleri kullanılarak Türkçe doküman sınıflandırma /
_cMustafa Sarı.
264 1 _aAnkara :
_bTOBB ETÜ Fen Bilimleri Enstitüsü,
_c2018.
300 _ax, 43 pages :
_billustrations ;
_c29 cm
336 _2rdacontent
_btxt
_atext
337 _2rdamedia
_bn
_aunmediated
338 _2rdacarrier
_bnc
_avolume
502 _aTez (Yüksek Lisans)--TOBB ETÜ Fen Bilimleri Enstitüsü Kasım 2018
520 _aÇalışmamızda kaleme alınmış yazıların, yazarına ve konusuna göre birbirinden ayrılması ve sınıflandırılabilmesi amaçlanmıştır. Bir gazetenin köşe yazarlarının yazılarının vektörleri oluşturulmuştur ve birbirinden ne kadar ayrılabildiğinin analizi yapılmıştır. Yazarı bilinmeyen herhangi bir yazının hangi yazara ait olduğu belirlenebilir veya birbirlerine benzer stiller gruplanarak yazar profilleri oluşturulabilir. Konusu bilinmeyen bir yazının hangi konulara ait olabileceği belirlenebilir. DeepLearning4J Java kütüphanesi ve burada yer alan Doc2Vec sınıfı kullanılmıştır. 5,10,15 ve 20 yazar içeren modeller ve yazarların yazdıkları konulara göre modeller geliştirilmiştir. Bu şekilde elde edilen benzerlik vektörleri belirli bir eşik değeri ile karşılaştırılmıştır, değişik eşik değerleri seçimine bağlı model başarımları ölçülmüştür. Elde edilen sonuçlara göre bazı yazarlar belirgin bir şekilde diğer yazarlardan ayrılmaktadır. Yazılar konularına göre başarılı bir şekilde etiketlenebilmektedir. Bu yapı özellikle yazar profili çıkarımı, yazı tespiti veya konu gruplama gibi alanlarda kullanılabilecek niteliktedir.
520 _aIn our study, it is aimed to distinguish and classify author profiles and text subjects with vectors which were created from authors posts. The vectors of the columnists of a newspaper were formed and analyzed for how much they could be separated from each other. Hence, author of any post, can be determined by this model. It also can group similar styles together. The DeepLearning4J Java library and the Doc2Vec class included are used during development. 5,10,15, 20 author vector models and their subject models were created according to their posts. The similarity vectors obtained in this way were compared with a certain threshold value, and the model performances based on the selection of different threshold values were measured. According to the results, some authors differed significantly from other authors. Articles can be successfully labeled according to their topics. This structure can be used especially in areas such as author profile extraction, article detection or subject grouping.
650 7 _aTezler, Akademik
_932546
653 _aPV-DBOW
653 _aPV-DM
653 _aDL4J
653 _aParagraf vektörleri
653 _aword2Vec
653 _adoc2Vec
653 _aMetin madenciliği
653 _aParagraph vectors
653 _aText mining
710 _aTOBB Ekonomi ve Teknoloji Üniversitesi.
_bFen Bilimleri Enstitüsü
_977078
856 4 0 _uhttps://tez.yok.gov.tr/
_3Ulusal Tez Merkezi
942 _cTEZ
_2z