Derin öğrenme yöntemleri kullanılarak Türkçe doküman sınıflandırma / Mustafa Sarı.

By: Sarı, Mustafa
Contributor(s): TOBB Ekonomi ve Teknoloji Üniversitesi. Fen Bilimleri Enstitüsü
Material type: TextTextLanguage: Türkçe Publisher: Ankara : TOBB ETÜ Fen Bilimleri Enstitüsü, 2018Description: x, 43 pages : illustrations ; 29 cmContent type: text Media type: unmediated Carrier type: volumeSubject(s): Tezler, Akademik | PV-DBOW | PV-DM | DL4J | Paragraf vektörleri | word2Vec | doc2Vec | Metin madenciliği | Paragraph vectors | Text miningOnline resources: Ulusal Tez Merkezi Dissertation note: Tez (Yüksek Lisans)--TOBB ETÜ Fen Bilimleri Enstitüsü Kasım 2018 Summary: Çalışmamızda kaleme alınmış yazıların, yazarına ve konusuna göre birbirinden ayrılması ve sınıflandırılabilmesi amaçlanmıştır. Bir gazetenin köşe yazarlarının yazılarının vektörleri oluşturulmuştur ve birbirinden ne kadar ayrılabildiğinin analizi yapılmıştır. Yazarı bilinmeyen herhangi bir yazının hangi yazara ait olduğu belirlenebilir veya birbirlerine benzer stiller gruplanarak yazar profilleri oluşturulabilir. Konusu bilinmeyen bir yazının hangi konulara ait olabileceği belirlenebilir. DeepLearning4J Java kütüphanesi ve burada yer alan Doc2Vec sınıfı kullanılmıştır. 5,10,15 ve 20 yazar içeren modeller ve yazarların yazdıkları konulara göre modeller geliştirilmiştir. Bu şekilde elde edilen benzerlik vektörleri belirli bir eşik değeri ile karşılaştırılmıştır, değişik eşik değerleri seçimine bağlı model başarımları ölçülmüştür. Elde edilen sonuçlara göre bazı yazarlar belirgin bir şekilde diğer yazarlardan ayrılmaktadır. Yazılar konularına göre başarılı bir şekilde etiketlenebilmektedir. Bu yapı özellikle yazar profili çıkarımı, yazı tespiti veya konu gruplama gibi alanlarda kullanılabilecek niteliktedir.Summary: In our study, it is aimed to distinguish and classify author profiles and text subjects with vectors which were created from authors posts. The vectors of the columnists of a newspaper were formed and analyzed for how much they could be separated from each other. Hence, author of any post, can be determined by this model. It also can group similar styles together. The DeepLearning4J Java library and the Doc2Vec class included are used during development. 5,10,15, 20 author vector models and their subject models were created according to their posts. The similarity vectors obtained in this way were compared with a certain threshold value, and the model performances based on the selection of different threshold values were measured. According to the results, some authors differed significantly from other authors. Articles can be successfully labeled according to their topics. This structure can be used especially in areas such as author profile extraction, article detection or subject grouping.
Tags from this library: No tags from this library for this title. Log in to add tags.
    Average rating: 0.0 (0 votes)
Item type Current location Home library Collection Call number Copy number Status Date due Barcode
Thesis Thesis Merkez Kütüphane
Tez Koleksiyonu / Thesis Collection
Merkez Kütüphane
Tezler TEZ TOBB FBE BİL YL’18 SAR (Browse shelf) 1 Ödünç Verilemez-Tez / Not For Loan-Thesis TZ00957

Tez (Yüksek Lisans)--TOBB ETÜ Fen Bilimleri Enstitüsü Kasım 2018

Çalışmamızda kaleme alınmış yazıların, yazarına ve konusuna göre birbirinden
ayrılması ve sınıflandırılabilmesi amaçlanmıştır. Bir gazetenin köşe yazarlarının
yazılarının vektörleri oluşturulmuştur ve birbirinden ne kadar ayrılabildiğinin analizi
yapılmıştır. Yazarı bilinmeyen herhangi bir yazının hangi yazara ait olduğu
belirlenebilir veya birbirlerine benzer stiller gruplanarak yazar profilleri
oluşturulabilir. Konusu bilinmeyen bir yazının hangi konulara ait olabileceği
belirlenebilir. DeepLearning4J Java kütüphanesi ve burada yer alan Doc2Vec sınıfı
kullanılmıştır. 5,10,15 ve 20 yazar içeren modeller ve yazarların yazdıkları konulara
göre modeller geliştirilmiştir. Bu şekilde elde edilen benzerlik vektörleri belirli bir eşik
değeri ile karşılaştırılmıştır, değişik eşik değerleri seçimine bağlı model başarımları
ölçülmüştür. Elde edilen sonuçlara göre bazı yazarlar belirgin bir şekilde diğer
yazarlardan ayrılmaktadır. Yazılar konularına göre başarılı bir şekilde
etiketlenebilmektedir. Bu yapı özellikle yazar profili çıkarımı, yazı tespiti veya konu
gruplama gibi alanlarda kullanılabilecek niteliktedir.

In our study, it is aimed to distinguish and classify author profiles and text subjects
with vectors which were created from authors posts. The vectors of the columnists of
a newspaper were formed and analyzed for how much they could be separated from
each other. Hence, author of any post, can be determined by this model. It also can
group similar styles together. The DeepLearning4J Java library and the Doc2Vec class
included are used during development. 5,10,15, 20 author vector models and their
subject models were created according to their posts. The similarity vectors obtained
in this way were compared with a certain threshold value, and the model performances
based on the selection of different threshold values were measured. According to the
results, some authors differed significantly from other authors. Articles can be
successfully labeled according to their topics. This structure can be used especially in
areas such as author profile extraction, article detection or subject grouping.

There are no comments for this item.

to post a comment.
Devinim Yazılım Eğitim Danışmanlık tarafından Koha'nın orjinal sürümü uyarlanarak geliştirilip kurulmuştur.