Derin sinir ağ tabanlı dosya ve veri parçası sınıflandırılması / Ayşe Sıddıka Erozan.

By: Erozan, Ayşe Sıddıka
Contributor(s): TOBB Ekonomi ve Teknoloji Üniversitesi. Fen Bilimleri Enstitüsü
Material type: TextTextLanguage: Türkçe Publisher: Ankara : TOBB ETÜ Fen Bilimleri Enstitüsü, 2018Description: xiv, 52 pages : illustrations ; 29 cmContent type: text Media type: unmediated Carrier type: volumeSubject(s): Tezler, Akademik | Dosya ve veri parçası | İçerik tabanlı yöntemler | Derin sinir ağlar | 2-gram | Adli bilişim | File and data fragment | Content-based | Deep neural network | Digital forensicsOnline resources: Ulusal Tez Merkezi Dissertation note: Tez (Yüksek Lisans)--TOBB ETÜ Fen Bilimleri Enstitüsü Temmuz 2018 Summary: Bu çalışmada sunulan araştırma, adli bilişim ve bilgi güvenliği uygulamalarında hayati önem taşıyan dosya ve veri türü sınıflandırmasına yönelik bir çözüm önermektedir. Son on beş yılda dosya ve veri türü sınıflandırması araştırmalarında kullanılan yöntemler, dosya uzantısı tabanlı yöntemler, sihirli bayt tabanlı yöntemler ve içerik tabanlı yöntemlerdir. Bu yöntemlerden uzantı tabanlı ve sihirli bayt tabanlı yöntemler, dosya başlığında yer alan sihirli baytlar ve dosya uzantıları kolayca değiştirilebildiğinden dolayı yetersiz yöntemlerdir. İçerik tabanlı yöntemler sihirli bayt ve dosya uzantıları gibi değişikliklere karşı dirençli olduğundan son yıllarda bu alanda yapılan çalışmalar hızlı bir şekilde artmıştır. İçerik tabanlı yöntemlerin kullanıldığı çalışmaların çoğunda çok az sayıda dosya ve veri türü kullanılmaktadır. Bu alanda yapılan çok az sayıda çalışmada ise çok sayıda dosya ve veri türü kullanılmaktadır. Ancak bu çalışmalardaki dosyaların bazıları işletim sistemlerinde çok az kullanılan dosya türleridir. Bu çalışmada en çok kullanılan 15 dosya ve veri türünü içeren içerik tabanlı dosya ve veri parçası sınıflandırma yöntemi sunulmuştur. Sınıflandırma alanında son yıllarda derin sinir ağları yaygın bir şekilde kullanılmaya başlanmıştır. Kullanılan sınıflar eğitim setinde yeterince iyi genellediğinde çok iyi sınıflandırma performansı elde edilmektedir. Bu çalışmada da dosya ve veri sınıflandırması problemine derin sinir ağ mimarileri kullanılarak çözüm aranmaktadır. Önerilen yöntemde iki seviyeli hiyerarşik model kullanılmakta olup bu hiyerarşik sınıflandırma sisteminde ilk seviyede birkaç alternatif sınıflandırma modeline dayanan deneyler yapılmıştır. Alternatif sınıflandırma modelleri entropi bazlı dört farklı durum ve sınıflandırma bazlı üç farklı algoritma kullanılmaktadır. İkinci seviyede ise kazanan model üzerinden derin sinir ağları kullanılmıştır. İşletim sistemlerinde kullanılan en küçük küme birim büyüklüğü olan 4 kilobayt ve 8 kilobaytlık dosya ve veri parçaları kullanılarak 2-gram analizi ile öznitelikler çıkartılmaktadır. Çıkarılan bu öznitelikler üç farklı makine öğrenmesi algoritması kullanılarak entropiye dayalı olarak gruplara ayrılmaktadır. Daha sonra bu ayrılan gruplar üzerinden dosya ve veriler derin sinir ağlar kullanılarak tür tabanlı sınıflandırma yapılmakladır. 4 kilobayt ve 8 kilobayt için sınıflandırma doğruluk oranları sırasıyla %92,80 ve %94,67’dir. Yapılan bu çalışmada doğruluk oranını önemli ölçüde azaltan şifrelenmiş veri türü olan aes256 kullanılmasına rağmen benzer dosya türü kullanılarak yapılan en iyi çözüm ile karşılaştırıldığında bizim önerdiğimiz yöntem doğruluk oranını %6,87 oranında artırdığı görülmektedir.Summary: The research presented in this paper provides a solution for file and data type classification which is crucial digital forensics and information security applications. Over the past fifteen years, the existing methods for file and data type classification are file extension based methods, magic byte based methods and content based methods for file and data type classification. Extension based and magic byte based methods are impotent methods since file extension and magic bytes which is in the file header can be easily changed. Since content-based methods are resistant to changes in magic bytes and file extensions, content-based methods have been frequently investigated in the recent years. Majority of existing studies, where content based methods are used, classify very few file and data types. Only few works classify large number of file and data types. However, these works do not cover the most used file and data types in the well-known operating systems. In this paper, a content based file and data fragment classification method which covers the most used 15 files and data type is presented. In the classification applications, deep neural networks has been widely used in recent years, and great classification results is obtained when the used classes are sufficiently good in the training set. Therefore the proposed method uses deep neural networks for file and data type classification. The proposed method classifies 15 file and data types by using two level hierarchical model. In this hierarchical classification system, empirical test based on several alternative classification models are performed in the first level. It is used three classification algorithm and entropy based four different cases. In the second level hierarchy, deep neural networks are used on the winning model. 2-gram features are extracted using 4 kilobytes and 8 kilobytes of files and data fragments, which are the smallest cluster sizes used in operating systems. These extracted features are divided into classes based on entropy using three different machine learning algorithms. In the second level, these specified classes are classified to 15 classes by using deep neural networks. The results show that the classification accuracies for 4 kilobytes and 8 kilobytes are 92.80% and 94.67% respectively. Therefore, the proposed method improves the accuracy by 6.87% than the relevant state of the art while it also includes encrypted data type (aes256) which dramatically decreases the classification accuracy since the encryption changes the file content randomly.
Tags from this library: No tags from this library for this title. Log in to add tags.
    Average rating: 0.0 (0 votes)
Item type Current location Home library Collection Call number Copy number Status Date due Barcode
Thesis Thesis Merkez Kütüphane
Tez Koleksiyonu / Thesis Collection
Merkez Kütüphane
Tezler TEZ TOBB FBE BİL YL’18 ERO (Browse shelf) 1 Ödünç Verilemez-Tez / Not For Loan-Thesis TZ00921

Tez (Yüksek Lisans)--TOBB ETÜ Fen Bilimleri Enstitüsü Temmuz 2018

Bu çalışmada sunulan araştırma, adli bilişim ve bilgi güvenliği uygulamalarında hayati önem taşıyan dosya ve veri türü sınıflandırmasına yönelik bir çözüm önermektedir. Son on beş yılda dosya ve veri türü sınıflandırması araştırmalarında kullanılan yöntemler, dosya uzantısı tabanlı yöntemler, sihirli bayt tabanlı yöntemler ve içerik tabanlı yöntemlerdir. Bu yöntemlerden uzantı tabanlı ve sihirli bayt tabanlı yöntemler, dosya başlığında yer alan sihirli baytlar ve dosya uzantıları kolayca değiştirilebildiğinden dolayı yetersiz yöntemlerdir. İçerik tabanlı yöntemler sihirli bayt ve dosya uzantıları gibi değişikliklere karşı dirençli olduğundan son yıllarda bu alanda yapılan çalışmalar hızlı bir şekilde artmıştır. İçerik tabanlı yöntemlerin kullanıldığı çalışmaların çoğunda çok az sayıda dosya ve veri türü kullanılmaktadır. Bu alanda yapılan çok az sayıda çalışmada ise çok sayıda dosya ve veri türü kullanılmaktadır. Ancak bu çalışmalardaki dosyaların bazıları işletim sistemlerinde çok az kullanılan dosya türleridir. Bu çalışmada en çok kullanılan 15 dosya ve veri türünü içeren içerik tabanlı dosya ve veri parçası sınıflandırma yöntemi sunulmuştur. Sınıflandırma alanında son yıllarda derin sinir ağları yaygın bir şekilde kullanılmaya başlanmıştır. Kullanılan sınıflar eğitim setinde yeterince iyi genellediğinde çok iyi sınıflandırma performansı elde edilmektedir. Bu çalışmada da dosya ve veri sınıflandırması problemine derin sinir ağ mimarileri kullanılarak çözüm aranmaktadır. Önerilen yöntemde iki seviyeli hiyerarşik model kullanılmakta olup bu hiyerarşik sınıflandırma sisteminde ilk seviyede birkaç alternatif sınıflandırma modeline dayanan deneyler yapılmıştır. Alternatif sınıflandırma modelleri entropi bazlı dört farklı durum ve sınıflandırma bazlı üç farklı algoritma kullanılmaktadır. İkinci seviyede ise kazanan model üzerinden derin sinir ağları kullanılmıştır. İşletim sistemlerinde kullanılan en küçük küme birim büyüklüğü olan 4 kilobayt ve 8 kilobaytlık dosya ve veri parçaları kullanılarak 2-gram analizi ile öznitelikler çıkartılmaktadır. Çıkarılan bu öznitelikler üç farklı makine öğrenmesi algoritması kullanılarak entropiye dayalı olarak gruplara ayrılmaktadır. Daha sonra bu ayrılan gruplar üzerinden dosya ve veriler derin sinir ağlar kullanılarak tür tabanlı sınıflandırma yapılmakladır. 4 kilobayt ve 8 kilobayt için sınıflandırma doğruluk oranları sırasıyla %92,80 ve %94,67’dir. Yapılan bu çalışmada doğruluk oranını önemli ölçüde azaltan şifrelenmiş veri türü olan aes256 kullanılmasına rağmen benzer dosya türü kullanılarak yapılan en iyi çözüm ile karşılaştırıldığında bizim önerdiğimiz yöntem doğruluk oranını %6,87 oranında artırdığı görülmektedir.

The research presented in this paper provides a solution for file and data type classification which is crucial digital forensics and information security applications. Over the past fifteen years, the existing methods for file and data type classification are file extension based methods, magic byte based methods and content based methods for file and data type classification. Extension based and magic byte based methods are impotent methods since file extension and magic bytes which is in the file header can be easily changed. Since content-based methods are resistant to changes in magic bytes and file extensions, content-based methods have been frequently investigated in the recent years. Majority of existing studies, where content based methods are used, classify very few file and data types. Only few works classify large number of file and data types. However, these works do not cover the most used file and data types in the well-known operating systems. In this paper, a content based file and data fragment classification method which covers the most used 15 files and data type is presented. In the classification applications, deep neural networks has been widely used in recent years, and great classification results is obtained when the used classes are sufficiently good in the training set. Therefore the proposed method uses deep neural networks for file and data type classification. The proposed method classifies 15 file and data types by using two level hierarchical model. In this hierarchical classification system, empirical test based on several alternative classification models are performed in the first level. It is used three classification algorithm and entropy based four different cases. In the second level hierarchy, deep neural networks are used on the winning model. 2-gram features are extracted using 4 kilobytes and 8 kilobytes of files and data fragments, which are the smallest cluster sizes used in operating systems. These extracted features are divided into classes based on entropy using three different machine learning algorithms. In the second level, these specified classes are classified to 15 classes by using deep neural networks. The results show that the classification accuracies for 4 kilobytes and 8 kilobytes are 92.80% and 94.67% respectively. Therefore, the proposed method improves the accuracy by 6.87% than the relevant state of the art while it also includes encrypted data type (aes256) which dramatically decreases the classification accuracy since the encryption changes the file content randomly.

There are no comments for this item.

to post a comment.
Devinim Yazılım Eğitim Danışmanlık tarafından Koha'nın orjinal sürümü uyarlanarak geliştirilip kurulmuştur.