Çok ajanlı sistemlerde derin pekiştirmeli öğrenme yöntemi ile koordinasyon ve görev planlama / Yasin Furkan Aktaş; thesis advisor Ahmet Murat Özbayoğlu.

By: Aktaş, Yasin Furkan [author]
Contributor(s): Özbayoğlu, A. Murat [advisor] | TOBB Ekonomi ve Teknoloji Üniversitesi. Fen Bilimleri Enstitüsü
Material type: TextTextLanguage: Türkçe Publisher: Ankara : TOBB ETÜ Fen Bilimleri Enstitüsü, 2022Description: xiv, 73 pages : illustrations ; 29 cmContent type: text Media type: unmediated Carrier type: volumeOther title: Learnıng coordınatıon behavıour and mıssıon plannıng ın a multı-agent system usıng deep reınforcement learnıng [Other title]Subject(s): Derin pekiştirmeli öğrenme | Optimizasyon | Hibrit yöntemler | Koordinasyon | Görev planlama | Rota planlama | Sezgisel yöntemler | Çok ajanlı sistemler | Deep reinforcement learning | Heuristics | Optimizaton | Mission planning | Route planning | Coordination | Multi-agent systemDissertation note: Tez (Yüksek Lisans Tezi)--TOBB ETÜ Fen Bilimleri Enstitüsü Temmuz 2022 Summary: Günümüzde çok ajanlı sistemler oyun, sağlık, lojistik, ulaşım gibi sivil sektörlerin yanında askeri sektörlerde de yerini almış ve merkeziyetçi yaklaşımlara göre daha verimli ve güvenilir bir yöntem olduğu için gün geçtikçe bu konuda yapılan çalışmalar yaygınlaşmıştır. Öğrenme tabanlı yöntemler matematiksel olarak modellenmesi zor olan bilgisayar görüsü ve doğal dil işleme gibi problemlerde veriye dayalı denetimli yaklaşımlarla başarım sağladığı bilinmektedir. Pekiştirmeli öğrenme yaklaşımında ise denetimsiz öğrenme metodu sayesinde çevre ile etkileşim göstererek veri toplama yükünü azaltmaktadır. Derin pekiştirmeli öğrenme Go, Starcraft gibi oyunlarda gösterdiği performans ile karar verme ve planlama problemleri konusunda potansiyelini kanıtlamaktadır. Çok araçlı sistemlerde takım davranışını gerçekleştirmek için katmanlı mimarilerin kullanılması zaman ve işçilik açısından yüksek maliyetlidir. Ayrıca görev planlama, kontrol, karar verme gibi problemlerde optimizasyon ve matematiksel modelleme yöntemleri yeterince hızlı olmamakla birlikte optimal bir sonuç elde etmek bazen mümkün olmamaktadır. Bu problemlerin çözümünü mümkün ve efektif hale getirmek için öğrenme tabanlı yöntemlerin iyi bir alternatif olduğu görülmektedir. Bu sebeple bu çalışmada iki ana konu ele alınmıştır. Birincisinde, çok ajanlı sistemlerde düşük v seviyeli aksiyonlar ile derin pekiştirmeli öğrenme yöntemleri kullanılarak koordineli takım davranışı öğrenimi ele alınmıştır. Bu kapsamda bir simülasyon ortamı geliştirilmiş ve bu ortamda derin pekiştirmeli öğrenme yöntemleri kullanılarak avcıların koordinasyon ile avları yakalaması amaçlanmıştır. Böylelikle düşük seviyeli hız ve hareket aksiyonlarını kullanarak takım koordinasyon davranışı öğrenimi ile tek ajanın yapabileceğinin üzerine çıkılması hedeflenmektedir. İkinci olarak çok araçlı sistemlerde merkezi görev planlama ve dağıtık gerçekleştirme üzerine durulmuştur. Düşük seviyeli davranışlardan koordinasyon öğrenmek yerine görev öncesi planlama ile araçlar arası koordineli rota planlaması yaparak araçların elde edilen rotaları dağıtık olarak gerçekleştirmesi hedeflenmektedir. Araç rota planlama problemi kombinatorik ve NP-zor bir problem olmakla beraber genellikle klasik optimizasyon yöntemleriyle çözülmektedir. Fakat bu yöntemler ile çok iyi bir sonucun elde edilmesi uzun sürmekte, hatta bazen kısıtları sağlayan yeterince iyi bir sonuç elde edilememektedir. Daha emniyetli ve hızlı sonuç vermekte olan hiyerarşik yöntemler, öğrenme tabanlı yöntemler ve hibrit yöntemler bu çalışmada önerilmiştir. Bu kapsamda öncelikle homojen araçlarda araç rotalama, kapasite kısıtlı homojen araçlarda rotalama, heterojen araçlarda rota planlama problemleri üzerine deneyler gerçekleştirilmiştir. Son olarak heterojen araçlarda görev planlama probleminin çözümünden elde edilen rotaları 5 ayrı kara aracının bulunduğu ve her bir aracın hareket planlama çerçevesine sahip olduğu bir simülasyon ortamında kullanarak konsept doğrulaması gerçekleştirilmiştir. Özetle, yapılan çalışmalar sonucunda birinci çalışmada çok ajanlı sistemlerde koordineli davranış öğreniminin mümkün olabileceği gösterilmiştir. İkinci çalışmada ise öğrenme tabanlı ve hiyerarşik yöntemlerin çok daha hızlı çalıştığı kanıtlanmıştır. Önerilen hibrit yöntem ile derin pekiştirmeli öğrenme ve sezgisel optimizasyon yöntemlerinin elde ettiği çözümlerde iyileştirme sağlanmıştır. Problem boyutu büyüdüğünde elde edilen iyileştirme miktarı da artmaktadır.Summary: Today, multi-agent systems have taken their place in the military sectors as well as in civil sectors such as gaming, health, logistics and transportation, and since they are more efficient and reliable methods than centralized approaches, studies on this subject are becoming more common day by day. It is known that artificial intelligence and machine learning-based learning methods provide many successes with data-centric supervised approaches in difficult problems such as visual and language problems, which are almost impossible to model mathematically. In the reinforcement learning approach, it reduces the burden of data collection by interacting with the environment with the unsupervised learning method in control and decision-making problems. Deep reinforcement learning proves its potential in decision making and planning problems with its performance in games such as Go and Starcraft. Using layered architectures to implement team behavior in multi-vehicle systems is known to be costly in terms of time and labor. In addition, optimization and mathematical modeling methods are not fast enough in problems such as task planning, control and decision making and sometimes it is not possible to obtain the result. Learning-based methods seem to be a good alternative to make this more feasible and effective. Therefore, in this study, basically two main issues are discussed. First, vii learning of coordinated team behavior using deep reinforcement learning methods with low-level actions in multi-agent systems is discussed. In this context, a simulation environment with 2 agents and 10 prey was developed and it was aimed to catch the prey by using deep reinforcement learning methods in this environment. Thus, it is aimed to exceed the ability of a single agent with team coordination by learning coordinated behavior with low-level speed, movement actions. The second is about central task planning and distributed execution in multi-vehicle systems. Instead of learning coordination from low-level behaviors, it is aimed to realize distributed route execution after making coordinated route planning between vehicles by making pre-mission planning. Although the vehicle route planning problem is a combinatorial and NP-hard problem, it is usually solved by classical optimization methods. However, it may take minutes to achieve a very good result with these methods, and sometimes they cannot be optimized enough and give low performed results. Some hierarchical methods, learning-based methods and hybrid methods have been proposed as methods that will give safer and faster results to classical optimization methods. In this context, first of all, a number of experiments were carried out on vehicle routing in homogeneous vehicles, routing in homogeneous vehicles with limited capacity, route planning problems in heterogeneous vehicles. Finally, the concept verification was carried out in a simulation environment where there are 5 different ground vehicles and each vehicle has a motion planning framework, and the study was concluded by performing mission planning solutions in heterogeneous vehicles. In summary, as a result of the studies, it was seen that learning of coordinated behavior in multi-agent systems is possible in the first study. As a result of the second study, learning-based and hierarchical methods work much faster and give successful results. Although deep reinforcement learning methods yield successful results, they give safer and better results when used as an initial solution generator for heuristic optimization methods in a hybrid way.
Tags from this library: No tags from this library for this title. Log in to add tags.
    Average rating: 0.0 (0 votes)
Item type Current location Home library Collection Call number Copy number Status Date due Barcode
Thesis Thesis Merkez Kütüphane
Tez Koleksiyonu / Thesis Collection
Merkez Kütüphane
Tezler TEZ TOBB FBE BİL YL’22 AKT (Browse shelf) 1 Ödünç Verilemez-Tez / Not For Loan-Thesis TZ01457

Tez (Yüksek Lisans Tezi)--TOBB ETÜ Fen Bilimleri Enstitüsü Temmuz 2022

Günümüzde çok ajanlı sistemler oyun, sağlık, lojistik, ulaşım gibi sivil sektörlerin yanında askeri sektörlerde de yerini almış ve merkeziyetçi yaklaşımlara göre daha verimli ve güvenilir bir yöntem olduğu için gün geçtikçe bu konuda yapılan çalışmalar yaygınlaşmıştır. Öğrenme tabanlı yöntemler matematiksel olarak modellenmesi zor olan bilgisayar görüsü ve doğal dil işleme gibi problemlerde veriye dayalı denetimli yaklaşımlarla başarım sağladığı bilinmektedir. Pekiştirmeli öğrenme yaklaşımında ise denetimsiz öğrenme metodu sayesinde çevre ile etkileşim göstererek veri toplama yükünü azaltmaktadır. Derin pekiştirmeli öğrenme Go, Starcraft gibi oyunlarda gösterdiği performans ile karar verme ve planlama problemleri konusunda potansiyelini kanıtlamaktadır. Çok araçlı sistemlerde takım davranışını gerçekleştirmek için katmanlı mimarilerin kullanılması zaman ve işçilik açısından yüksek maliyetlidir. Ayrıca görev planlama, kontrol, karar verme gibi problemlerde optimizasyon ve matematiksel modelleme yöntemleri yeterince hızlı olmamakla birlikte optimal bir sonuç elde etmek bazen mümkün olmamaktadır. Bu problemlerin çözümünü mümkün ve efektif hale getirmek için öğrenme tabanlı yöntemlerin iyi bir alternatif olduğu görülmektedir. Bu sebeple bu çalışmada iki ana konu ele alınmıştır. Birincisinde, çok ajanlı sistemlerde düşük v seviyeli aksiyonlar ile derin pekiştirmeli öğrenme yöntemleri kullanılarak koordineli takım davranışı öğrenimi ele alınmıştır. Bu kapsamda bir simülasyon ortamı geliştirilmiş ve bu ortamda derin pekiştirmeli öğrenme yöntemleri kullanılarak avcıların koordinasyon ile avları yakalaması amaçlanmıştır. Böylelikle düşük seviyeli hız ve hareket aksiyonlarını kullanarak takım koordinasyon davranışı öğrenimi ile tek ajanın yapabileceğinin üzerine çıkılması hedeflenmektedir. İkinci olarak çok araçlı sistemlerde merkezi görev planlama ve dağıtık gerçekleştirme üzerine durulmuştur. Düşük seviyeli davranışlardan koordinasyon öğrenmek yerine görev öncesi planlama ile araçlar arası koordineli rota planlaması yaparak araçların elde edilen rotaları dağıtık olarak gerçekleştirmesi hedeflenmektedir. Araç rota planlama problemi kombinatorik ve NP-zor bir problem olmakla beraber genellikle klasik optimizasyon yöntemleriyle çözülmektedir. Fakat bu yöntemler ile çok iyi bir sonucun elde edilmesi uzun sürmekte, hatta bazen kısıtları sağlayan yeterince iyi bir sonuç elde edilememektedir. Daha emniyetli ve hızlı sonuç vermekte olan hiyerarşik yöntemler, öğrenme tabanlı yöntemler ve hibrit yöntemler bu çalışmada önerilmiştir. Bu kapsamda öncelikle homojen araçlarda araç rotalama, kapasite kısıtlı homojen araçlarda rotalama, heterojen araçlarda rota planlama problemleri üzerine deneyler gerçekleştirilmiştir. Son olarak heterojen araçlarda görev planlama probleminin çözümünden elde edilen rotaları 5 ayrı kara aracının bulunduğu ve her bir aracın hareket planlama çerçevesine sahip olduğu bir simülasyon ortamında kullanarak konsept doğrulaması gerçekleştirilmiştir. Özetle, yapılan çalışmalar sonucunda birinci çalışmada çok ajanlı sistemlerde koordineli davranış öğreniminin mümkün olabileceği gösterilmiştir. İkinci çalışmada ise öğrenme tabanlı ve hiyerarşik yöntemlerin çok daha hızlı çalıştığı kanıtlanmıştır. Önerilen hibrit yöntem ile derin pekiştirmeli öğrenme ve sezgisel optimizasyon yöntemlerinin elde ettiği çözümlerde iyileştirme sağlanmıştır. Problem boyutu büyüdüğünde elde edilen iyileştirme miktarı da artmaktadır.

Today, multi-agent systems have taken their place in the military sectors as well as in civil sectors such as gaming, health, logistics and transportation, and since they are more efficient and reliable methods than centralized approaches, studies on this subject are becoming more common day by day. It is known that artificial intelligence and machine learning-based learning methods provide many successes with data-centric supervised approaches in difficult problems such as visual and language problems, which are almost impossible to model mathematically. In the reinforcement learning approach, it reduces the burden of data collection by interacting with the environment with the unsupervised learning method in control and decision-making problems. Deep reinforcement learning proves its potential in decision making and planning problems with its performance in games such as Go and Starcraft. Using layered architectures to implement team behavior in multi-vehicle systems is known to be costly in terms of time and labor. In addition, optimization and mathematical modeling methods are not fast enough in problems such as task planning, control and decision making and sometimes it is not possible to obtain the result. Learning-based methods seem to be a good alternative to make this more feasible and effective. Therefore, in this study, basically two main issues are discussed. First, vii learning of coordinated team behavior using deep reinforcement learning methods with low-level actions in multi-agent systems is discussed. In this context, a simulation environment with 2 agents and 10 prey was developed and it was aimed to catch the prey by using deep reinforcement learning methods in this environment. Thus, it is aimed to exceed the ability of a single agent with team coordination by learning coordinated behavior with low-level speed, movement actions. The second is about central task planning and distributed execution in multi-vehicle systems. Instead of learning coordination from low-level behaviors, it is aimed to realize distributed route execution after making coordinated route planning between vehicles by making pre-mission planning. Although the vehicle route planning problem is a combinatorial and NP-hard problem, it is usually solved by classical optimization methods. However, it may take minutes to achieve a very good result with these methods, and sometimes they cannot be optimized enough and give low performed results. Some hierarchical methods, learning-based methods and hybrid methods have been proposed as methods that will give safer and faster results to classical optimization methods. In this context, first of all, a number of experiments were carried out on vehicle routing in homogeneous vehicles, routing in homogeneous vehicles with limited capacity, route planning problems in heterogeneous vehicles. Finally, the concept verification was carried out in a simulation environment where there are 5 different ground vehicles and each vehicle has a motion planning framework, and the study was concluded by performing mission planning solutions in heterogeneous vehicles. In summary, as a result of the studies, it was seen that learning of coordinated behavior in multi-agent systems is possible in the first study. As a result of the second study, learning-based and hierarchical methods work much faster and give successful results. Although deep reinforcement learning methods yield successful results, they give safer and better results when used as an initial solution generator for heuristic optimization methods in a hybrid way.

There are no comments for this item.

to post a comment.
Devinim Yazılım Eğitim Danışmanlık tarafından Koha'nın orjinal sürümü uyarlanarak geliştirilip kurulmuştur.