A proposal of a behavior-based control architecture with reinforcement learning for an autonomous underwater robot
Marc Carreras Pérez
- Year
- 2003
- Citations
- 22
Abstract
Aquesta tesi proposa lus dun seguit de tecniques pel control a alt nivell dun robot autonom i tambe per laprenentatge automatic de comportaments. Lobjectiu principal de la tesis fou el de dotar dintelligencia als robots autonoms que han dacomplir unes missions determinades en entorns desconeguts i no estructurats. Una de les premisses tingudes en compte en tots els passos daquesta tesis va ser la seleccio daquelles tecniques que poguessin esser aplicades en temps real, i demostrar-ne el seu funcionament amb experiments reals. El camp daplicacio de tots els experiments es la robotica submarina. En una primera part, la tesis es centra en el disseny duna arquitectura de control que ha de permetre lassoliment duna missio previament definida. En particular, la tesis proposa lus de les arquitectures de control basades en comportaments per a lassoliment de cada una de les tasques que composen la totalitat de la missio. Una arquitectura daquest tipus esta formada per un conjunt independent de comportaments, els quals representen diferents intencions del robot (ex.: anar a una posicio, evitar obstacles,...). Es presenta una recerca bibliografica sobre aquest camp i alhora es mostren els resultats daplicar quatre de les arquitectures basades en comportaments mes representatives a una tasca concreta. De lanalisi dels resultats sen deriva que un dels factors que mes influeixen en el rendiment daquestes arquitectures, es la metodologia emprada per coordinar les respostes dels comportaments. Per una banda, la coordinacio competitiva es aquella en que nomes un dels comportaments controla el robot. Per altra banda, en la coordinacio cooperativa el control del robot es realitza a partir duna fusio de totes les respostes dels comportaments actius. La tesis, proposa un esquema hibrid darquitectura capac de beneficiar-se dels principals avantatges dambdues metodologies. En una segona part, la tesis proposa la utilitzacio de laprenentatge per reforc per aprendre lestructura interna dels comportaments. Aquest tipus daprenentatge es adequat per entorns desconeguts i el proces daprenentatge es realitza al mateix temps que el robot esta explorant lentorn. La tesis presenta tambe un estat de lart daquest camp, en el que es detallen els principals problemes que apareixen en utilitzar els algoritmes daprenentatge per reforc en aplicacions reals, com la robotica. El problema de la generalitzacio es un dels que mes influeix i consisteix en permetre lus de variables continues sense augmentar substancialment el temps de convergencia. Despres de descriure breument les principals metodologies per generalitzar, la tesis proposa lus duna xarxa neural combinada amb lalgoritme daprenentatge per reforc Q_learning. Aquesta combinacio proporciona una gran capacitat de generalitzacio i una molt bona disposicio per aprendre en tasques de robotica amb exigencies de temps real. No obstant, les xarxes neurals son aproximadors de funcions no-locals, el que significa que en treballar amb un conjunt de dades no homogeni es produeix una interferencia: aprendre en un subconjunt de lespai significa desaprendre en la resta de lespai. El problema de la interferencia afecta de manera directa en robotica, ja que lexploracio de lespai es realitza sempre localment. Lalgoritme proposat en la tesi te en compte aquest problema i mante una base de dades representativa de totes les zones explorades. Aixi doncs, totes les mostres de la base de dades sutilitzen per actualitzar la xarxa neural, i per tant, laprenentatge es homogeni. Finalment, la tesi presenta els resultats obtinguts amb la arquitectura de control basada en comportaments i lalgoritme daprenentatge per reforc. Els experiments es realitzen amb el robot URIS, desenvolupat a la Universitat de Girona, i el comportament apres es el seguiment dun objecte mitjancant visio per computador. La tesi detalla tots els dispositius desenvolupats pels experiments aixi com les caracteristiques del propi robot submari. Els resultats obtinguts
Keywords
Related papers
TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems
Martı́n Abadi, Ashish Agarwal, Paul Barham +17 more
2016
The Organization of Behavior
D. O. Hebb
2005
Fractional Brownian Motions, Fractional Noises and Applications
Benoît B. Mandelbrot, John W. Van Ness
1968
Review of deep learning: concepts, CNN architectures, challenges, applications, future directions
Laith Alzubaidi, Jinglan Zhang, Amjad J. Humaidi +7 more
2021