Onderzoek

Deze drone leert zichzelf vliegen in 18 seconden

Onderzoekers verbonden aan de Universiteit van New York zijn erin geslaagd een drone te ontwikkelen die zichzelf kan leren vliegen, door de implementatie van een deep reinforcement learning-algoritme. Aan de hand van een speciaal trainingsregime was de drone na slechts 18 seconden training in staat om te vliegen. Dankzij het onderzoek kan de ontwikkeltijd van nieuwe drones mogelijk drastisch verkort worden.

Zelf leren vliegen

Normaal gesproken wordt het vlieggedrag van drones bepaald door PID-regelaars. Het ontwerpen van dergelijke controlesystemen vormt een uitdagende opgave, omdat elke drone met zijn unieke ontwerp en capaciteiten specifiek moet worden afgesteld. Externe factoren zoals windvlagen en turbulentie vereisen bovendien extra fijnafstemming van het systeem.

Deep reinforcement learning biedt mogelijk een oplossing. Deze vorm van machine learning stelt computers in staat de beste beslissingen te nemen door interactie met hun omgeving, wat in het geval van een flight controller betekent dat de drone zichzelf leert vliegen. Hoewel deze aanpak veel potentie heeft, bleek de succesvolle toepassing in computersimulaties vaak moeilijk over te zetten naar de realiteit door modelonnauwkeurigheden, ruis en andere afwijkingen.

Doorbraak

Een team van ingenieurs aan de New York University heeft een doorbraak bereikt door een methode te ontwikkelen waarmee toekomstige drones betrouwbaar bestuurd kunnen worden door machine learning-algoritmes. Van positiecontrole tot het nauwkeurig afleggen van een traject: het nieuwe controlemechanisme maakt het mogelijk.

Hun aanpak, waarbij een neuraal netwerk sensorgegevens direct omzet in een motorbesturingsbeleid, toonde aan dat nauwkeurige controleplannen gegenereerd kunnen worden na slechts 18 seconden training op een standaard laptop. De real-time uitvoering van het getrainde algoritme werd bovendien bereikt op een energiezuinige microcontroller.

Een visuele weergave van het trainingsalgoritme. Bron: J. Eschmann et al.

Acteur-criticus schema

Het team gebruikte een acteur-criticus schema om het algoritme te trainen. De ‘acteur’ selecteert acties op basis van de huidige staat van de omgeving, terwijl de ‘criticus’ deze acties evalueert en feedback geeft. Dit iteratieve proces verbetert het besluitvormingsproces van de acteur op efficiënte wijze. Door ruis toe te voegen aan de sensorgegevens en Curriculum Learning in te zetten, werd het algoritme bovendien beter voorbereid op de complexiteit en onvoorspelbaarheid van de echte wereld.

Na training met gesimuleerde data werd het model uitgerold op een Crazyflie Nano quadcopter, waar het bewees dat het op reinforcement learning gebaseerde algoritme een stabiele vlucht kon verzorgen, zelfs in het geval van een externe verstoring (wind). Dit markeert een significante stap vooruit in de praktische toepassing van deze technologie.

Broncode

De volledige broncode van het project is beschikbaar gesteld om andere onderzoeksteams te assisteren bij het verder bevorderen van de ontwikkeling in dronetechnologie.

Het onderzoek naar alternatieven voor PID-gebaseerde flight controllers staat overigens niet op zichzelf. Zo werkt de Delftse startup Fusion Engineering aan een controller die gebaseerd is op het NDI-algoritme, zoals ook toegepast in de aansturing van industriële robots.

(bron: Hackster.io)

Avatar foto

Wiebe de Jager

Wiebe de Jager (@wdejager) is oprichter van Dronewatch en auteur van de boeken Dronefotografie en Dronevideo's maken. Wiebe is A1/A2/A3 gecertificeerd dronepiloot en beschikt over een exploitatievergunning voor de Specific categorie.

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Meld je aan voor onze nieuwsbrief!

Vul hieronder je gegevens in en blijf op de hoogte.

Open nieuwsbrief aanmeldformulier