giovedì 5 ottobre 2023

Un nuovo metodo di presa robotica per oggetti in movimento basato sull'apprendimento profondo e multi-agente del rinforzo

Fonte: https://www.sciencedirect.com/science/article/abs/pii/S0736584523001199




Per afferrare oggetti che si muovono in modo casuale in un ambiente non strutturato, viene proposto un nuovo metodo di presa robotica basato su TD3 multi-agente con memoria di alta qualità (MA-TD3H).

Durante il processo di presa, l'algoritmo MA-TD3H ottiene lo stato di movimento dell'oggetto dal modulo di rilevamento della visione e fornisce la velocità della pinza. La qualità della memoria campionata gioca un ruolo cruciale nei modelli di apprendimento per rinforzo. In MA-TD3H, le transizioni sono salvate rispettivamente nel buffer di memoria e nel buffer di memoria di alta qualità (H-memory). Quando si aggiorna la rete di attori, le transizioni vengono campionate in modo adattivo dai due buffer con un rapporto stabilito in base al tasso di successo dell'algoritmo. Inoltre, il meccanismo multi-agente consente all'algoritmo MA-TD3H di controllare più agenti per la formazione simultanea e la condivisione dell'esperienza. 

Nella simulazione, MA-TD3H migliora il tasso di successo nell'afferrare l'oggetto in movimento di circa il 25%, rispetto a TD3, DDPG e SAC. Nella maggior parte dei casi, MA-TD3H impiega l'80% del tempo rispetto agli altri algoritmi. In esperimenti reali di presa di oggetti di forme e traiettorie diverse, il tasso medio di successo nella previsione della presa (GPSR) e il tasso di successo nel raggiungimento della presa (GRSR) di MA-TD3H sono superiori al 90% e all'80% rispettivamente, e il GRSR medio è migliorato del 20-30% rispetto agli altri algoritmi. In sintesi, gli esperimenti simulati e reali confermano che l'algoritmo MA-TD3H supera gli altri algoritmi nella presa robotica di oggetti in movimento. Introduzione Al giorno d'oggi, i robot orientati ai servizi sono ampiamente utilizzati in vari campi, come l'assistenza medica, i trasporti e la produzione. 

Nell'industria manifatturiera intelligente, il braccio robotico è stato applicato al prelievo [1], al posizionamento [2] e alla percezione [3,4] del pezzo da lavorare, in modo da sollevare i lavoratori da compiti ripetitivi e migliorare la produttività. Attualmente, il problema della presa robotica [5] è un problema fondamentale nell'assemblaggio intelligente. I bracci robotici possono assistere i lavoratori afferrando parti e utensili, migliorando notevolmente l'efficienza dell'assemblaggio. Tuttavia, la maggior parte delle ricerche si concentra solo sulla presa robotica di oggetti statici. Negli ambienti di produzione reali, le posizioni spaziali degli oggetti possono cambiare dinamicamente a velocità imprevedibili e ci sono poche ricerche sulla presa robotica di oggetti in movimento arbitrario. I metodi di presa robotica si dividono in metodi analitici e metodi basati sui dati [6,7]. 

I primi ricercatori hanno utilizzato metodi analitici per eseguire operazioni di presa di oggetti robotici. Nei metodi analitici offline, su cui è stato fatto un enorme lavoro [8], [9], [10], vengono calcolati i modelli geometrici precisi degli oggetti e il problema della presa robotica viene convertito in un problema di ottimizzazione vincolata, in cui il movimento di presa ottimale viene trovato utilizzando la cinematica, le relazioni geometriche e i criteri di prestazione dinamica. Grazie al miglioramento delle prestazioni dei sensori e all'espansione della domanda del mercato, i metodi analitici online sono stati gradualmente applicati alla presa robotica di oggetti in movimento [11,12], che utilizzano le informazioni restituite dai sensori tattili [13], visivi [14] e di forza [15] per calcolare il modello dinamico in tempo reale e quindi regolare la postura del braccio robotico. 

Tra questi, i metodi analitici online basati sulla visione che eseguono la presa robotica di oggetti in movimento sono stati ben sviluppati grazie ai vantaggi delle informazioni dettagliate sull'ambiente, dell'ampio campo visivo e dell'elevata precisione. In [16,17], gli autori hanno utilizzato il sistema di visione per calcolare la posizione 3D di ciascun pixel dell'immagine e ottenere la posizione dell'oggetto in movimento in tempo reale. Quindi hanno applicato il motion planner per aggiornare i servi a livello di articolazione del braccio per controllare l'end effector che si avvicina all'oggetto in movimento. In [18,19], gli autori hanno utilizzato diverse regioni di ricerca candidate per addestrare più esperti di tracking con il filtro proposto per ottenere buone prestazioni sugli oggetti in rapido movimento. In seguito, il manipolatore dotato di una telecamera di profondità occhio-mano [20] può avvicinarsi ai bersagli in movimento e realizzare la presa. In conclusione, con i modelli geometrici degli oggetti in movimento noti in precedenza e lo stato di movimento degli oggetti rilevato visivamente, i metodi analitici online possono completare il compito di presa robotica di oggetti in movimento. 

A causa della mancanza di conoscenza preliminare degli oggetti in movimento e dell'ambiente, negli ultimi anni sono stati esplorati sempre più metodi data-driven [21], [22], [23], [24], [25], [26], [27]. In [22], gli autori hanno suddiviso la posa di presa robotica in angolo di presa, posizione di presa e larghezza di presa e hanno addestrato una rete neurale convoluzionale leggera (CNN) chiamata GGCNN per calcolarli separatamente. La GGCNN è in grado di catturare il cambiamento di posizione di un oggetto in movimento quasi in tempo reale e di eseguire la presa.

In [6], gli autori hanno addestrato due reti simultaneamente per afferrare l'oggetto in movimento, una per prevedere la matrice di presa attraverso il set di dati CGD e l'altra per eseguire il controllo di asservimento visivo per garantire che l'oggetto in movimento rimanga nel campo visivo della telecamera. In [23], gli autori hanno proposto una rete di rilevamento della presa in profondità per individuare il rettangolo di presa dall'immagine visiva e hanno poi migliorato la stabilità del braccio robotico nel processo di presa mediante sensori aptici. Per evitare le carenze degli approcci di deep learning (DL), come ad esempio la suscettibilità all'ambiente, il lungo tempo necessario per costruire un database etichettato e la dipendenza delle prestazioni di presa dalla capacità del supervisore di interpretare la postura di presa, il deep reinforcement learning (DRL) è stato applicato alla presa robotica di oggetti in movimento [28]. 

I tipici algoritmi di RL, come DDPG [29], SAC [30] e TD3 [31], si basano su approcci di tipo trial-and-error incentrati sulla massimizzazione di una funzione di ricompensa cumulativa, che consente una procedura di presa indipendente dall'oggetto senza una modellazione limitata all'ambiente. I metodi di presa robotica di oggetti in movimento basati su RL cercano di trovare le azioni che possono ottenere una ricompensa più alta nel processo di addestramento, che porta ad afferrare con successo l'oggetto in movimento [32]. In [33] è stato proposto un metodo di presa robotica DRL per oggetti in movimento senza il prerequisito di una grande quantità di dati di addestramento. Il metodo ha utilizzato esempi di presa umana come conoscenza a priori e ha quindi simulato varie azioni possibili con un rendering basato su "action view". Gli esperimenti hanno dimostrato che il metodo è in grado di afferrare efficacemente l'oggetto anche se la posizione dell'oggetto cambia dinamicamente dopo ogni tentativo di presa. In [34], l'algoritmo DDPG è stato applicato per afferrare il pezzo in movimento nella tranciatura automatica. Considerando il basso tasso di successo del DDPG, è stato utilizzato l'Hindsight Experiment Replay (HER) per migliorare il tasso di successo. Tuttavia, l'articolo ha effettuato solo simulazioni, ma non esperimenti reali. In [35], l'algoritmo SAC è stato utilizzato per afferrare oggetti in movimento in un robot Baxter dotato di telecamera RGBD, ottenendo buoni risultati sia nella simulazione che negli esperimenti reali. Tuttavia, non è stato preso in considerazione l'effetto della qualità del buffer di replay sulla convergenza dell'algoritmo, con conseguenti tempi di addestramento lunghi e bassa efficienza. 

In [36], l'algoritmo YOLO è stato utilizzato per riconoscere gli oggetti in movimento, quindi è stata progettata una rete di rilevamento e previsione degli oggetti in movimento combinando la CNN e l'algoritmo Long Short Term Memory (LSTM). La CNN è stata progettata per prevedere la posizione e l'angolo di presa di un oggetto in movimento, mentre la LSTM ha preso in input le tre ultime posizioni dell'oggetto e ha prodotto cinque posizioni di presa future. Le posizioni future previste erano strettamente correlate agli input. Pertanto, l'LSTM non riuscirebbe a prevedere le posizioni future dell'oggetto in movimento quando questo si muove su un percorso irregolare. In sintesi, le ricerche sui metodi di presa robotica di oggetti in movimento basati su RL presentano ancora molte sfide, come le basse prestazioni in tempo reale, i lunghi tempi di addestramento e la difficoltà di applicare il modello di simulazione all'esperimento reale. In DRL, l'aggiornamento asincrono [37,38] e il controllo episodico [37,39] si sono dimostrati efficaci nella riduzione del tempo di addestramento e nel miglioramento della ricompensa. L'aggiornamento asincrono consente alla DRL di addestrare più agenti contemporaneamente e di condividere le loro esperienze. 

Il problema principale è studiare come le diverse esperienze di più piattaforme robotiche possano essere opportunamente integrate in un'unica politica. Una gestione adeguata della diversità delle esperienze campionate potrebbe favorire l'esplorazione esplicita. Il controllo episodico registra le transizioni altamente ricompensate e segue una politica che riproduce sequenze di transizioni che in precedenza hanno prodotto alte ricompense. Tuttavia, i lavori precedenti non sono in grado di regolare in modo adattivo il criterio della memoria episodica, il che può ridurre l'efficienza dell'addestramento e la capacità del modello addestrato. Un altro problema è che l'ambiente reale può differire dalla simulazione. Il trasferimento da simulazione a realtà [40] dovrebbe essere preso in considerazione, in modo che l'algoritmo di controllo addestrato nella simulazione possa essere migrato al sistema robotico del mondo reale senza bisogno di una messa a punto. Per risolvere questi problemi, il presente lavoro propone un metodo di presa robotica DRL per oggetti in movimento basato su TD3 multi-agente con memoria H (MA-TD3H). Per migliorare il tasso di successo della presa del modello addestrato, vengono creati più ambienti di addestramento e un agente asincrono in ciascun ambiente. 

Il sistema di presa robotica ha un modulo di rilevamento della visione e il MA-TD3H come algoritmo di controllo. In primo luogo, il modulo di rilevamento della visione ottiene le immagini RGB e le immagini di profondità dalla telecamera posta sul banco di lavoro. Le immagini RGB ottenute dalla telecamera vengono poi inviate all'algoritmo YOLOv3 [41] nel modulo di rilevamento della visione per riconoscere e localizzare l'oggetto in movimento.

La posa di presa della pinza è ottenuta con tecniche di elaborazione delle immagini basate sulla trasformata di Hough e sull'operatore di Canny [42]. Infine, l'algoritmo di controllo fornisce la velocità della pinza in tempo reale e la guida per afferrare l'oggetto. Per migliorare l'efficienza dell'addestramento, viene proposto un meccanismo di memoria H adattivo. Il meccanismo di riproduzione della memoria consente all'agente di imparare dalle esperienze passate. Vengono creati separatamente un buffer di memoria e un buffer di memoria H e le transizioni vengono memorizzate in uno dei due buffer a seconda della qualità delle transizioni. Nel processo di addestramento, le transizioni vengono campionate da entrambi i buffer con un certo rapporto, che cambia in modo adattivo con il progredire dell'addestramento. Il principio della memoria H è che quando il tasso di successo del modello è relativamente basso, l'algoritmo deve campionare più campioni di alta qualità dalla memoria H per migliorare il tasso di successo. Quando il tasso di successo del modello è relativamente alto, l'algoritmo deve dare priorità all'esplorazione dell'ambiente rispetto allo sfruttamento di campioni di alta qualità. 

L'algoritmo MA-TD3H addestrato è in grado di eseguire efficacemente la presa robotica di oggetti in movimento sia nella simulazione che nell'ambiente reale. I contributi di questo lavoro possono essere riassunti come segue: 1) Viene proposto un metodo di presa robotica di oggetti in movimento basato su MA-TD3H. La memoria H e il meccanismo multi-agente sono applicati per migliorare la velocità di convergenza e la capacità di presa dell'algoritmo MA-TD3H rispetto agli algoritmi MA-TD3 (senza memoria H) e TD3H (senza meccanismo multi-agente). 2) Viene proposto un metodo di campionamento efficace adattivo chiamato H-memory. 

I parametri, la soglia della memoria H e il rapporto di campionamento sono regolati in modo adattivo in base al tasso di successo della presa nel processo di addestramento. 3) Con la calibrazione occhio-mano e la trasformazione delle coordinate, il modello di presa addestrato nella simulazione può essere applicato a un braccio robotico del mondo reale senza alcuna messa a punto. Sia le simulazioni che gli esperimenti reali hanno convalidato che l'algoritmo MA-TD3H supera gli algoritmi TD3, DDPG e SAC negli stessi compiti di presa robotica di oggetti in movimento. Il resto dell'articolo è strutturato come segue. La Sezione 2 introduce il quadro del modello di presa robotica di oggetti in movimento. Nella Sezione 3 viene presentato un metodo dettagliato di presa robotica di oggetti in movimento basato su MA-TD3H. 


Un nuovo metodo di presa robotica per oggetti in movimento basato sull'apprendimento profondo e multi-agente del rinforzo

Fonte:  https://www.sciencedirect.com/science/article/abs/pii/S0736584523001199 Per afferrare oggetti che si muovono in modo casuale in un a...