La stima di Tensorflow Lite Posenet o Pose è il compito di utilizzare un modello ML per stimare la posa di una persona da un'immagine o un video stimando le posizioni spaziali delle articolazioni del corpo chiave (punti chiave).
La stima della posa si riferisce a tecniche di visione artificiale che rilevano figure umane in immagini e video, in modo che si possa determinare, ad esempio, dove compare il gomito di qualcuno in un'immagine. È importante essere consapevoli del fatto che la stima della posa stima semplicemente dove si trovano le articolazioni chiave del corpo e non riconosce chi è in un'immagine o in un video.
Il modello PoseNet acquisisce un'immagine della telecamera elaborata come input e fornisce informazioni sui punti chiave. I punti chiave rilevati sono indicizzati da un ID parte, con un punteggio di confidenza compreso tra 0,0 e 1,0. Il punteggio di confidenza indica la probabilità che un punto chiave esista in quella posizione.
Benchmark delle prestazioni
Le prestazioni variano in base al dispositivo e al passo di output (mappe di calore e vettori di offset). Il modello PoseNet è invariante alle dimensioni dell'immagine, il che significa che può prevedere le posizioni di posa nella stessa scala dell'immagine originale indipendentemente dal fatto che l'immagine sia ridotta. Ciò significa che si configura il modello per avere una maggiore precisione a scapito delle prestazioni.
Il passo di output determina di quanto l'output viene ridimensionato rispetto alla dimensione dell'immagine in ingresso. Colpisce la dimensione dei livelli e gli output del modello.
Maggiore è il passo in uscita, minore è la risoluzione dei livelli nella rete e nelle uscite e, di conseguenza, la loro precisione. In questa implementazione, il passo di uscita può avere valori di 8, 16 o 32. In altre parole, un passo di uscita di 32 produrrà le prestazioni più veloci ma la precisione più bassa, mentre 8 produrrà la massima precisione ma le prestazioni più lente. Il valore iniziale consigliato è 16.