Recognizing Action and Activities from Egocentric Images

Cartas Ayala, Alejandro

Please use this identifier to cite or link to this item: https://dipositint.ub.edu/dspace/handle/2445/173830

Title:	Recognizing Action and Activities from Egocentric Images
Author:	Cartas Ayala, Alejandro
Director/Tutor:	Radeva, Petia Dimiccoli, Mariella
Keywords:	Processament d'imatges Visió per ordinador Image processing Computer vision
Issue Date:	1-Nov-2020
Publisher:	Universitat de Barcelona
Abstract:	[eng] Egocentric action recognition consists in determining what a wearable camera user is doing from his perspective. Its defining characteristic is that the person himself is only partially visible in the images through his hands. As a result, the recognition of actions can rely solely on user interactions with objects, other people, and the scene. Egocentric action recognition has numerous assistive technology applications, in particular in the field of rehabilitation and preventive medicine. The type of egocentric camera determines the activities or actions that can be predicted. There are roughly two kinds: lifelogging and video cameras. The former can continuously take pictures every 20-30 seconds during day-long periods. The sequences of pictures produced by them are called visual lifelogs or photo-streams. In comparison with video, they lack of motion that typically has been used to disambiguate actions. We present several egocentric action recognition approaches for both settings. We first introduce an approach that classifies still-images from lifelogs by combining a convolutional network and a random forest. Since lifelogs show temporal coherence within consecutive images, we also present two architectures that are based on the long short-term memory (LSTM) network. In order to thoroughly measure their generalization performance, we introduce the largest photo-streams dataset for activity recognition. These tests not only consider hidden days and multiple users but also the effect of time boundaries from events. We finally present domain adaptation strategies for dealing with unknown domain images in a real-world scenario. Our work on egocentric action recognition from videos is primarily focused on object-interactions. We present a deep network that in the first level models person to-object interactions, and in the second level models sequences of actions as part of a single activity. The spatial relationship between hands and objects is modeled using a region-based network, whereas the actions and activities are modeled using a hierarchical LSTM. Our last approach explores the importance of audio produced by the egocentric manipulations of objects. It combines a sparse temporal sampling strategy with a late fusion of audio, RGB, and temporal streams. Experimental results on the EPIC-Kitchen dataset show that multimodal integration leads to better performance than unimodal approaches. [cat] El reconeixement d’accions egocèntriques consisteix a determinar què fa un usuari de càmera egocèntrica des de la seva perspectiva. La característica fonamental que defineix aquesta tasca és que la persona mateixa només és parcialment visible: a les imatges només veurem les seves mans. Com a resultat, el reconeixement d’accions pot dependre únicament de les interaccions dels usuaris amb objectes, altres persones i l’escena mitjançant les seves mans. El reconeixement d’acció egocèntrica té nombroses aplicacions tecnològiques d’assistència, en particular en el camp de la rehabilitació i la medicina preventiva. El tipus de càmera egocèntrica determina les activitats o les accions que es poden predir. Hi ha, grosso modo, dos tipus: registre de vida i càmeres de vídeo. Les càmeres de registre de vida poden prendre fotografies cada 20-30 segons de manera continuada durant tot el dia. Les seqüències d'imatges produïdes per aquestes s'anomenen visual lifelogs o photo-streams. En comparació amb el vídeo, manquen de moviment, el qual normalment es fa servir per desambiguar les accions. Presentem múltiples propostes per a reconeixement d’acció egocèntrica en ambdós contextos. Primer introduïm una proposta per classificar les imatges fixes dels registres de vida combinant una xarxa convolucional i un random forest. Com que els registres de vida mostren coherència temporal en imatges consecutives, també presentem dues arquitectures basades en una xarxa de long short-term memory (LSTM). Per mesurar a fons el seu rendiment de generalització, presentem la base de dades més gran de seqüències de fotos per al reconeixement d’activitats. Aquestes proves no només tenen en compte els dies ocults i diversos usuaris, sinó també l’efecte de les fronteres temporals dels diferents esdeveniments. Finalment presentem estratègies d’adaptació de dominis per tractar imatges de domini desconegut en un escenari del món real. El nostre treball sobre el reconeixement d’accions egocèntriques a partir de vídeos se centra principalment en les interaccions amb objectes. Presentem una xarxa profunda que en el primer nivell modela les interaccions entre persona i objecte i en el segon nivell modela les seqüències d’accions com a part d’una única activitat. La relació espacial entre mans i objectes es modela mitjançant una xarxa basada en regions, mentre que les accions i activitats es modelen mitjançant una xarxa LSTM jeràrquica. La nostra darrera proposta explora la importància de l'àudio produït per les manipulacions egocèntriques d'objectes. Combina una estratègia de mostreig temporal escassa amb una fusió tardana d’àudio, RGB i fluxos temporals. Els resultats experimentals sobre la base de dades EPIC-Kitchen mostren que la integració multimodal resulta en un millor rendiment que els plantejaments unimodals.
URI:	https://hdl.handle.net/2445/173830
Appears in Collections:	Tesis Doctorals - Departament - Matemàtiques i Informàtica

Files in This Item:

File	Description	Size	Format
ACA_PhD_THESIS.pdf		16.35 MB	Adobe PDF	View/Open

Show full item record