2023/2024
Anàlisi de Vídeo
Codi: 44778
Crèdits: 9
Titulació |
Tipus |
Curs |
Semestre |
4318299 Visió per Computador |
OB |
0 |
2 |
Idiomes dels grups
Podeu accedir-hi des d'aquest enllaç. Per consultar l'idioma us caldrà introduir el CODI de l'assignatura. Tingueu en compte que la informació és provisional fins a 30 de novembre de 2023.
Equip docent
- Javier Ruiz Hidalgo
- Ramon Morros Rubio
- Montse Pardàs Feliu
- Federico Sukno
- Sergio Escalera Guerrero
Equip docent extern a la UAB
- Albert Clapés
Prerequisits
Un grau en Enginyeria, Matemàtiques, Física o similar.
Assignatura C3: Machine Learning for Computer Vision
Competències de programació en Python
Objectius
Coordinador del mòdul: Dr. Javier Ruiz
L'objectiu d'aquest mòdul és presentar els principals conceptes i tecnologies que són necessaris per a l'anàlisi de vídeo. En primer lloc, es presenten les aplicacions d'anàlisi de seqüències d'imatges i els diferents tipus de dades on s'aplicaran aquestes tècniques. A més es proporciona una descripció general de les tècniques de processament de senyals i les arquitectures generals d'aprenentatge profund en què es basa l'anàlisi de vídeo. Es donaran exemples per a seqüències de vídeo monocámara, multicàmera i amb càmeres de profunditat. S'estudiaran tant les bases teòriques com els algoritmes més utilitzats. Per a cada matèria, es presentaran tècniques clàssiques juntament amb les tècniques d'aprenentatge profund de l'estat de l'art que condueixen a diferents enfocaments. Els temes principals seran la segmentació de vídeo, la sostracció i modelatge del fons, l'estimació de moviment, els algoritmes de seguiment i l'anàlisi basat en models. També s'estudiaran tècniques de nivell superior, com el reconeixement de gestos o accions, la generació profunda de de vídeos i l'aprenentatge profund multimodal. Els estudiants treballaran en un projecte sobre monitorització de trànsit aplicat a ADAS (sistemes avançats d'assistència al conductor) on s'aplicaran els conceptes apresos en el curs. El projecte se centrarà en la detecció i segmentació d'objectes de vídeo, l'estimació del flux òptic i el seguiment de vehicles amb múltiples objectius / càmeres.
Resultats d'aprenentatge
- CA03 (Competència) Definir tots els components que cooperen en un sistema complet d'anàlisi de seqüències d'imatges.
- CA06 (Competència) Aconseguir els objectius d'un projecte de visió fet en equip.
- KA06 (Coneixement) Identificar els problemes bàsics que s'han de solucionar en un problema de seqüències d'imatges d'escenes .
- KA14 (Coneixement) Proporcionar la millor modelització per solucionar problemes de segmentació de vídeos, d'estimació del moviment o del seguiment d'objectes.
- SA05 (Habilitat) Resoldre un problema de reconeixement visual entrenant una arquitectura de xarxa neuronal profunda i avaluar-ne els resultats.
- SA11 (Habilitat) Definir els millors conjunts de dades per entrenar arquitectures de reconeixement visual.
- SA15 (Habilitat) Preparar un informe que descrigui, justifiqui i il·lustri el desenvolupament d'un projecte de visió.
- SA17 (Habilitat) Preparar presentacions orals que permetin debatre els resultats del desenvolupament d'un projecte de visió.
Continguts
- Segmentació de vídeo
- Estimació del moviment
- Seguiment d'objectes
- Xarxes Neuronals Recurrents
- Atenció i Transformers per vídeo
- Arquitectures Neuronals per vídeo
- Reconeixement d'accions
- Aprenentage amb supervisió pròpia per vídeo
- Aprenentatge Multi-modal per vídeo
- Anàlisi d'humans en vídeos
- Adaptació al domini per vídeo.
Metodologia
Sessions supervisades: (Algunes d'aquestes sessions podrien ser en línia síncròniques)
- Sessions de teoria, on els professors expliquen continguts generals sobre els diferents temes. Alguns d'ells s'empraran per resoldre els problemes.
Sessions dirigides:
- Sessions de projecte, on els problemes i els objectius dels projectes seran presentats i discutits, els estudiants interactuaran amb el coordinador del projecte sobre problemes i idees per resoldre el projecte (aprox. 1 hora/setmana).
- Sessió de presentació, on els estudiants fan una presentació oral sobre com han resolt el projecte i una demostració dels resultats.
- Sessió d'examen, on els estudiants són avaluats de forma individual sobre el coneixement obtingut i les habilitats per resoldre problemes.
Treball autònom:
- L'estudiant estudiarà de forma autònoma i treballarà els materials derivats de les sessions teòriques.
- L'estudiant treballarà en grups per a resoldre els problemes del projecte amb entregues de:
- Codi
- Informes
- Presentació oral
Nota: es reservaran 15 minuts d'una classe, dins del calendari establert pel centre/titulació, per a la complementació per part de l'alumnat de les enquestes d'avaluació de l'actuació del professorat i d'avaluació de l'assignatura/mòdul.
Avaluació
La Nota final d'aquest mòdul es calcula amb la següent fórmula:
Nota final = 0.4 x Examen + 0.55 x Projecte+ 0.05 x Assistència
on,
Exàmen: és la nota obtinguda en l'examen final del mòdul (ha de ser >= 3).
Assistència: és la nota derivada de l'assistència a les sessions (mínim 70%).
Projecte: és la nota que posa el coordinador del projecte d'acord amb els resultats del seguiment setmanal del projecte i de les entregues (ha de ser >= 5). Tot d'acord amb criteris específcis com ara:
- Participació en les sessions de discusió i en el treball en equip (avaluació entre-membres)
- Entrega de les parts obligatòries i opcionals del projecte.
- Desenvolupament del codi (estil, comentaris, etc.)
- Informe (justificació de les decisions preses en el desenvolupament del projecte)
- Presentació (Presentació i demostració del projecte desenvolupat)
Només els estudiants que han suspès (Nota final < 5.0) poden fer l'examen de recuperació.
Activitats d'avaluació continuada
Títol |
Pes |
Hores |
ECTS |
Resultats d'aprenentatge |
Assistència a sessions |
0.05 |
0,5
|
0,02 |
CA06, KA06, KA14
|
Exàmen |
0.4 |
2,5
|
0,1 |
KA06, KA14
|
Projecte |
0.55 |
6
|
0,24 |
CA03, CA06, SA05, SA11, SA15, SA17
|
Bibliografia
Articles:
- M. Piccardi. “Background subtraction techniques: a review”. Journal: IEEE Int. Conf. On Systems, Man and Cybernetics 2004 , v. 4, pp. 3099-3104, 2004.
- A. Sobral, A. Vacavant, “A comprehensive review of background subtraction algorithms evaluated with synthetic and real videos”, Journal: Computer Vision and Image Understanding Vol. 122, pp. 4-21 · May 2014.
- S. Baker, D. Scharstein, JP. Lewis, S. Roth, M. Black, R. Szeliski. “A database and evaluation methodology for optical flow”. Journal: International Journal of Computer Vision, Vol. 92:1, pp. 1-31, 2011.
- T. Cootes, G. Edwards, C. Taylor. “Active appearance models”. Journal: IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 6, pp. 681--685, 2001.
- R. Poppe. “Vision-based Human motion analysis: an overview”. Journal: Computer Vision and Image Understanding 108 (1-2): 4-18, 2007
Llibres:
- “Sequential Monte Carlo methods in practice”, A. Doucet, N. de Freitas and N.Gordon (Eds.), Springer, 2001.
Programari
Entorn de programació en Python amb especial atenció a les llibreries de visió per computador i Pythorch