
aprendizaje profundo (AP), nuestra propuesta obtiene un
mejor rendimiento con respecto al enfoque con atenci
´
on
propuesto por Sharma [19], donde por ejemplo usan una
extractor de caracter
´
ısticas GoogleNet. Como as
´
ı tambi
´
en
los enfoques propuestos por [13], [18], [37]. Finalmente,
podemos ver que nuestro resultado obtenido es competitivo
con enfoques doble flujo (DF) donde intervienen al menos
dos arquitecturas profundas, en este caso implica mayor
costo computacional para el procesamiento como asi
tambien tiempo de entrenamiento.
La Figura 4 muestra ejemplos de la salida de nuestro
sistema para los conjuntos de datos HMDB-51 (arriba)
y UCF-101 (abajo) respectivamente. Cada ejemplo viene
acompa
˜
nado de la siguiente informaci
´
on:
Etiqueta (Label): acci
´
on real etiquetada para el video.
Predicci
´
on (Prediction): respuesta de nuestro sistema
correspondiente a la clase con puntuaci
´
on m
´
as alta, es
decir la clase m
´
as probable.
Superposici
´
on del mapa de atenci
´
on. La regi
´
on en
amarillo son hacia donde mira el sistema y el brillo
indica la ponderaci
´
on.
VI. CONCLUSIONES Y TRABAJO FUTURO
En este trabajo implementamos un sistema de
reconocimiento de acciones de video, utilizando una
red neuronal CNN–LSTM. Primero, un VGG 16 extrae las
caracter
´
ısticas del video. Luego, una red neuronal LSTM
clasifica la escena en la clase a la que pertenece. Incluimos
un mecanismo de atenci
´
on adaptada para la arquitectura
base. La arquitectura se implement
´
o en Python usando la
librer
´
ıa Tensorflow, se entren
´
o y se prob
´
o usando las bases
de datos HMDB-51 [31] y UCF-101 [32] se realiz
´
o en una
GPU NVIDIA Titan Xp.
Evaluamos el rendimiento de la arquitectura siguiendo
las m
´
etricas de evaluaci
´
on estand
´
ar para las bases de
datos empleadas. obtenemos 40,7 % (base) y 51,2 % (con
atenci
´
on) para HMDB-51, 75,8 % (base) y 87,2 % (con
atenci
´
on) para UCF-101. Queremos destacar la mejora
del resultado final de la arquitectura base con respecto
a la utilizaci
´
on del mecanismo de atenci
´
on, resultados
competitivos con los de la literatura teniendo en cuenta la
simplicidad de la arquitectura. El aporte que se muestra en
este art
´
ıculo consiste en mostrar una soluci
´
on que utiliza
pocos recursos y obtiene buenos resultados comparables con
otras propuestas que consumen m
´
as recursos.
Como trabajo futuro:
Vamos profundizar sobre las m
´
etricas de evaluaci
´
on
para complementar la evaluaci
´
on de rendimiento de
nuestra propuesta.
Se consideraran el uso de otras bases de datos, como
Hollywood2 [39] y UCF-50 [40] para hacer que el
sistema sea m
´
as robusto y profundizar sobre t
´
ecnicas
para evitar el sobreajuste.
Proponer el uso de otras redes neuronales
convolucionales para la extracci
´
on de caracter
´
ısticas,
por ejemplo ResNet [23]. Profundizar sobre los
mecanismo de atenci
´
on [38], [41].
Otra l
´
ınea de investigaci
´
on es aplicar nuevos enfoques
Transformer [42] para el problema en cuesti
´
on.
AGRADECIMIENTOS
Los autores agradecen a NVIDIA por la donaci
´
on de
una GPU TITAN Xp para el Departamento de Inform
´
atica
- Facultad de Ciencias Exactas - Universidad Nacional de
Salta, Argentina.
REFERENCIAS
[1] I. Jegham, A. B. Khalifa, I. Alouani, and M. A. Mahjoub,
“Vision-based human action recognition: An overview and
real world challenges,” Forensic Science International: Digital
Investigation, vol. 32, p. 200901, 2020. [Online]. Available: http:
//www.sciencedirect.com/science/article/pii/S174228761930283X
[2] M. A. Khan, K. Javed, S. A. Khan, T. Saba, U. Habib, J. A. Khan, and
A. A. Abbasi, “Human action recognition using fusion of multiview
and deep features: an application to video surveillance,” Multimedia
tools and applications, pp. 1–27, 2020.
[3] J. Bao, M. Ye, and Y. Dou, “Mobile phone-based internet of
things human action recognition for e-health,” in 2016 IEEE 13th
International Conference on Signal Processing (ICSP). IEEE, 2016,
pp. 957–962.
[4] N. Jaouedi, N. Boujnah, O. Htiwich, and M. S. Bouhlel, “Human
action recognition to human behavior analysis,” in 2016 7th
International Conference on Sciences of Electronics, Technologies
of Information and Telecommunications (SETIT). IEEE, 2016, pp.
263–266.
[5] V. Bloom, D. Makris, and V. Argyriou, “G3d: A gaming action
dataset and real time action recognition evaluation framework,” in
2012 IEEE Computer Society Conference on Computer Vision and
Pattern Recognition Workshops. IEEE, 2012, pp. 7–12.
[6] I. Laptev, “On space-time interest points,” International journal of
computer vision, vol. 64, no. 2-3, pp. 107–123, 2005.
[7] C. G. Harris, M. Stephens et al., “A combined corner and edge
detector.” in Alvey vision conference, vol. 15, no. 50. Citeseer, 1988,
pp. 10–5244.
[8] H. Wang, A. Kl
¨
aser, C. Schmid, and C. Liu, “Action recognition by
dense trajectories,” in CVPR 2011, June 2011, pp. 3169–3176.
[9] H. Bay, A. Ess, T. Tuytelaars, and L. Van Gool, “Speeded-up robust
features (surf),” Computer vision and image understanding, vol. 110,
no. 3, pp. 346–359, 2008.
[10] N. Dalal and B. Triggs, “Histograms of oriented gradients for human
detection,” in 2005 IEEE Computer Society Conference on Computer
Vision and Pattern Recognition (CVPR’05), vol. 1, 2005, pp. 886–893
vol. 1.
[11] J. Per
ˇ
s, V. Suli
´
c, M. Kristan, M. Per
ˇ
se, K. Polanec, and S. Kova
ˇ
ci
ˇ
c,
“Histograms of optical flow for efficient representation of body
motion,” Pattern Recognition Letters, vol. 31, no. 11, pp. 1369–1376,
2010.
[12] H. Wang, M. M. Ullah, A. Klaser, I. Laptev, and C. Schmid,
“Evaluation of local spatio-temporal features for action recognition,”
in BMVC 2009 - British Machine Vision Conference, A. Cavallaro,
S. Prince, and D. Alexander, Eds. London, United Kingdom:
BMVA Press, Sep. 2009, pp. 124.1–124.11. [Online]. Available:
https://hal.inria.fr/inria-00439769
[13] H. Wang, A. Kl
¨
aser, C. Schmid, and C.-L. Liu, “Dense trajectories
and motion boundary descriptors for action recognition,” International
journal of computer vision, vol. 103, no. 1, pp. 60–79, 2013.
[14] K. Hornik, “Approximation capabilities of multilayer feedforward
networks,” Neural networks, vol. 4, no. 2, pp. 251–257, 1991.
[15] S. Ji, W. Xu, M. Yang, and K. Yu, “3d convolutional neural networks
for human action recognition,” IEEE transactions on pattern analysis
and machine intelligence, vol. 35, no. 1, pp. 221–231, 2013.
[16] S. Hochreiter and J. Schmidhuber, “Long short-term memory,”
Neural Comput., vol. 9, no. 8, pp. 1735–1780, Nov. 1997. [Online].
Available: http://dx.doi.org/10.1162/neco.1997.9.8.1735
[17] Y. Ye and Y. Tian, “Embedding sequential information into
spatiotemporal features for action recognition,” in 2016 IEEE
Conference on Computer Vision and Pattern Recognition Workshops
(CVPRW), 2016, pp. 1110–1118.
[18] B. Zhang, L. Wang, Z. Wang, Y. Qiao, and H. Wang, “Real-time
action recognition with deeply transferred motion vector cnns,” IEEE
Transactions on Image Processing, vol. 27, no. 5, pp. 2326–2339,
2018.
[19] S. Sharma, R. Kiros, and R. Salakhutdinov, “Action recognition
using visual attention,” CoRR, vol. abs/1511.04119, 2015. [Online].
Available: http://arxiv.org/abs/1511.04119
Revista elektron, Vol. 5, No. 1, pp. 37-44 (2021)
http://elektron.fi.uba.ar