
CAE-LSTM entrenados. Los c
´
odigos generadores de estos
modelos pueden consultarse en [22].
Fig. 9: Espectrogramas Reales, obtenidos a partir de registros aleatorios de ballenas
Barbadas.
Fig. 10: Espectrogramas sintetizados aleatoriamente, obtenidos con un decodifica-
dor CAE entrenado, a partir de registros de ballenas Barbadas.
En el primer caso, se presentan espectrogramas de balle-
nas reales, seleccionados aleatoriamente. En los restantes
casos, se sintetizan espectrogramas partiendo de vectores
de espacio latente obtenidos con el proceso descripto
previamente, por lo tanto, no existe correspondencia entre
las im
´
agenes presentadas.
V. CONCLUSI
´
ON
En base a los resultados obtenidos se puede afirmar que
la arquitectura m
´
as prometedora es la CAE. El modelo
CAE propuesto posee una cantidad reducida de capas
convolucionales y de par
´
ametros asociados a operaciones
matem
´
aticas. Esto reduce notablemente los errores aso-
ciados en una implementaci
´
on f
´
ısica, donde existe una
cantidad de bits limitados para el procesamiento.
Por otra parte, se observ
´
o que las arquitecturas con espa-
cios recurrentes permitieron una reducci
´
on m
´
as notoria en
el n
´
umero de par
´
ametros en comparaci
´
on a la arquitectura
anteriormente mencionada. Sin embargo, tal reducci
´
on
del modelo conlleva un leve detrimento del desempe
˜
no
logrado por el modelo. Adem
´
as, la naturaleza recursiva
de la red, implica mayor cantidad de operaciones por
par
´
ametro. En consecuencia, se puede concluir que estas
arquitecturas son recomendables en aquellos casos donde
el n
´
umero de par
´
ametros a implementar es el principal
factor limitante.
Como trabajo a futuro se plantea la generaci
´
on de
registros de audio a partir de espectrogramas y la imple-
mentaci
´
on de estos modelos sobre alg
´
un sistema embebido
de bajo costo, como puede ser un microcontrolador o una
FPGA de bajos recursos. Se plantea la evaluaci
´
on sobre
diferentes plataformas y la elecci
´
on de la mejor opci
´
on
ponderando el costo y el desempe
˜
no.
VI. AGRADECIMIENTOS
Al Dr. Diego Comas y al Dr. Gustavo Meschino por los
conocimientos impartidos sobre la tem
´
atica.
REFERENCIAS
[1] T. Markus and S. P. P. Silva, Managing and Regulating
Underwater Noise Pollution. Springer International Publishing,
2018, pp. 971–995. [Online]. Available: https://doi.org/10.1007/
978-3-319-60156-4 52
[2] N. Jones, “Ocean uproar: saving marine life from a barrage of
noise,” Nature, vol. 568, pp. 158–161, 04 2019.
Fig. 11: Espectrogramas sintetizados aleatoriamente, obtenidos con un decodifica-
dor CAE-LSTM entrenado, a partir de registros de ballenas Barbadas.
[3] E. Tejero, “Aplicaciones de Machine Learning a la Bioac
´
ustica
Marina,” Ph.D. dissertation, 07 2020.
[4] D. Tuia and E. Al, “Perspectives in machine learning for wildlife
conservation,” Nature Communications, vol. 13, no. 792, 2022.
[5] A. Lamba, P. Cassey, R. Raja Segaran, and L. Koh, “Deep learning
for environmental conservation,” Current Biology, vol. 29, pp.
R977–R982, 10 2019.
[6] A. Ibrahim and et. al, “A multimodel deep learning algorithm to
detect North Atlantic right whale up-calls,” The Journal of the
Acoustical Society of America, vol. 150, 08 2021.
[7] Q. Xu, Z. Wu, Y. Yang, and L. Zhang, “The difference learning of
hidden layer between autoencoder and variational autoencoder,” in
29th Chinese Control And Decision Conference, 2017, pp. 4801–
4804.
[8] N. Mansouri and Z. Lachiri, “Human Laughter Generation using
Hybrid Generative Models,” KSII Transactions on Internet and
Information Systems (TIIS), pp. 1590–1609, 2021.
[9] A. Sarroff and M. Casey, “Musical audio synthesis using auto-
encoding neural nets,” in In Joint International Computer Music
Conference (ICMC) and Sound and Music Computing conference
(SMC), 2014.
[10] N. Mansouri and Z. Lachiri, “Laughter synthesis: A comparison
between Variational autoencoder and Autoencoder,” in 5th Interna-
tional Conference on Advanced Technologies for Signal and Image
Processing (ATSIP), 2020, pp. 1–6.
[11] J. Wei, “AlexNet: The Architecture that Challenged CNNs,”
Towards Data Science, 2019. [Online]. Available: https://acortar.
link/IrMULc(acceso:25dejuniode2022).
[12] M. Carnaghi and M. C. Cebedio, “Espectrogramas de registros
de Ballenas Barbadas, sintetizados a partir de Autoencoders,”
Congreso Argentino de Sistemas Embebidos CASE, 08 2022.
[13] “Ocean Sound Library: Natural and Man-Made,” Ocean
Conservation Research, 2022. [Online]. Available: https:
//ocr.org/sound-library/
[14] “Song and Sound,” Whale Trust, 2022. [Online]. Available:
https://whaletrust.org/song-sound//
[15] “Marine Mammals,” Discovery of Sound in the Sea,
2022. [Online]. Available: https://dosits.org/galleries/audio-gallery/
marine-mammals/
[16] “Watkins Marine Mammal Sound Database,” Woods Hole
Oceanographic Institution, 2022. [Online]. Available: https:
//whoicf2.whoi.edu/science/B/whalesounds/index.cfm
[17] M. C. Cebedio and M. Carnaghi, “Datos,” Google Drive,
2022. [Online]. Available: https://drive.google.com/drive/folders/
1HxalJvSf3L4MXW8VsFXsvYelkTb5xYDj?usp=sharing
[18] J. Brownlee, Long Short-Term Memory Networks With Python,
1st ed. Machine Learning Mastery, 2017.
[19] S. Ioffe and C. Szegedy, “Batch Normalization: Accelerating Deep
Network Training by Reducing Internal Covariate Shift,” 2015.
[Online]. Available: https://arxiv.org/abs/1502.03167
[20] D. Kingma and J. Ba, “Adam: A method for stochastic optimi-
zation,” International Conference on Learning Representations, 12
2014.
[21] A. Le
´
on-Batallas, J. Bermeo-Paucar, Paredes-Quevedo, and
H. Torres-Ordo
˜
nez, “Una revisi
´
on de las m
´
etricas aplicadas en el
procesamiento de im
´
agenes,” RECIMUNDO, pp. 267–273, 2020.
[22] M. C. Cebedio and M. Carnaghi, “Repositorio-
CASE2022,” GitHub, 2022. [Online]. Available: https:
//github.com/Reposinnombre/CASE2022
Revista elektron, Vol. 6, No. 2, pp. 129-134 (2022)
http://elektron.fi.uba.ar