Espectrogramas de registros de Ballenas Barbadas sintetizados a partir de arquitecturas de Autoenconders: CAE, VAE y CAE-LSTM

María Celeste Cabedio, Marco Carnaghi

Resumen


En este trabajo se analizan diferentes arquitecturas de redes convolucionales sencillas para generar espectrogramas sintéticos correspondientes a registros de audio de ballenas barbadas. La sencillez en el modelo juega un rol importante en las implementaciones de este tipo de redes sobre sistemas embebidos. Además, existe una necesidad de generar modelos eficientes frente a la escasez de datos disponibles para  este tipo de aplicaciones. Con tal fin, se presentan arquitecturas de Autoencoders simples y de baja cantidad de parámetros asociados, se entrenan los modelos, se obtienen métricas adecuadas y se realizan las correspondientes comparaciones. Los resultados obtenidos demuestran que la arquitectura con una implementación más directa es, a su vez, la más conveniente. Finalmente, a partir de estos modelos, se generan espectrogramas sintéticos a partir de pocos datos de muestra, empleando una arquitectura de baja complejidad y asumiendo una distribución normal de los vectores reales.

Palabras clave


Autoencoders convolucionales; Capas recursivas; espectrogramas; sonidos subcuáticos; síntesis

Texto completo:

PDF HTML

Referencias


T. Markus and S. P. P. Silva, Managing and Regulating Underwater Noise Pollution. Springer International Publishing, 2018, pp. 971–995. [Online]. Available: https://doi.org/10.1007/978-3-319-60156-4 52

N. Jones, “Ocean uproar: saving marine life from a barrage of noise,” Nature, vol. 568, pp. 158–161, 04 2019.

E. Tejero, “Aplicaciones de Machine Learning a la Bioacústica Marina,” Ph.D. dissertation, 07 2020.

D. Tuia and E. Al, “Perspectives in machine learning for wildlife conservation,” Nature Communications, vol. 13, no. 792, 2022.

A. Lamba, P. Cassey, R. Raja Segaran, and L. Koh, “Deep learning for environmental conservation,” Current Biology, vol. 29, pp. R977–R982, 10 2019.

A. Ibrahim and et. al, “A multimodel deep learning algorithm to detect North Atlantic right whale up-calls,” The Journal of the Acoustical Society of America, vol. 150, 08 2021.

Q. Xu, Z. Wu, Y. Yang, and L. Zhang, “The difference learning of hidden layer between autoencoder and variational autoencoder,” in 29th Chinese Control And Decision Conference, 2017, pp. 4801–4804.

N. Mansouri and Z. Lachiri, “Human Laughter Generation using Hybrid Generative Models,” KSII Transactions on Internet and Information Systems (TIIS), pp. 1590–1609, 2021.

A. Sarroff and M. Casey, “Musical audio synthesis using auto-encoding neural nets,” in In Joint International Computer Music Conference (ICMC) and Sound and Music Computing conference (SMC), 2014.

N. Mansouri and Z. Lachiri, “Laughter synthesis: A comparison between Variational autoencoder and Autoencoder,” in 5th International Conference on Advanced Technologies for Signal and Image Processing (ATSIP), 2020, pp. 1–6.

J. Wei, “AlexNet: The Architecture that Challenged CNNs,” Towards Data Science, 2019. [Online]. Available: https://acortar.link/IrMULc(acceso:25dejuniode2022).

M. Carnaghi and M. C. Cebedio, “Espectrogramas de registros de Ballenas Barbadas, sintetizados a partir de Autoencoders,” Congreso Argentino de Sistemas Embebidos CASE, 08 2022.

“Ocean Sound Library: Natural and Man-Made,” Ocean Conservation Research, 2022. [Online]. Available: https://ocr.org/sound-library/

“Song and Sound,” Whale Trust, 2022. [Online]. Available: https://whaletrust.org/song-sound//

“Marine Mammals,” Discovery of Sound in the Sea, 2022. [Online]. Available: https://dosits.org/galleries/audio-gallery/marine-mammals/

“Watkins Marine Mammal Sound Database,” Woods Hole Oceanographic Institution, 2022. [Online]. Available: https://whoicf2.whoi.edu/science/B/whalesounds/index.cfm

M. C. Cebedio and M. Carnaghi, “Datos,” Google Drive, 2022. [Online]. Available: https://drive.google.com/drive/folders/1HxalJvSf3L4MXW8VsFXsvYelkTb5xYDj?usp=sharing

J. Brownlee, Long Short-Term Memory Networks With Python, 1st ed. Machine Learning Mastery, 2017.

S. Ioffe and C. Szegedy, “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift,” 2015. [Online]. Available: https://arxiv.org/abs/1502.03167

D. Kingma and J. Ba, “Adam: A method for stochastic optimization,” International Conference on Learning Representations, 12 2014.

A. León-Batallas, J. Bermeo-Paucar, Paredes-Quevedo, and H. Torres-Ordoñez, “Una revisión de las métricas aplicadas en el procesamiento de imágenes,” RECIMUNDO, pp. 267–273, 2020.

M. C. Cebedio and M. Carnaghi, “Repositorio-CASE2022,” GitHub, 2022. [Online]. Available: https://github.com/Reposinnombre/CASE2022




DOI: https://doi.org/10.37537/rev.elektron.6.2.167.2022

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia


Copyright (c) 2022 María Celeste Cabedio, Marco Carnaghi

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.


Revista elektron,  ISSN-L 2525-0159
Facultad de Ingeniería. Universidad de Buenos Aires 
Paseo Colón 850, 3er piso
C1063ACV - Buenos Aires - Argentina
revista.elektron@fi.uba.ar
+54 (11) 528-50889