Espectrogramas de registros de Ballenas Barbadas sintetizados a partir de arquitecturas de Autoenconders: CAE, VAE y CAE-LSTM

Autores/as

DOI:

https://doi.org/10.37537/rev.elektron.6.2.167.2022

Palabras clave:

Autoencoders convolucionales, Capas recursivas, espectrogramas, sonidos subcuáticos, síntesis

Resumen

En este trabajo se analizan diferentes arquitecturas de redes convolucionales sencillas para generar espectrogramas sintéticos correspondientes a registros de audio de ballenas barbadas. La sencillez en el modelo juega un rol importante en las implementaciones de este tipo de redes sobre sistemas embebidos. Además, existe una necesidad de generar modelos eficientes frente a la escasez de datos disponibles para  este tipo de aplicaciones. Con tal fin, se presentan arquitecturas de Autoencoders simples y de baja cantidad de parámetros asociados, se entrenan los modelos, se obtienen métricas adecuadas y se realizan las correspondientes comparaciones. Los resultados obtenidos demuestran que la arquitectura con una implementación más directa es, a su vez, la más conveniente. Finalmente, a partir de estos modelos, se generan espectrogramas sintéticos a partir de pocos datos de muestra, empleando una arquitectura de baja complejidad y asumiendo una distribución normal de los vectores reales.

Descargas

Los datos de descarga aún no están disponibles.

Biografía del autor/a

  • María Celeste Cabedio, Universidad Nacional de Mar del Plata
    Professor and PhD student in the Electronic Department of Engineering at  the National University of Mar del Plata.
  • Marco Carnaghi, Universidad Nacional de Mar del Plata
    PhD student in the Electronic Department of Engineering at  the National University of Mar del Plata.

Referencias

T. Markus and S. P. P. Silva, Managing and Regulating Underwater Noise Pollution. Springer International Publishing, 2018, pp. 971–995. [Online]. Available: https://doi.org/10.1007/978-3-319-60156-4 52

N. Jones, “Ocean uproar: saving marine life from a barrage of noise,” Nature, vol. 568, pp. 158–161, 04 2019.

E. Tejero, “Aplicaciones de Machine Learning a la Bioacústica Marina,” Ph.D. dissertation, 07 2020.

D. Tuia and E. Al, “Perspectives in machine learning for wildlife conservation,” Nature Communications, vol. 13, no. 792, 2022.

A. Lamba, P. Cassey, R. Raja Segaran, and L. Koh, “Deep learning for environmental conservation,” Current Biology, vol. 29, pp. R977–R982, 10 2019.

A. Ibrahim and et. al, “A multimodel deep learning algorithm to detect North Atlantic right whale up-calls,” The Journal of the Acoustical Society of America, vol. 150, 08 2021.

Q. Xu, Z. Wu, Y. Yang, and L. Zhang, “The difference learning of hidden layer between autoencoder and variational autoencoder,” in 29th Chinese Control And Decision Conference, 2017, pp. 4801–4804.

N. Mansouri and Z. Lachiri, “Human Laughter Generation using Hybrid Generative Models,” KSII Transactions on Internet and Information Systems (TIIS), pp. 1590–1609, 2021.

A. Sarroff and M. Casey, “Musical audio synthesis using auto-encoding neural nets,” in In Joint International Computer Music Conference (ICMC) and Sound and Music Computing conference (SMC), 2014.

N. Mansouri and Z. Lachiri, “Laughter synthesis: A comparison between Variational autoencoder and Autoencoder,” in 5th International Conference on Advanced Technologies for Signal and Image Processing (ATSIP), 2020, pp. 1–6.

J. Wei, “AlexNet: The Architecture that Challenged CNNs,” Towards Data Science, 2019. [Online]. Available: https://acortar.link/IrMULc(acceso:25dejuniode2022).

M. Carnaghi and M. C. Cebedio, “Espectrogramas de registros de Ballenas Barbadas, sintetizados a partir de Autoencoders,” Congreso Argentino de Sistemas Embebidos CASE, 08 2022.

“Ocean Sound Library: Natural and Man-Made,” Ocean Conservation Research, 2022. [Online]. Available: https://ocr.org/sound-library/

“Song and Sound,” Whale Trust, 2022. [Online]. Available: https://whaletrust.org/song-sound//

“Marine Mammals,” Discovery of Sound in the Sea, 2022. [Online]. Available: https://dosits.org/galleries/audio-gallery/marine-mammals/

“Watkins Marine Mammal Sound Database,” Woods Hole Oceanographic Institution, 2022. [Online]. Available: https://whoicf2.whoi.edu/science/B/whalesounds/index.cfm

M. C. Cebedio and M. Carnaghi, “Datos,” Google Drive, 2022. [Online]. Available: https://drive.google.com/drive/folders/1HxalJvSf3L4MXW8VsFXsvYelkTb5xYDj?usp=sharing

J. Brownlee, Long Short-Term Memory Networks With Python, 1st ed. Machine Learning Mastery, 2017.

S. Ioffe and C. Szegedy, “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift,” 2015. [Online]. Available: https://arxiv.org/abs/1502.03167

D. Kingma and J. Ba, “Adam: A method for stochastic optimization,” International Conference on Learning Representations, 12 2014.

A. León-Batallas, J. Bermeo-Paucar, Paredes-Quevedo, and H. Torres-Ordoñez, “Una revisión de las métricas aplicadas en el procesamiento de imágenes,” RECIMUNDO, pp. 267–273, 2020.

M. C. Cebedio and M. Carnaghi, “Repositorio-CASE2022,” GitHub, 2022. [Online]. Available: https://github.com/Reposinnombre/CASE2022

Descargas

Publicado

2022-12-15

Número

Sección

Redes de Computadoras e Informática

Cómo citar

[1]
M. C. Cabedio and M. Carnaghi, “Espectrogramas de registros de Ballenas Barbadas sintetizados a partir de arquitecturas de Autoenconders: CAE, VAE y CAE-LSTM”, Elektron, vol. 6, no. 2, pp. 129–134, Dec. 2022, doi: 10.37537/rev.elektron.6.2.167.2022.