Espectrogramas de registros de Ballenas Barbadas sintetizados a partir de arquitecturas de Autoenconders: CAE, VAE y CAE-LSTM

María Celeste Cabedio; Marco Carnaghi

Espectrogramas de registros de Ballenas

Barbadas sintetizados a partir de arquitecturas de

Autoenconders: CAE, VAE y CAE-LSTM

Spectrograms of baleen whale records synthesized from Autoenconder architectures: CAE, VAE

and CAE-LSTM

Mar

ıa Celeste Cebedio

†1

, Marco Carnaghi

†2

†

ICYTE, Depto. de Electr

onica y Computaci

on, Facultad de Ingenier

ıa - UNMDP

Mar del Plata, 7600, Argentina

celestecebedio@fi.mdp.edu.ar

mcarnaghi@fi.mdp.edu.ar

Resumen—En este trabajo se analizan diferentes arqui-

tecturas de redes convolucionales sencillas para generar

espectrogramas sint

eticos correspondientes a registros de

audio de ballenas barbadas.

La sencillez en el modelo juega un rol importante en

las implementaciones de este tipo de redes sobre sistemas

embebidos. Adem

as, existe una necesidad de generar modelos

eﬁcientes frente a la escasez de datos disponibles para este

tipo de aplicaciones. Con tal ﬁn, se presentan arquitecturas

de Autoencoders simples y de baja cantidad de par

ametros

asociados, se entrenan los modelos, se obtienen m

etricas

adecuadas y se realizan las correspondientes comparaciones.

Los resultados obtenidos demuestran que la arquitectura

con una implementaci

on m

as directa es, a su vez, la

as conveniente. Finalmente, a partir de estos modelos, se

generan espectrogramas sint

eticos a partir de pocos datos de

muestra, empleando una arquitectura de baja complejidad

y asumiendo una distribuci

on normal de los vectores reales.

Palabras clave—: Autoencoders convolucionales; Capas

recursivas; espectrogramas; sonidos subcu

aticos; s

ıntesis.

Abstract— In this paper, different architectures of

simple convolutional networks are analyzed to generate

synthetic spectrograms corresponding to baleen whales.

Simplicity in these models plays an important role in the

implementations of these type of networks on embedded

systems. In addition, the scarcity of available data requires

the generation of efﬁcient models. With this aim in mind,

simple Autoencoder architectures with a low number of as-

sociated parameters are presented and trained in this paper.

Then, adequate metrics are obtained and the corresponding

comparison among the architecture alternatives is made.

The obtained results show that the more straightforward

architecture is, in turn, the most convenient. Finally, from

these models, synthetic spectrograms are generated from

few data samples are generated, employing a low complexity

architecture and assuming a normal distribution of the

latent space vectors from the training data.

Keywords—: Convolutional autoencoders; recursive

layers; spectrograms; underwater sound; synthesis.

I. INTRODUCCI

Las iniciativas por la preservaci

on de especies marinas

han actuado como disparador de numerosas investigacio-

nes asociadas a dicha problem

atica [1], [2]. En particular,

uno de los ejes tem

aticos se relaciona con el an

alisis de re-

gistros de audio provenientes de mam

ıferos subacu

aticos.

Estos registros son de inter

es debido a que brindan infor-

maci

on respecto a los comportamientos y mecanismos de

comunicaci

on empleados por tales especies.

Dada la complejidad que trae asociada el an

alisis de

tales datos, su correlaci

on en largos per

ıodos de tiempo y

la contaminaci

on de la informaci

on disponible con ruido

en el entorno submarino; las t

ecnicas basadas en inteli-

gencia artiﬁcial han surgido como una alternativa atractiva

para llevar a cabo los estudios mencionados [3], [4], [5].

En Ibrahim [6], las t

ecnicas mencionadas se utilizan para

detectar llamadas de ballenas en peligro de extinci

on.

Sin embargo, existe un volumen reducido de datos

disponibles, lo cual impacta en forma directa sobre la

calidad de los modelos que pueden lograrse mediante

ecnicas basadas en datos, condicionando en gran medida

la utilizaci

on de estos. Una potencial soluci

on es la gene-

raci

on autom

atica de registros de audio en forma artiﬁcial,

donde las muestras artiﬁciales o sint

eticas conserven las

principales caracter

ısticas de las muestra originales. De

esta forma, se puede expandir la cantidad de datos dispo-

nibles y mitigar los problemas asociados al desbalanceo

de los conjuntos de entrenamiento que enfrentan otros

modelos.

Estudios actuales desarrollan modelos generativos basa-

dos en t

ecnicas de aprendizaje profundo, como el Autoen-

coder Convolucional (CAE) y el Autoencoder Variacional

(VAE), para reconstruir se

nales [7], [8], [9], [10]. Estos

Autoencoders (AE) generan una representaci

on reducida

o codiﬁcada de los datos de entrada denominada espacio

latente y se entrenan para que la salida imite a la entrada.

Este espacio latente se utiliza posteriormente para generar

agenes de salida que conservan las caracter

ısticas de las

agenes de entrenamiento sin ser id

enticas. Los Autoen-

coders son especialmente atractivos para la generaci

on de

datos sint

eticos debido a que en su entrenamiento no se

consiguen r

eplicas exactas. Estas caracter

ısticas que han

llevado a la adopci

on de otros modelos para recrear los

datos de entrada es, en estas situaciones, aprovechada para

la s

ıntesis de nuevos datos.

Revista elektron, Vol. 6, No. 2, pp. 129-134 (2022)

ISSN 2525-0159

129

Recibido: 30/10/22; Aceptado: 30/11/22

Creative Commons License - Attribution-NonCommercial-

NoDerivatives 4.0 International (CC BY-NC-ND 4.0)

https://doi.org/10.37537/rev.elektron.6.2.167.2022

Original Article

Los modelos de redes convolucionales, que pueden

emplearse en la etapa de extracci

on de caracter

ısticas de

los Autoencoders, han demostrado presentar excelentes

resultados pero poseen el inconveniente de ser arquitec-

turas complejas. Cuando se dispone de una PC de alto

rendimiento esto no representa un problema, pero es una

limitante importante para la aplicaci

on de estos modelos

sobre sistemas de bajo rendimiento. A modo de ejemplo,

en el caso de la red AlexNet (Una red ampliamente con-

trastada) presenta 62,3 millones de par

ametros [11], lo que

implica igual orden de operaciones aritm

eticas y necesidad

de trabajar en paralelo con unidades de procesamiento

aﬁco.

La complejidad asociada a cualquier implementaci

de estos modelos t

ıpicos sobre un sistema embebido,

es muy grande. Por este motivo, es interesante estu-

diar la posibilidad de que estos datos sint

eticos puedan

ser generados en tiempo real, por dispositivos de baja

potencia computacional. De esta manera, por ejemplo,

podr

ıan generarse bancos de prueba donde se generen estas

muestras artiﬁciales, lo cual ser

ıa muy beneﬁcioso para el

estudio del medio al contar con equipos que integren estas

funcionalidades.

El presente art

ıculo parte de los resultados obtenidos

en un trabajo previo [12], donde se realiz

o un estudio

sobre la aplicaci

on de las t

ecnicas de aprendizaje profundo

para la generaci

on de espectrogramas sint

eticos. En di-

cho art

ıculo, se propusieron y analizaron arquitecturas de

Autoencoders simples que parten de una representaci

bidimensional, en particular, el espectrograma de mag-

nitud logar

ıtmica, para la codiﬁcaci

on y decodiﬁcaci

de registros de audio provenientes del

ambito submarino.

En concreto, se compar

o el desempe

no de Autoencoders

convencionales (es decir, con un mapeo discreto al espacio

latente) y variacionales, basados en capas convolucionales

para la extracci

on de caracter

ısticas (CAE y VAE, res-

pectivamente). La principal ventaja de estas arquitecturas,

radica en la sencillez del modelo. Es decir, se logra un des-

empe

no aceptable manteniendo una reducida complejidad

en el mismo. Esta caracter

ıstica es de destacar, debido

a que se busca implementar modelos generativos sobre

sistemas embebidos de bajos recursos.

Dado que la arquitectura de los modelos ha demostrado

tener un gran impacto en la respuesta del mismo, en

el presente trabajo se propone estudiar una arquitectura

de red h

ıbrida basada en capas convolucionales y capas

recursivas, donde se conserven las virtudes logradas en

las arquitecturas CAE y VAE, bajo la premisa de baja

complejidad.

La red propuesta se contrasta con las estudiadas en [12]

y se extraen conclusiones. De la comparaci

on surge la

mejor opci

on, que luego se utiliza para la generaci

on de

espectrogramas artiﬁciales.

II. OBJETIVOS

En base a Carnaghi [12] se puede indicar que un mo-

delo general simple, permite recuperar las caracter

ısticas

latentes correspondientes a diferentes espectrogramas de

sonidos subacu

atico de baja frecuencia. Adem

as, queda en

evidencia que la utilizaci

on de AE de baja dimensionalidad

puede ser un camino viable para la obtenci

on de datos

sint

eticos.

El objetivo del presente estudio radica en extender los

resultados mencionados, a partir de plantear una nueva

arquitectura que conserve las cualidades de las CAE y

VAE presentadas en [12]. Es importante mencionar que la

arquitectura propuesta debe continuar con la premisa de

baja complejidad, asociada a una posible implementaci

sobre un sistema embebido de bajo costo.

La arquitectura que se plantea en este trabajo utiliza una

primera etapa convolucional, al igual que las anteriores, e

incorpora recursividad en la siguiente etapa. Por

ultimo,

con el objetivo de explotar las virtudes presentes en las

arquitecturas VAE, se realiza un mapeo continuo del

espacio latente.

III. METODOLOG

En la presente secci

on, se describe el proceso estableci-

do para el entrenamiento de los modelos propuestos y su

posterior utilizaci

on para la s

ıntesis de nuevos espectrogra-

mas. La metodolog

ıa consisten en: adecuaci

on de los datos

de entrada, dise

no de arquitecturas de AE, entrenamiento

del modelo y obtenci

on de m

etricas, comparaci

on de

resultados entre arquitecturas, selecci

on del mejor modelo

y generaci

on de espectrogramas sint

eticos.

III-A. Adecuaci

on de los datos de entrada

La metodolog

ıa de s

ıntesis inicia con un acondicio-

namiento de los datos, cuyo objetivo es obtener una

representaci

on bidimensional de las muestras de audio ori-

ginales. Para ello, se generan matrices bidimensionales que

corresponden al espectrograma de magnitud logar

ıtmica

para cada muestra de audio. Dicha representaci

on matricial

combina la energ

ıa existente en un rango de frecuencia

contemplado, y su variaci

on en el tiempo del registro. A

su vez, permite una directa re-interpretaci

on como imagen

en escala de grises, apta como entrada al modelo.

Los datos disponibles fueron originalmente obtenidos

a partir de diversas fuentes y pertenecen a diferentes

subfamilias dentro de la familia de Ballenas Barbadas

[13]–[16]. Para constituir un conjunto correctamente es-

tructurado, los datos deben normalizarse. Los par

ametros

considerados para este proceso de normalizaci

on se listan

a continuaci

on:

Frecuencia de remuestreo: 44.1KHz.

Duraci

on temporal del registro de audio: 1s.

Tipo de ventana para espectrogramas: Tukey.

Cantidad de puntos por bloque para STFT: 256.

Normalizaci

on de Amplitud: -150 a 150 dB.

Una vez calculado el espectrograma asociado a cada re-

gistro de audio, se adecuan sus dimensiones para coincidir

con las dimensiones de datos en formato imagen, es decir

umero de ﬁlas, n

umero de columnas, n

umero de canales

de color]. Luego se los agrupa conformando un conjunto

de datos destinado al entrenamiento del modelo. El mismo,

es, a su vez, dividido en: datos en entrenamiento ( D

Train

validaci

on (D

Val

) y evaluaci

on (D

Test

En la Tabla I se resumen la cantidad de datos dispo-

nibles y la forma del tensor de entrada correspondiente.

Por otro lado, en [17] se encuentran disponibles: el ten-

sor de entrada correspondiente a los diferentes registros

Revista elektron, Vol. 6, No. 2, pp. 129-134 (2022)

ISSN 2525-0159

130

http://elektron.fi.uba.ar

normalizados de Ballenas Barbadas, el vector de muestras

temporales y el vector de frecuencia necesarias para la

realizaci

on de los espectrogramas posteriores.

TOS

N Dimensi

on del

tensor de entrada

Datos Entrenamiento Datos Ev

aluaci

B. Barbadas

(todas)

6715 [6043,128,196,1] [672,128,196,1]

Tabla I: Datos disponibles para el entrenamiento de los modelos: cantidad y forma

del tensor de entrada

III-B. Arquitecturas de Autoencoders

Las arquitecturas de AE que se estudian en este trabajo

son: CAE, VAE y CAE-LSTM (CAE with Long Short

Term Memory layers).

En la Fig. 1 se ilustra la arquitectura CAE, la cual em-

plea capas convolucionales para el proceso de codiﬁcaci

y extracci

on de caracter

ısticas. Adem

as, cuenta con una

capa ﬂatten y una capa densamente conectada para mapear

las caracter

ısticas extra

ıdas, a un vector representativo

(espacio latente). Posteriormente, el vector de espacio

latente obtenido se emplea para recuperar la imagen de

entrada mediante un proceso de decodiﬁcaci

on que espeja

el procesamiento previo.

Fig. 1: Arquitectura de un CAE gen

erico.

La arquitecturas VAE, por su parte, es ilustrada en la

Fig. 2 y es similar a la CAE con la diferencia de realizar

un mapeo a un espacio latente continuo. Para ello, el

aprendizaje tiene por objetivo descubrir la distribuci

on de

las caracter

ısticas latentes, en lugar del mapeo a vectores

individuales [7]. Con esta ﬁnalidad, se agregan capas

densamente conectadas que extraen el valor medio (µ) y

la varianza (σ) de los valores obtenidos en capas previas.

Fig. 2: Arquitectura de un VAE gen

erico.

Por

ultimo, la arquitectura CAE-LSTM es presentada

en la Fig. 3, donde se observa que tanto la etapa de

codiﬁcaci

on como la etapa de decodiﬁcaci

on est

an com-

puestas por una etapa convolucional y una etapa recursiva.

De esta forma, se divide el procesamiento interno de los

datos empleando, en primer instancia, capas convolucio-

nales para extraen las caracter

ısticas de las im

agenes o

matrices del espectrograma y, al mismo tiempo, conservar

la correlaci

on local de los datos mediante el uso de

kernels; y en segunda instancia, capas recursivas cuyo

prop

osito es descubrir patrones temporales en los datos,

es decir, las diferentes caracter

ısticas obtenidas de las

capas convolucionales. El objetivo de la incorporaci

on de

etapas recursivas es brindar memoria a la red, lo que

permite aprender y aprovechar la naturaleza ordenada de

las observaciones de las secuencias de entrada [18]. De

esta manera, la etapa recurrente se encarga de la extracci

de caracter

ısticas temporales. Finalmente, para obtener un

mapeo continuo a un espacio latente, se utiliza el enfoque

presentado en la arquitectura VAE.

Fig. 3: Arquitectura de un CAE-LSTM gen

erico.

Las tres arquitecturas propuestas poseen en la etapa de

extracci

on de caracter

ısticas 4 capas convolucionales con

los siguientes par

ametros:

1° capa: 32 ﬁltros de 3x3x1 con stride= 1,

2° capa: 64 ﬁltros de 3x3x1 con stride= 2,

3° capa: 64 ﬁltros de 3x3x1 con stride= 2,

4° capa: 64 ﬁltros de 3x3x1 con stride= 1.

Adem

as, todas las etapas emplean funci

on de activaci

tipo RELU y auto-padding. A su vez, aplican instancias

de Batch Normalization, con el ﬁn de acelerar el proceso

de entrenamiento, mejorar las propiedades de normaliza-

on de la red, volverla m

as robusta frente a diferentes

esquemas de inicializaci

on y tasas de aprendizaje [19].

En la Fig. 4, se realiza una descripci

on gr

aﬁca de la etapa

CNN, las transformaciones involucradas y las dimensiones

asociadas a las matrices hasta la salida de la capa Flatten.

Fig. 4: Descripci

on de la etapa de extracci

on de caracter

ısticas.

Al igual que en los aspectos anteriormente listados,

la dimensi

on del espacio latente es un hiperpar

ametro.

Revista elektron, Vol. 6, No. 2, pp. 129-134 (2022)

ISSN 2525-0159

131

http://elektron.fi.uba.ar

En este caso se decide obtener diferentes arquitecturas, a

partir de variar

unicamente esta dimensi

on. Adem

as, en los

modelos CAE-LSTM se analiza el impacto de incorporar

as de una etapa de recursividad y de variar el n

umero

de celdas de memoria en cada una de las mismas.

III-C. Entrenamiento y m

etricas

El objetivo del entrenamiento de un AE es lograr una

apropiada reconstrucci

on de los datos presentados. Los

hiperpar

ametros durante el entrenamiento se establecieron

en:

Funci

on de p

erdida: MSE,

Optimizador: Adam [20],

Taza de aprendizaje: 0.0005,

Tama

no de Minibatch: 100,

Train

: 6043 con %D

Val

: 0.2,

Epocas: 60(CAE y CAE-LSTM) y 48(VAE).

Se busca mantener estos hiperpar

ametros a ﬁn de reali-

zar una comparaci

on objetiva entre los modelos propues-

tos. Notar que, en el caso de la cantidad de

epocas, el

valor cambia debido al punto en que produce sobreajuste

(overﬁtting).

III-D. Comparaci

on y selecci

on de arquitectura

Para la elecci

on de la arquitectura a utilizar en la

ıntesis, se entrenan las redes variando la dimensi

on del

espacio latente. A ﬁn de mantener la premisa inicial de

sencillez en el modelo, las posible dimensiones de este

espacio latente se mantendr

an en 2, 3 y 4.

En la Fig. 5(a) se presenta el MSE correspondiente a

cada arquitectura y, adem

as, para el caso de CAE-LSTM

los errores con datos de validaci

on y entrenamiento en la

Fig. 5(b). Los dem

as casos fueron previamente presentados

en [12].

Se observa que la arquitectura que posee menor error

cuadr

atico medio, corresponde a la CAE con dimensi

del espacio latente igual a 4. Es notable destacar que la

arquitectura CAE-LSTM no presenta mejora con respecto

a la CAE, pero s

ı frente a la VAE.

En la Fig. 6 se eval

uan las diferentes reconstrucciones

logradas con una imagen perteneciente al conjunto de

evaluaci

on (seleccionada al azar), con el ﬁn de corroborar

el signiﬁcado del MSE en forma gr

aﬁca. Se observa que

las reconstrucciones realizadas, se corresponden con los

resultados obtenidos durante el entrenamiento. En este

caso, la arquitectura CAE-LSTM seleccionada es aquella

que obtuvo menor MSE durante la etapa de entrenamiento.

Complementariamente, en la Tabla II, se presentan los

valores de MSE y error de similitud estructural (SSIM)

(el cual ofrece buena precisi

on de evaluaci

on y simple

formulaci

on [21]) calculados sobre la misma imagen de

evaluaci

on. Adicionalmente, en dicha Tabla se listan las

cantidades de par

ametros asociados a cada arquitectura, a

modo de ﬁgura representativa de la complejidad asociada

a cada una.

Es notable que la arquitectura CAE-LSTM empleada

presenta un error MSE levemente superior al obtenido

mediante la arquitectura CAE, pero, a su vez, requiere

menos de la mitad de los par

ametros. Esto representa

una ganancia en relaci

on a la complejidad del modelo al

momento de su implementaci

on.

(a)

(b)

Fig. 5: a) MSE de entrenamiento para diferentes arquitecturas de autoencoders. b)

MSE con datos de validaci

on y de entrenamiento para CAE-LSTM.

(a) Original (b) CAE

Fig. 6: Espectrograma original y diferentes reconstrucciones seg

un la arquitectura

de AE empleada.a) Espectrograma original b) Reconstrucci

on con CAE c) Recons-

trucci

on con VAE d) Reconstrucci

on con CAE-LSTM

Tabla II: Caracter

ısticas de las diferentes arquitecturas. Los errores MSE y SSIM

se calculan sobre una imagen del conjunto de datos de evaluaci

on.

CAE VAE CAE-LSTM

Cant. Par

ametros 707459 1209223 318551

MSE (Evaluaci

on) 0.00468 0.00977 0.00703

SSIM (Evaluaci

on) 0.53452 0.44437 0.48504

En la Tabla III se comparan las arquitecturas CAE-

LSTM estudiadas en este trabajo, con respecto a la varia-

on del MSE en funci

on de la cantidad de capas recursivas

y la cantidad de celdas de memoria. A partir de un an

alisis

Revista elektron, Vol. 6, No. 2, pp. 129-134 (2022)

ISSN 2525-0159

132

http://elektron.fi.uba.ar

de la misma, se concluye que la incorporaci

on de m

etapas de recursividad no mejora signiﬁcativamente el

comportamiento de la red, por lo que un modelo con una

etapa de recursividad de 16 o 32 celdas resulta ser la mejor

alternativa dentro de esta arquitectura.

Tabla III: Valores de MSE para distintas arquitecturas CAE-LSTM

C. Recursivas C.Memoria Dim MSE Train MSE Val

2 0.0150 0.0206

3 0.0445 0.466

4 0.0108 0.0134

2 0.0125 0.0134

3 0.01004 0.0145

4 0.0101 0.0125

2 0.0110 0.0155

3 0.0096 0.0121

4 0.0097 0.0124

2 0.0105 0.0152

3 0.0094 0.0124

4 0.0094 0.0118

2 0.0109 0.0165

3 0.0092 0.0119

4 0.0092 0.0112

2 0.0148 0.0203

3 0.0445 0.0466

4 0.0445 0.0491

2 0.0111 0.0158

3 0.0445 0.0501

4 0.0444 0.0482

2 0.0108 0.0149

3 0.0444 0.0484

4 0.0445 0.0487

2 0.0100 0.0140

3 0.0445 0.0469

4 0.0444 0.0487

2 0.0095 0.0131

3 0.0444 0.0472

4 0.0092 0.0115

III-E. Generaci

on del vector de c

odigo

Durante la instancia de s

ıntesis se utiliza

unicamente el

bloque decodiﬁcador de un modelo ya entrenado. Como

se observa en la Fig. 7, a este bloque ingresa un vector

de valores aleatorios que debe ser capaz de generar una

imagen sint

etica semejante a las que entrenaron el modelo

y que denominamos vector de c

odigo o vector generador.

Fig. 7: Esquema de s

ıntesis.

El vector de c

odigo generado para este ﬁn deben ser

coherente con los casos presentados en instancias previas.

Por lo tanto, para obtener un valor signiﬁcativo, se sigue el

siguiente criterio que fue presentado inicialmente en [12]:

1. Con los vectores de espacio latente generados en el

entrenamiento, se obtiene una matriz de dimensiones

Train

,3].

2. Se analiza la interdependencia entre los datos de

cada vector de espacio latente (ﬁla de la matriz)

mediante la matriz de correlaci

on. En (1), la matriz

de correlaci

on muestra que no existe una marcada

relaci

on intra-vector.





1 −0,0183 −0,1159

−0,0183 1 −0,0197

−0,1159 −0,0197 1





(1)

3. Una vez analizada la interdependencia entre las

dimensiones del espacio latente, se analiza la distri-

buci

on de los valores con el objetivo de asemejarlo

a una funci

on densidad de probabilidad parametri-

zable.

4. Se genera un vector de c

odigo aleatorio [X

] siguiendo las funciones encontradas en el

paso 3.

Estos valores act

uan como punto de partida para generar

vectores de c

odigos aleatorios que ingresan en el bloque

decodiﬁcador entrenado.

IV. RESULTADOS

La adecuaci

on de los datos de entrada, el entrenamiento

de los modelos, los vectores de c

odigo generados y la

ıntesis de los espectrogramas sint

eticos fueron realizados

sobre una Notebook con las siguientes caracter

ısticas:

Procesador Ryzen 7 serie 5800, con 16GB de memoria

RAM, placa de video NVIDIA GeForce RTX 3050 TI,

disco SSD de 100GB, S.O Windows 11.

IV-A. S

ıntesis de espectrogramas sint

eticos

Para la s

ıntesis de espectrogramas sint

eticos, el primer

paso consiste en la generaci

on de vectores de espacio

latentes que act

uan como entrada para la etapa de decodi-

ﬁcaci

on (vector de c

odigo). El procedimiento seguido con

tal ﬁn es el descrito en III-E.

En la Fig. 8 se observa la distribuci

on de cada valor del

espacio latente, generado con la arquitectura CAE-LSTM

durante el entrenamiento. Se deduce que la distribuci

on de

valores de c

odigo obtenidos, pueden aproximarse mediante

una distribuci

on Gaussiana. De esta manera, es posible

obtener un valor medio y una desviaci

on est

andar repre-

sentativa de los datos reales con los que fue entrenada la

red.

Fig. 8: Distribuci

on normalizada de los valores del vector de espacio latente

obtenidos con todos los datos de entrenamiento para la arquitectura CNN-LSTM.

Finalmente, una vez obtenida la estad

ıstica para cada

dimensi

on del espacio latente, las mismas se emplean para

generar vectores aleatorios que act

uen como semilla del

proceso de s

ıntesis.

Luego, en las Figs. 9, 10 y 11 se muestran ejemplos

de im

agenes reales y sintetizadas con los modelos CAE y

Revista elektron, Vol. 6, No. 2, pp. 129-134 (2022)

ISSN 2525-0159

133

http://elektron.fi.uba.ar

CAE-LSTM entrenados. Los c

odigos generadores de estos

modelos pueden consultarse en [22].

Fig. 9: Espectrogramas Reales, obtenidos a partir de registros aleatorios de ballenas

Barbadas.

Fig. 10: Espectrogramas sintetizados aleatoriamente, obtenidos con un decodiﬁca-

dor CAE entrenado, a partir de registros de ballenas Barbadas.

En el primer caso, se presentan espectrogramas de balle-

nas reales, seleccionados aleatoriamente. En los restantes

casos, se sintetizan espectrogramas partiendo de vectores

de espacio latente obtenidos con el proceso descripto

previamente, por lo tanto, no existe correspondencia entre

las im

agenes presentadas.

V. CONCLUSI

En base a los resultados obtenidos se puede aﬁrmar que

la arquitectura m

as prometedora es la CAE. El modelo

CAE propuesto posee una cantidad reducida de capas

convolucionales y de par

ametros asociados a operaciones

matem

aticas. Esto reduce notablemente los errores aso-

ciados en una implementaci

on f

ısica, donde existe una

cantidad de bits limitados para el procesamiento.

Por otra parte, se observ

o que las arquitecturas con espa-

cios recurrentes permitieron una reducci

on m

as notoria en

el n

umero de par

ametros en comparaci

on a la arquitectura

anteriormente mencionada. Sin embargo, tal reducci

del modelo conlleva un leve detrimento del desempe

logrado por el modelo. Adem

as, la naturaleza recursiva

de la red, implica mayor cantidad de operaciones por

par

ametro. En consecuencia, se puede concluir que estas

arquitecturas son recomendables en aquellos casos donde

el n

umero de par

ametros a implementar es el principal

factor limitante.

Como trabajo a futuro se plantea la generaci

on de

registros de audio a partir de espectrogramas y la imple-

mentaci

on de estos modelos sobre alg

un sistema embebido

de bajo costo, como puede ser un microcontrolador o una

FPGA de bajos recursos. Se plantea la evaluaci

on sobre

diferentes plataformas y la elecci

on de la mejor opci

ponderando el costo y el desempe

no.

VI. AGRADECIMIENTOS

Al Dr. Diego Comas y al Dr. Gustavo Meschino por los

conocimientos impartidos sobre la tem

atica.

REFERENCIAS

[1] T. Markus and S. P. P. Silva, Managing and Regulating

Underwater Noise Pollution. Springer International Publishing,

2018, pp. 971–995. [Online]. Available: https://doi.org/10.1007/

978-3-319-60156-4 52

[2] N. Jones, “Ocean uproar: saving marine life from a barrage of

noise,” Nature, vol. 568, pp. 158–161, 04 2019.

Fig. 11: Espectrogramas sintetizados aleatoriamente, obtenidos con un decodiﬁca-

dor CAE-LSTM entrenado, a partir de registros de ballenas Barbadas.

[3] E. Tejero, “Aplicaciones de Machine Learning a la Bioac

ustica

Marina,” Ph.D. dissertation, 07 2020.

[4] D. Tuia and E. Al, “Perspectives in machine learning for wildlife

conservation,” Nature Communications, vol. 13, no. 792, 2022.

[5] A. Lamba, P. Cassey, R. Raja Segaran, and L. Koh, “Deep learning

for environmental conservation,” Current Biology, vol. 29, pp.

R977–R982, 10 2019.

[6] A. Ibrahim and et. al, “A multimodel deep learning algorithm to

detect North Atlantic right whale up-calls,” The Journal of the

Acoustical Society of America, vol. 150, 08 2021.

[7] Q. Xu, Z. Wu, Y. Yang, and L. Zhang, “The difference learning of

hidden layer between autoencoder and variational autoencoder,” in

29th Chinese Control And Decision Conference, 2017, pp. 4801–

4804.

[8] N. Mansouri and Z. Lachiri, “Human Laughter Generation using

Hybrid Generative Models,” KSII Transactions on Internet and

Information Systems (TIIS), pp. 1590–1609, 2021.

[9] A. Sarroff and M. Casey, “Musical audio synthesis using auto-

encoding neural nets,” in In Joint International Computer Music

Conference (ICMC) and Sound and Music Computing conference

(SMC), 2014.

[10] N. Mansouri and Z. Lachiri, “Laughter synthesis: A comparison

between Variational autoencoder and Autoencoder,” in 5th Interna-

tional Conference on Advanced Technologies for Signal and Image

Processing (ATSIP), 2020, pp. 1–6.

[11] J. Wei, “AlexNet: The Architecture that Challenged CNNs,”

Towards Data Science, 2019. [Online]. Available: https://acortar.

link/IrMULc(acceso:25dejuniode2022).

[12] M. Carnaghi and M. C. Cebedio, “Espectrogramas de registros

de Ballenas Barbadas, sintetizados a partir de Autoencoders,”

Congreso Argentino de Sistemas Embebidos CASE, 08 2022.

[13] “Ocean Sound Library: Natural and Man-Made,” Ocean

Conservation Research, 2022. [Online]. Available: https:

//ocr.org/sound-library/

[14] “Song and Sound,” Whale Trust, 2022. [Online]. Available:

https://whaletrust.org/song-sound//

[15] “Marine Mammals,” Discovery of Sound in the Sea,

2022. [Online]. Available: https://dosits.org/galleries/audio-gallery/

marine-mammals/

[16] “Watkins Marine Mammal Sound Database,” Woods Hole

Oceanographic Institution, 2022. [Online]. Available: https:

//whoicf2.whoi.edu/science/B/whalesounds/index.cfm

[17] M. C. Cebedio and M. Carnaghi, “Datos,” Google Drive,

2022. [Online]. Available: https://drive.google.com/drive/folders/

1HxalJvSf3L4MXW8VsFXsvYelkTb5xYDj?usp=sharing

[18] J. Brownlee, Long Short-Term Memory Networks With Python,

1st ed. Machine Learning Mastery, 2017.

[19] S. Ioffe and C. Szegedy, “Batch Normalization: Accelerating Deep

Network Training by Reducing Internal Covariate Shift,” 2015.

[Online]. Available: https://arxiv.org/abs/1502.03167

[20] D. Kingma and J. Ba, “Adam: A method for stochastic optimi-

zation,” International Conference on Learning Representations, 12

2014.

[21] A. Le

on-Batallas, J. Bermeo-Paucar, Paredes-Quevedo, and

H. Torres-Ordo

nez, “Una revisi

on de las m

etricas aplicadas en el

procesamiento de im

agenes,” RECIMUNDO, pp. 267–273, 2020.

[22] M. C. Cebedio and M. Carnaghi, “Repositorio-

CASE2022,” GitHub, 2022. [Online]. Available: https:

//github.com/Reposinnombre/CASE2022

Revista elektron, Vol. 6, No. 2, pp. 129-134 (2022)

ISSN 2525-0159

134

http://elektron.fi.uba.ar

Enlaces de Referencia

Por el momento, no existen enlaces de referencia

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

Revista elektron, ISSN-L 2525-0159
Facultad de Ingeniería. Universidad de Buenos Aires
Paseo Colón 850, 3er piso
C1063ACV - Buenos Aires - Argentina
revista.elektron@fi.uba.ar
+54 (11) 528-50889

Nombre de usuario
Clave
Recordar mis datos