Espectrogramas de registros de Ballenas
Barbadas sintetizados a partir de arquitecturas de
Autoenconders: CAE, VAE y CAE-LSTM
Spectrograms of baleen whale records synthesized from Autoenconder architectures: CAE, VAE
and CAE-LSTM
Mar
´
ıa Celeste Cebedio
1
, Marco Carnaghi
2
ICYTE, Depto. de Electr
´
onica y Computaci
´
on, Facultad de Ingenier
´
ıa - UNMDP
Mar del Plata, 7600, Argentina
1
celestecebedio@fi.mdp.edu.ar
2
mcarnaghi@fi.mdp.edu.ar
Resumen—En este trabajo se analizan diferentes arqui-
tecturas de redes convolucionales sencillas para generar
espectrogramas sint
´
eticos correspondientes a registros de
audio de ballenas barbadas.
La sencillez en el modelo juega un rol importante en
las implementaciones de este tipo de redes sobre sistemas
embebidos. Adem
´
as, existe una necesidad de generar modelos
eficientes frente a la escasez de datos disponibles para este
tipo de aplicaciones. Con tal fin, se presentan arquitecturas
de Autoencoders simples y de baja cantidad de par
´
ametros
asociados, se entrenan los modelos, se obtienen m
´
etricas
adecuadas y se realizan las correspondientes comparaciones.
Los resultados obtenidos demuestran que la arquitectura
con una implementaci
´
on m
´
as directa es, a su vez, la
m
´
as conveniente. Finalmente, a partir de estos modelos, se
generan espectrogramas sint
´
eticos a partir de pocos datos de
muestra, empleando una arquitectura de baja complejidad
y asumiendo una distribuci
´
on normal de los vectores reales.
Palabras clave—: Autoencoders convolucionales; Capas
recursivas; espectrogramas; sonidos subcu
´
aticos; s
´
ıntesis.
Abstract— In this paper, different architectures of
simple convolutional networks are analyzed to generate
synthetic spectrograms corresponding to baleen whales.
Simplicity in these models plays an important role in the
implementations of these type of networks on embedded
systems. In addition, the scarcity of available data requires
the generation of efficient models. With this aim in mind,
simple Autoencoder architectures with a low number of as-
sociated parameters are presented and trained in this paper.
Then, adequate metrics are obtained and the corresponding
comparison among the architecture alternatives is made.
The obtained results show that the more straightforward
architecture is, in turn, the most convenient. Finally, from
these models, synthetic spectrograms are generated from
few data samples are generated, employing a low complexity
architecture and assuming a normal distribution of the
latent space vectors from the training data.
Keywords—: Convolutional autoencoders; recursive
layers; spectrograms; underwater sound; synthesis.
I. INTRODUCCI
´
ON
Las iniciativas por la preservaci
´
on de especies marinas
han actuado como disparador de numerosas investigacio-
nes asociadas a dicha problem
´
atica [1], [2]. En particular,
uno de los ejes tem
´
aticos se relaciona con el an
´
alisis de re-
gistros de audio provenientes de mam
´
ıferos subacu
´
aticos.
Estos registros son de inter
´
es debido a que brindan infor-
maci
´
on respecto a los comportamientos y mecanismos de
comunicaci
´
on empleados por tales especies.
Dada la complejidad que trae asociada el an
´
alisis de
tales datos, su correlaci
´
on en largos per
´
ıodos de tiempo y
la contaminaci
´
on de la informaci
´
on disponible con ruido
en el entorno submarino; las t
´
ecnicas basadas en inteli-
gencia artificial han surgido como una alternativa atractiva
para llevar a cabo los estudios mencionados [3], [4], [5].
En Ibrahim [6], las t
´
ecnicas mencionadas se utilizan para
detectar llamadas de ballenas en peligro de extinci
´
on.
Sin embargo, existe un volumen reducido de datos
disponibles, lo cual impacta en forma directa sobre la
calidad de los modelos que pueden lograrse mediante
t
´
ecnicas basadas en datos, condicionando en gran medida
la utilizaci
´
on de estos. Una potencial soluci
´
on es la gene-
raci
´
on autom
´
atica de registros de audio en forma artificial,
donde las muestras artificiales o sint
´
eticas conserven las
principales caracter
´
ısticas de las muestra originales. De
esta forma, se puede expandir la cantidad de datos dispo-
nibles y mitigar los problemas asociados al desbalanceo
de los conjuntos de entrenamiento que enfrentan otros
modelos.
Estudios actuales desarrollan modelos generativos basa-
dos en t
´
ecnicas de aprendizaje profundo, como el Autoen-
coder Convolucional (CAE) y el Autoencoder Variacional
(VAE), para reconstruir se
˜
nales [7], [8], [9], [10]. Estos
Autoencoders (AE) generan una representaci
´
on reducida
o codificada de los datos de entrada denominada espacio
latente y se entrenan para que la salida imite a la entrada.
Este espacio latente se utiliza posteriormente para generar
im
´
agenes de salida que conservan las caracter
´
ısticas de las
im
´
agenes de entrenamiento sin ser id
´
enticas. Los Autoen-
coders son especialmente atractivos para la generaci
´
on de
datos sint
´
eticos debido a que en su entrenamiento no se
consiguen r
´
eplicas exactas. Estas caracter
´
ısticas que han
llevado a la adopci
´
on de otros modelos para recrear los
datos de entrada es, en estas situaciones, aprovechada para
la s
´
ıntesis de nuevos datos.
Revista elektron, Vol. 6, No. 2, pp. 129-134 (2022)
ISSN 2525-0159
129
Recibido: 30/10/22; Aceptado: 30/11/22
Creative Commons License - Attribution-NonCommercial-
NoDerivatives 4.0 International (CC BY-NC-ND 4.0)
https://doi.org/10.37537/rev.elektron.6.2.167.2022
Original Article
Los modelos de redes convolucionales, que pueden
emplearse en la etapa de extracci
´
on de caracter
´
ısticas de
los Autoencoders, han demostrado presentar excelentes
resultados pero poseen el inconveniente de ser arquitec-
turas complejas. Cuando se dispone de una PC de alto
rendimiento esto no representa un problema, pero es una
limitante importante para la aplicaci
´
on de estos modelos
sobre sistemas de bajo rendimiento. A modo de ejemplo,
en el caso de la red AlexNet (Una red ampliamente con-
trastada) presenta 62,3 millones de par
´
ametros [11], lo que
implica igual orden de operaciones aritm
´
eticas y necesidad
de trabajar en paralelo con unidades de procesamiento
gr
´
afico.
La complejidad asociada a cualquier implementaci
´
on
de estos modelos t
´
ıpicos sobre un sistema embebido,
es muy grande. Por este motivo, es interesante estu-
diar la posibilidad de que estos datos sint
´
eticos puedan
ser generados en tiempo real, por dispositivos de baja
potencia computacional. De esta manera, por ejemplo,
podr
´
ıan generarse bancos de prueba donde se generen estas
muestras artificiales, lo cual ser
´
ıa muy beneficioso para el
estudio del medio al contar con equipos que integren estas
funcionalidades.
El presente art
´
ıculo parte de los resultados obtenidos
en un trabajo previo [12], donde se realiz
´
o un estudio
sobre la aplicaci
´
on de las t
´
ecnicas de aprendizaje profundo
para la generaci
´
on de espectrogramas sint
´
eticos. En di-
cho art
´
ıculo, se propusieron y analizaron arquitecturas de
Autoencoders simples que parten de una representaci
´
on
bidimensional, en particular, el espectrograma de mag-
nitud logar
´
ıtmica, para la codificaci
´
on y decodificaci
´
on
de registros de audio provenientes del
´
ambito submarino.
En concreto, se compar
´
o el desempe
˜
no de Autoencoders
convencionales (es decir, con un mapeo discreto al espacio
latente) y variacionales, basados en capas convolucionales
para la extracci
´
on de caracter
´
ısticas (CAE y VAE, res-
pectivamente). La principal ventaja de estas arquitecturas,
radica en la sencillez del modelo. Es decir, se logra un des-
empe
˜
no aceptable manteniendo una reducida complejidad
en el mismo. Esta caracter
´
ıstica es de destacar, debido
a que se busca implementar modelos generativos sobre
sistemas embebidos de bajos recursos.
Dado que la arquitectura de los modelos ha demostrado
tener un gran impacto en la respuesta del mismo, en
el presente trabajo se propone estudiar una arquitectura
de red h
´
ıbrida basada en capas convolucionales y capas
recursivas, donde se conserven las virtudes logradas en
las arquitecturas CAE y VAE, bajo la premisa de baja
complejidad.
La red propuesta se contrasta con las estudiadas en [12]
y se extraen conclusiones. De la comparaci
´
on surge la
mejor opci
´
on, que luego se utiliza para la generaci
´
on de
espectrogramas artificiales.
II. OBJETIVOS
En base a Carnaghi [12] se puede indicar que un mo-
delo general simple, permite recuperar las caracter
´
ısticas
latentes correspondientes a diferentes espectrogramas de
sonidos subacu
´
atico de baja frecuencia. Adem
´
as, queda en
evidencia que la utilizaci
´
on de AE de baja dimensionalidad
puede ser un camino viable para la obtenci
´
on de datos
sint
´
eticos.
El objetivo del presente estudio radica en extender los
resultados mencionados, a partir de plantear una nueva
arquitectura que conserve las cualidades de las CAE y
VAE presentadas en [12]. Es importante mencionar que la
arquitectura propuesta debe continuar con la premisa de
baja complejidad, asociada a una posible implementaci
´
on
sobre un sistema embebido de bajo costo.
La arquitectura que se plantea en este trabajo utiliza una
primera etapa convolucional, al igual que las anteriores, e
incorpora recursividad en la siguiente etapa. Por
´
ultimo,
con el objetivo de explotar las virtudes presentes en las
arquitecturas VAE, se realiza un mapeo continuo del
espacio latente.
III. METODOLOG
´
IA
En la presente secci
´
on, se describe el proceso estableci-
do para el entrenamiento de los modelos propuestos y su
posterior utilizaci
´
on para la s
´
ıntesis de nuevos espectrogra-
mas. La metodolog
´
ıa consisten en: adecuaci
´
on de los datos
de entrada, dise
˜
no de arquitecturas de AE, entrenamiento
del modelo y obtenci
´
on de m
´
etricas, comparaci
´
on de
resultados entre arquitecturas, selecci
´
on del mejor modelo
y generaci
´
on de espectrogramas sint
´
eticos.
III-A. Adecuaci
´
on de los datos de entrada
La metodolog
´
ıa de s
´
ıntesis inicia con un acondicio-
namiento de los datos, cuyo objetivo es obtener una
representaci
´
on bidimensional de las muestras de audio ori-
ginales. Para ello, se generan matrices bidimensionales que
corresponden al espectrograma de magnitud logar
´
ıtmica
para cada muestra de audio. Dicha representaci
´
on matricial
combina la energ
´
ıa existente en un rango de frecuencia
contemplado, y su variaci
´
on en el tiempo del registro. A
su vez, permite una directa re-interpretaci
´
on como imagen
en escala de grises, apta como entrada al modelo.
Los datos disponibles fueron originalmente obtenidos
a partir de diversas fuentes y pertenecen a diferentes
subfamilias dentro de la familia de Ballenas Barbadas
[13]–[16]. Para constituir un conjunto correctamente es-
tructurado, los datos deben normalizarse. Los par
´
ametros
considerados para este proceso de normalizaci
´
on se listan
a continuaci
´
on:
Frecuencia de remuestreo: 44.1KHz.
Duraci
´
on temporal del registro de audio: 1s.
Tipo de ventana para espectrogramas: Tukey.
Cantidad de puntos por bloque para STFT: 256.
Normalizaci
´
on de Amplitud: -150 a 150 dB.
Una vez calculado el espectrograma asociado a cada re-
gistro de audio, se adecuan sus dimensiones para coincidir
con las dimensiones de datos en formato imagen, es decir
[n
´
umero de filas, n
´
umero de columnas, n
´
umero de canales
de color]. Luego se los agrupa conformando un conjunto
de datos destinado al entrenamiento del modelo. El mismo,
es, a su vez, dividido en: datos en entrenamiento ( D
Train
),
validaci
´
on (D
Val
) y evaluaci
´
on (D
Test
).
En la Tabla I se resumen la cantidad de datos dispo-
nibles y la forma del tensor de entrada correspondiente.
Por otro lado, en [17] se encuentran disponibles: el ten-
sor de entrada correspondiente a los diferentes registros
Revista elektron, Vol. 6, No. 2, pp. 129-134 (2022)
ISSN 2525-0159
130
http://elektron.fi.uba.ar
normalizados de Ballenas Barbadas, el vector de muestras
temporales y el vector de frecuencia necesarias para la
realizaci
´
on de los espectrogramas posteriores.
DA
TOS
N Dimensi
´
on del
tensor de entrada
Datos Entrenamiento Datos Ev
aluaci
´
on
B. Barbadas
(todas)
6715 [6043,128,196,1] [672,128,196,1]
Tabla I: Datos disponibles para el entrenamiento de los modelos: cantidad y forma
del tensor de entrada
III-B. Arquitecturas de Autoencoders
Las arquitecturas de AE que se estudian en este trabajo
son: CAE, VAE y CAE-LSTM (CAE with Long Short
Term Memory layers).
En la Fig. 1 se ilustra la arquitectura CAE, la cual em-
plea capas convolucionales para el proceso de codificaci
´
on
y extracci
´
on de caracter
´
ısticas. Adem
´
as, cuenta con una
capa flatten y una capa densamente conectada para mapear
las caracter
´
ısticas extra
´
ıdas, a un vector representativo
(espacio latente). Posteriormente, el vector de espacio
latente obtenido se emplea para recuperar la imagen de
entrada mediante un proceso de decodificaci
´
on que espeja
el procesamiento previo.
Fig. 1: Arquitectura de un CAE gen
´
erico.
La arquitecturas VAE, por su parte, es ilustrada en la
Fig. 2 y es similar a la CAE con la diferencia de realizar
un mapeo a un espacio latente continuo. Para ello, el
aprendizaje tiene por objetivo descubrir la distribuci
´
on de
las caracter
´
ısticas latentes, en lugar del mapeo a vectores
individuales [7]. Con esta finalidad, se agregan capas
densamente conectadas que extraen el valor medio (µ) y
la varianza (σ) de los valores obtenidos en capas previas.
Fig. 2: Arquitectura de un VAE gen
´
erico.
Por
´
ultimo, la arquitectura CAE-LSTM es presentada
en la Fig. 3, donde se observa que tanto la etapa de
codificaci
´
on como la etapa de decodificaci
´
on est
´
an com-
puestas por una etapa convolucional y una etapa recursiva.
De esta forma, se divide el procesamiento interno de los
datos empleando, en primer instancia, capas convolucio-
nales para extraen las caracter
´
ısticas de las im
´
agenes o
matrices del espectrograma y, al mismo tiempo, conservar
la correlaci
´
on local de los datos mediante el uso de
kernels; y en segunda instancia, capas recursivas cuyo
prop
´
osito es descubrir patrones temporales en los datos,
es decir, las diferentes caracter
´
ısticas obtenidas de las
capas convolucionales. El objetivo de la incorporaci
´
on de
etapas recursivas es brindar memoria a la red, lo que
permite aprender y aprovechar la naturaleza ordenada de
las observaciones de las secuencias de entrada [18]. De
esta manera, la etapa recurrente se encarga de la extracci
´
on
de caracter
´
ısticas temporales. Finalmente, para obtener un
mapeo continuo a un espacio latente, se utiliza el enfoque
presentado en la arquitectura VAE.
Fig. 3: Arquitectura de un CAE-LSTM gen
´
erico.
Las tres arquitecturas propuestas poseen en la etapa de
extracci
´
on de caracter
´
ısticas 4 capas convolucionales con
los siguientes par
´
ametros:
capa: 32 filtros de 3x3x1 con stride= 1,
capa: 64 filtros de 3x3x1 con stride= 2,
capa: 64 filtros de 3x3x1 con stride= 2,
capa: 64 filtros de 3x3x1 con stride= 1.
Adem
´
as, todas las etapas emplean funci
´
on de activaci
´
on
tipo RELU y auto-padding. A su vez, aplican instancias
de Batch Normalization, con el fin de acelerar el proceso
de entrenamiento, mejorar las propiedades de normaliza-
ci
´
on de la red, volverla m
´
as robusta frente a diferentes
esquemas de inicializaci
´
on y tasas de aprendizaje [19].
En la Fig. 4, se realiza una descripci
´
on gr
´
afica de la etapa
CNN, las transformaciones involucradas y las dimensiones
asociadas a las matrices hasta la salida de la capa Flatten.
Fig. 4: Descripci
´
on de la etapa de extracci
´
on de caracter
´
ısticas.
Al igual que en los aspectos anteriormente listados,
la dimensi
´
on del espacio latente es un hiperpar
´
ametro.
Revista elektron, Vol. 6, No. 2, pp. 129-134 (2022)
ISSN 2525-0159
131
http://elektron.fi.uba.ar
En este caso se decide obtener diferentes arquitecturas, a
partir de variar
´
unicamente esta dimensi
´
on. Adem
´
as, en los
modelos CAE-LSTM se analiza el impacto de incorporar
m
´
as de una etapa de recursividad y de variar el n
´
umero
de celdas de memoria en cada una de las mismas.
III-C. Entrenamiento y m
´
etricas
El objetivo del entrenamiento de un AE es lograr una
apropiada reconstrucci
´
on de los datos presentados. Los
hiperpar
´
ametros durante el entrenamiento se establecieron
en:
Funci
´
on de p
´
erdida: MSE,
Optimizador: Adam [20],
Taza de aprendizaje: 0.0005,
Tama
˜
no de Minibatch: 100,
D
Train
: 6043 con %D
Val
: 0.2,
´
Epocas: 60(CAE y CAE-LSTM) y 48(VAE).
Se busca mantener estos hiperpar
´
ametros a fin de reali-
zar una comparaci
´
on objetiva entre los modelos propues-
tos. Notar que, en el caso de la cantidad de
´
epocas, el
valor cambia debido al punto en que produce sobreajuste
(overfitting).
III-D. Comparaci
´
on y selecci
´
on de arquitectura
Para la elecci
´
on de la arquitectura a utilizar en la
s
´
ıntesis, se entrenan las redes variando la dimensi
´
on del
espacio latente. A fin de mantener la premisa inicial de
sencillez en el modelo, las posible dimensiones de este
espacio latente se mantendr
´
an en 2, 3 y 4.
En la Fig. 5(a) se presenta el MSE correspondiente a
cada arquitectura y, adem
´
as, para el caso de CAE-LSTM
los errores con datos de validaci
´
on y entrenamiento en la
Fig. 5(b). Los dem
´
as casos fueron previamente presentados
en [12].
Se observa que la arquitectura que posee menor error
cuadr
´
atico medio, corresponde a la CAE con dimensi
´
on
del espacio latente igual a 4. Es notable destacar que la
arquitectura CAE-LSTM no presenta mejora con respecto
a la CAE, pero s
´
ı frente a la VAE.
En la Fig. 6 se eval
´
uan las diferentes reconstrucciones
logradas con una imagen perteneciente al conjunto de
evaluaci
´
on (seleccionada al azar), con el fin de corroborar
el significado del MSE en forma gr
´
afica. Se observa que
las reconstrucciones realizadas, se corresponden con los
resultados obtenidos durante el entrenamiento. En este
caso, la arquitectura CAE-LSTM seleccionada es aquella
que obtuvo menor MSE durante la etapa de entrenamiento.
Complementariamente, en la Tabla II, se presentan los
valores de MSE y error de similitud estructural (SSIM)
(el cual ofrece buena precisi
´
on de evaluaci
´
on y simple
formulaci
´
on [21]) calculados sobre la misma imagen de
evaluaci
´
on. Adicionalmente, en dicha Tabla se listan las
cantidades de par
´
ametros asociados a cada arquitectura, a
modo de figura representativa de la complejidad asociada
a cada una.
Es notable que la arquitectura CAE-LSTM empleada
presenta un error MSE levemente superior al obtenido
mediante la arquitectura CAE, pero, a su vez, requiere
menos de la mitad de los par
´
ametros. Esto representa
una ganancia en relaci
´
on a la complejidad del modelo al
momento de su implementaci
´
on.
(a)
(b)
Fig. 5: a) MSE de entrenamiento para diferentes arquitecturas de autoencoders. b)
MSE con datos de validaci
´
on y de entrenamiento para CAE-LSTM.
(a) Original (b) CAE
(c) VAE (d) CAE-LSTM
Fig. 6: Espectrograma original y diferentes reconstrucciones seg
´
un la arquitectura
de AE empleada.a) Espectrograma original b) Reconstrucci
´
on con CAE c) Recons-
trucci
´
on con VAE d) Reconstrucci
´
on con CAE-LSTM
Tabla II: Caracter
´
ısticas de las diferentes arquitecturas. Los errores MSE y SSIM
se calculan sobre una imagen del conjunto de datos de evaluaci
´
on.
CAE VAE CAE-LSTM
Cant. Par
´
ametros 707459 1209223 318551
MSE (Evaluaci
´
on) 0.00468 0.00977 0.00703
SSIM (Evaluaci
´
on) 0.53452 0.44437 0.48504
En la Tabla III se comparan las arquitecturas CAE-
LSTM estudiadas en este trabajo, con respecto a la varia-
ci
´
on del MSE en funci
´
on de la cantidad de capas recursivas
y la cantidad de celdas de memoria. A partir de un an
´
alisis
Revista elektron, Vol. 6, No. 2, pp. 129-134 (2022)
ISSN 2525-0159
132
http://elektron.fi.uba.ar
de la misma, se concluye que la incorporaci
´
on de m
´
as
etapas de recursividad no mejora significativamente el
comportamiento de la red, por lo que un modelo con una
etapa de recursividad de 16 o 32 celdas resulta ser la mejor
alternativa dentro de esta arquitectura.
Tabla III: Valores de MSE para distintas arquitecturas CAE-LSTM
C. Recursivas C.Memoria Dim MSE Train MSE Val
1
4
2 0.0150 0.0206
3 0.0445 0.466
4 0.0108 0.0134
8
2 0.0125 0.0134
3 0.01004 0.0145
4 0.0101 0.0125
16
2 0.0110 0.0155
3 0.0096 0.0121
4 0.0097 0.0124
32
2 0.0105 0.0152
3 0.0094 0.0124
4 0.0094 0.0118
64
2 0.0109 0.0165
3 0.0092 0.0119
4 0.0092 0.0112
2
4
2 0.0148 0.0203
3 0.0445 0.0466
4 0.0445 0.0491
8
2 0.0111 0.0158
3 0.0445 0.0501
4 0.0444 0.0482
16
2 0.0108 0.0149
3 0.0444 0.0484
4 0.0445 0.0487
32
2 0.0100 0.0140
3 0.0445 0.0469
4 0.0444 0.0487
64
2 0.0095 0.0131
3 0.0444 0.0472
4 0.0092 0.0115
III-E. Generaci
´
on del vector de c
´
odigo
Durante la instancia de s
´
ıntesis se utiliza
´
unicamente el
bloque decodificador de un modelo ya entrenado. Como
se observa en la Fig. 7, a este bloque ingresa un vector
de valores aleatorios que debe ser capaz de generar una
imagen sint
´
etica semejante a las que entrenaron el modelo
y que denominamos vector de c
´
odigo o vector generador.
Fig. 7: Esquema de s
´
ıntesis.
El vector de c
´
odigo generado para este fin deben ser
coherente con los casos presentados en instancias previas.
Por lo tanto, para obtener un valor significativo, se sigue el
siguiente criterio que fue presentado inicialmente en [12]:
1. Con los vectores de espacio latente generados en el
entrenamiento, se obtiene una matriz de dimensiones
[N
Train
,3].
2. Se analiza la interdependencia entre los datos de
cada vector de espacio latente (fila de la matriz)
mediante la matriz de correlaci
´
on. En (1), la matriz
de correlaci
´
on muestra que no existe una marcada
relaci
´
on intra-vector.
1 0,0183 0,1159
0,0183 1 0,0197
0,1159 0,0197 1
(1)
3. Una vez analizada la interdependencia entre las
dimensiones del espacio latente, se analiza la distri-
buci
´
on de los valores con el objetivo de asemejarlo
a una funci
´
on densidad de probabilidad parametri-
zable.
4. Se genera un vector de c
´
odigo aleatorio [X
0
,X
1
,
X
2
,X
3
] siguiendo las funciones encontradas en el
paso 3.
Estos valores act
´
uan como punto de partida para generar
vectores de c
´
odigos aleatorios que ingresan en el bloque
decodificador entrenado.
IV. RESULTADOS
La adecuaci
´
on de los datos de entrada, el entrenamiento
de los modelos, los vectores de c
´
odigo generados y la
s
´
ıntesis de los espectrogramas sint
´
eticos fueron realizados
sobre una Notebook con las siguientes caracter
´
ısticas:
Procesador Ryzen 7 serie 5800, con 16GB de memoria
RAM, placa de video NVIDIA GeForce RTX 3050 TI,
disco SSD de 100GB, S.O Windows 11.
IV-A. S
´
ıntesis de espectrogramas sint
´
eticos
Para la s
´
ıntesis de espectrogramas sint
´
eticos, el primer
paso consiste en la generaci
´
on de vectores de espacio
latentes que act
´
uan como entrada para la etapa de decodi-
ficaci
´
on (vector de c
´
odigo). El procedimiento seguido con
tal fin es el descrito en III-E.
En la Fig. 8 se observa la distribuci
´
on de cada valor del
espacio latente, generado con la arquitectura CAE-LSTM
durante el entrenamiento. Se deduce que la distribuci
´
on de
valores de c
´
odigo obtenidos, pueden aproximarse mediante
una distribuci
´
on Gaussiana. De esta manera, es posible
obtener un valor medio y una desviaci
´
on est
´
andar repre-
sentativa de los datos reales con los que fue entrenada la
red.
Fig. 8: Distribuci
´
on normalizada de los valores del vector de espacio latente
obtenidos con todos los datos de entrenamiento para la arquitectura CNN-LSTM.
Finalmente, una vez obtenida la estad
´
ıstica para cada
dimensi
´
on del espacio latente, las mismas se emplean para
generar vectores aleatorios que act
´
uen como semilla del
proceso de s
´
ıntesis.
Luego, en las Figs. 9, 10 y 11 se muestran ejemplos
de im
´
agenes reales y sintetizadas con los modelos CAE y
Revista elektron, Vol. 6, No. 2, pp. 129-134 (2022)
ISSN 2525-0159
133
http://elektron.fi.uba.ar
CAE-LSTM entrenados. Los c
´
odigos generadores de estos
modelos pueden consultarse en [22].
Fig. 9: Espectrogramas Reales, obtenidos a partir de registros aleatorios de ballenas
Barbadas.
Fig. 10: Espectrogramas sintetizados aleatoriamente, obtenidos con un decodifica-
dor CAE entrenado, a partir de registros de ballenas Barbadas.
En el primer caso, se presentan espectrogramas de balle-
nas reales, seleccionados aleatoriamente. En los restantes
casos, se sintetizan espectrogramas partiendo de vectores
de espacio latente obtenidos con el proceso descripto
previamente, por lo tanto, no existe correspondencia entre
las im
´
agenes presentadas.
V. CONCLUSI
´
ON
En base a los resultados obtenidos se puede afirmar que
la arquitectura m
´
as prometedora es la CAE. El modelo
CAE propuesto posee una cantidad reducida de capas
convolucionales y de par
´
ametros asociados a operaciones
matem
´
aticas. Esto reduce notablemente los errores aso-
ciados en una implementaci
´
on f
´
ısica, donde existe una
cantidad de bits limitados para el procesamiento.
Por otra parte, se observ
´
o que las arquitecturas con espa-
cios recurrentes permitieron una reducci
´
on m
´
as notoria en
el n
´
umero de par
´
ametros en comparaci
´
on a la arquitectura
anteriormente mencionada. Sin embargo, tal reducci
´
on
del modelo conlleva un leve detrimento del desempe
˜
no
logrado por el modelo. Adem
´
as, la naturaleza recursiva
de la red, implica mayor cantidad de operaciones por
par
´
ametro. En consecuencia, se puede concluir que estas
arquitecturas son recomendables en aquellos casos donde
el n
´
umero de par
´
ametros a implementar es el principal
factor limitante.
Como trabajo a futuro se plantea la generaci
´
on de
registros de audio a partir de espectrogramas y la imple-
mentaci
´
on de estos modelos sobre alg
´
un sistema embebido
de bajo costo, como puede ser un microcontrolador o una
FPGA de bajos recursos. Se plantea la evaluaci
´
on sobre
diferentes plataformas y la elecci
´
on de la mejor opci
´
on
ponderando el costo y el desempe
˜
no.
VI. AGRADECIMIENTOS
Al Dr. Diego Comas y al Dr. Gustavo Meschino por los
conocimientos impartidos sobre la tem
´
atica.
REFERENCIAS
[1] T. Markus and S. P. P. Silva, Managing and Regulating
Underwater Noise Pollution. Springer International Publishing,
2018, pp. 971–995. [Online]. Available: https://doi.org/10.1007/
978-3-319-60156-4 52
[2] N. Jones, “Ocean uproar: saving marine life from a barrage of
noise, Nature, vol. 568, pp. 158–161, 04 2019.
Fig. 11: Espectrogramas sintetizados aleatoriamente, obtenidos con un decodifica-
dor CAE-LSTM entrenado, a partir de registros de ballenas Barbadas.
[3] E. Tejero, “Aplicaciones de Machine Learning a la Bioac
´
ustica
Marina, Ph.D. dissertation, 07 2020.
[4] D. Tuia and E. Al, “Perspectives in machine learning for wildlife
conservation, Nature Communications, vol. 13, no. 792, 2022.
[5] A. Lamba, P. Cassey, R. Raja Segaran, and L. Koh, “Deep learning
for environmental conservation, Current Biology, vol. 29, pp.
R977–R982, 10 2019.
[6] A. Ibrahim and et. al, “A multimodel deep learning algorithm to
detect North Atlantic right whale up-calls, The Journal of the
Acoustical Society of America, vol. 150, 08 2021.
[7] Q. Xu, Z. Wu, Y. Yang, and L. Zhang, “The difference learning of
hidden layer between autoencoder and variational autoencoder, in
29th Chinese Control And Decision Conference, 2017, pp. 4801–
4804.
[8] N. Mansouri and Z. Lachiri, “Human Laughter Generation using
Hybrid Generative Models, KSII Transactions on Internet and
Information Systems (TIIS), pp. 1590–1609, 2021.
[9] A. Sarroff and M. Casey, “Musical audio synthesis using auto-
encoding neural nets, in In Joint International Computer Music
Conference (ICMC) and Sound and Music Computing conference
(SMC), 2014.
[10] N. Mansouri and Z. Lachiri, “Laughter synthesis: A comparison
between Variational autoencoder and Autoencoder, in 5th Interna-
tional Conference on Advanced Technologies for Signal and Image
Processing (ATSIP), 2020, pp. 1–6.
[11] J. Wei, “AlexNet: The Architecture that Challenged CNNs,
Towards Data Science, 2019. [Online]. Available: https://acortar.
link/IrMULc(acceso:25dejuniode2022).
[12] M. Carnaghi and M. C. Cebedio, “Espectrogramas de registros
de Ballenas Barbadas, sintetizados a partir de Autoencoders,
Congreso Argentino de Sistemas Embebidos CASE, 08 2022.
[13] “Ocean Sound Library: Natural and Man-Made, Ocean
Conservation Research, 2022. [Online]. Available: https:
//ocr.org/sound-library/
[14] “Song and Sound, Whale Trust, 2022. [Online]. Available:
https://whaletrust.org/song-sound//
[15] “Marine Mammals, Discovery of Sound in the Sea,
2022. [Online]. Available: https://dosits.org/galleries/audio-gallery/
marine-mammals/
[16] “Watkins Marine Mammal Sound Database, Woods Hole
Oceanographic Institution, 2022. [Online]. Available: https:
//whoicf2.whoi.edu/science/B/whalesounds/index.cfm
[17] M. C. Cebedio and M. Carnaghi, “Datos, Google Drive,
2022. [Online]. Available: https://drive.google.com/drive/folders/
1HxalJvSf3L4MXW8VsFXsvYelkTb5xYDj?usp=sharing
[18] J. Brownlee, Long Short-Term Memory Networks With Python,
1st ed. Machine Learning Mastery, 2017.
[19] S. Ioffe and C. Szegedy, “Batch Normalization: Accelerating Deep
Network Training by Reducing Internal Covariate Shift, 2015.
[Online]. Available: https://arxiv.org/abs/1502.03167
[20] D. Kingma and J. Ba, Adam: A method for stochastic optimi-
zation, International Conference on Learning Representations, 12
2014.
[21] A. Le
´
on-Batallas, J. Bermeo-Paucar, Paredes-Quevedo, and
H. Torres-Ordo
˜
nez, “Una revisi
´
on de las m
´
etricas aplicadas en el
procesamiento de im
´
agenes, RECIMUNDO, pp. 267–273, 2020.
[22] M. C. Cebedio and M. Carnaghi, “Repositorio-
CASE2022, GitHub, 2022. [Online]. Available: https:
//github.com/Reposinnombre/CASE2022
Revista elektron, Vol. 6, No. 2, pp. 129-134 (2022)
ISSN 2525-0159
134
http://elektron.fi.uba.ar

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia


Copyright (c) 2022 María Celeste Cabedio, Marco Carnaghi

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.


Revista elektron,  ISSN-L 2525-0159
Facultad de Ingeniería. Universidad de Buenos Aires 
Paseo Colón 850, 3er piso
C1063ACV - Buenos Aires - Argentina
revista.elektron@fi.uba.ar
+54 (11) 528-50889