Espectrogramas de registros de Ballenas
Barbadas sintetizados a partir de arquitecturas de
Autoenconders: CAE, VAE y CAE-LSTM
Spectrograms of baleen whale records synthesized from Autoenconder architectures: CAE, VAE
and CAE-LSTM
Mar
´
ıa Celeste Cebedio
1
, Marco Carnaghi
2
ICYTE, Depto. de Electr
´
onica y Computaci
´
on, Facultad de Ingenier
´
ıa - UNMDP
Mar del Plata, 7600, Argentina
1
celestecebedio@fi.mdp.edu.ar
2
mcarnaghi@fi.mdp.edu.ar
Resumen—En este trabajo se analizan diferentes arqui-
tecturas de redes convolucionales sencillas para generar
espectrogramas sint
´
eticos correspondientes a registros de
audio de ballenas barbadas.
La sencillez en el modelo juega un rol importante en
las implementaciones de este tipo de redes sobre sistemas
embebidos. Adem
´
as, existe una necesidad de generar modelos
eficientes frente a la escasez de datos disponibles para este
tipo de aplicaciones. Con tal fin, se presentan arquitecturas
de Autoencoders simples y de baja cantidad de par
´
ametros
asociados, se entrenan los modelos, se obtienen m
´
etricas
adecuadas y se realizan las correspondientes comparaciones.
Los resultados obtenidos demuestran que la arquitectura
con una implementaci
´
on m
´
as directa es, a su vez, la
m
´
as conveniente. Finalmente, a partir de estos modelos, se
generan espectrogramas sint
´
eticos a partir de pocos datos de
muestra, empleando una arquitectura de baja complejidad
y asumiendo una distribuci
´
on normal de los vectores reales.
Palabras clave—: Autoencoders convolucionales; Capas
recursivas; espectrogramas; sonidos subcu
´
aticos; s
´
ıntesis.
Abstract— In this paper, different architectures of
simple convolutional networks are analyzed to generate
synthetic spectrograms corresponding to baleen whales.
Simplicity in these models plays an important role in the
implementations of these type of networks on embedded
systems. In addition, the scarcity of available data requires
the generation of efficient models. With this aim in mind,
simple Autoencoder architectures with a low number of as-
sociated parameters are presented and trained in this paper.
Then, adequate metrics are obtained and the corresponding
comparison among the architecture alternatives is made.
The obtained results show that the more straightforward
architecture is, in turn, the most convenient. Finally, from
these models, synthetic spectrograms are generated from
few data samples are generated, employing a low complexity
architecture and assuming a normal distribution of the
latent space vectors from the training data.
Keywords—: Convolutional autoencoders; recursive
layers; spectrograms; underwater sound; synthesis.
I. INTRODUCCI
´
ON
Las iniciativas por la preservaci
´
on de especies marinas
han actuado como disparador de numerosas investigacio-
nes asociadas a dicha problem
´
atica [1], [2]. En particular,
uno de los ejes tem
´
aticos se relaciona con el an
´
alisis de re-
gistros de audio provenientes de mam
´
ıferos subacu
´
aticos.
Estos registros son de inter
´
es debido a que brindan infor-
maci
´
on respecto a los comportamientos y mecanismos de
comunicaci
´
on empleados por tales especies.
Dada la complejidad que trae asociada el an
´
alisis de
tales datos, su correlaci
´
on en largos per
´
ıodos de tiempo y
la contaminaci
´
on de la informaci
´
on disponible con ruido
en el entorno submarino; las t
´
ecnicas basadas en inteli-
gencia artificial han surgido como una alternativa atractiva
para llevar a cabo los estudios mencionados [3], [4], [5].
En Ibrahim [6], las t
´
ecnicas mencionadas se utilizan para
detectar llamadas de ballenas en peligro de extinci
´
on.
Sin embargo, existe un volumen reducido de datos
disponibles, lo cual impacta en forma directa sobre la
calidad de los modelos que pueden lograrse mediante
t
´
ecnicas basadas en datos, condicionando en gran medida
la utilizaci
´
on de estos. Una potencial soluci
´
on es la gene-
raci
´
on autom
´
atica de registros de audio en forma artificial,
donde las muestras artificiales o sint
´
eticas conserven las
principales caracter
´
ısticas de las muestra originales. De
esta forma, se puede expandir la cantidad de datos dispo-
nibles y mitigar los problemas asociados al desbalanceo
de los conjuntos de entrenamiento que enfrentan otros
modelos.
Estudios actuales desarrollan modelos generativos basa-
dos en t
´
ecnicas de aprendizaje profundo, como el Autoen-
coder Convolucional (CAE) y el Autoencoder Variacional
(VAE), para reconstruir se
˜
nales [7], [8], [9], [10]. Estos
Autoencoders (AE) generan una representaci
´
on reducida
o codificada de los datos de entrada denominada espacio
latente y se entrenan para que la salida imite a la entrada.
Este espacio latente se utiliza posteriormente para generar
im
´
agenes de salida que conservan las caracter
´
ısticas de las
im
´
agenes de entrenamiento sin ser id
´
enticas. Los Autoen-
coders son especialmente atractivos para la generaci
´
on de
datos sint
´
eticos debido a que en su entrenamiento no se
consiguen r
´
eplicas exactas. Estas caracter
´
ısticas que han
llevado a la adopci
´
on de otros modelos para recrear los
datos de entrada es, en estas situaciones, aprovechada para
la s
´
ıntesis de nuevos datos.
Revista elektron, Vol. 6, No. 2, pp. 129-134 (2022)
ISSN 2525-0159
129
Recibido: 30/10/22; Aceptado: 30/11/22
Creative Commons License - Attribution-NonCommercial-
NoDerivatives 4.0 International (CC BY-NC-ND 4.0)
https://doi.org/10.37537/rev.elektron.6.2.167.2022
Original Article
Los modelos de redes convolucionales, que pueden
emplearse en la etapa de extracci
´
on de caracter
´
ısticas de
los Autoencoders, han demostrado presentar excelentes
resultados pero poseen el inconveniente de ser arquitec-
turas complejas. Cuando se dispone de una PC de alto
rendimiento esto no representa un problema, pero es una
limitante importante para la aplicaci
´
on de estos modelos
sobre sistemas de bajo rendimiento. A modo de ejemplo,
en el caso de la red AlexNet (Una red ampliamente con-
trastada) presenta 62,3 millones de par
´
ametros [11], lo que
implica igual orden de operaciones aritm
´
eticas y necesidad
de trabajar en paralelo con unidades de procesamiento
gr
´
afico.
La complejidad asociada a cualquier implementaci
´
on
de estos modelos t
´
ıpicos sobre un sistema embebido,
es muy grande. Por este motivo, es interesante estu-
diar la posibilidad de que estos datos sint
´
eticos puedan
ser generados en tiempo real, por dispositivos de baja
potencia computacional. De esta manera, por ejemplo,
podr
´
ıan generarse bancos de prueba donde se generen estas
muestras artificiales, lo cual ser
´
ıa muy beneficioso para el
estudio del medio al contar con equipos que integren estas
funcionalidades.
El presente art
´
ıculo parte de los resultados obtenidos
en un trabajo previo [12], donde se realiz
´
o un estudio
sobre la aplicaci
´
on de las t
´
ecnicas de aprendizaje profundo
para la generaci
´
on de espectrogramas sint
´
eticos. En di-
cho art
´
ıculo, se propusieron y analizaron arquitecturas de
Autoencoders simples que parten de una representaci
´
on
bidimensional, en particular, el espectrograma de mag-
nitud logar
´
ıtmica, para la codificaci
´
on y decodificaci
´
on
de registros de audio provenientes del
´
ambito submarino.
En concreto, se compar
´
o el desempe
˜
no de Autoencoders
convencionales (es decir, con un mapeo discreto al espacio
latente) y variacionales, basados en capas convolucionales
para la extracci
´
on de caracter
´
ısticas (CAE y VAE, res-
pectivamente). La principal ventaja de estas arquitecturas,
radica en la sencillez del modelo. Es decir, se logra un des-
empe
˜
no aceptable manteniendo una reducida complejidad
en el mismo. Esta caracter
´
ıstica es de destacar, debido
a que se busca implementar modelos generativos sobre
sistemas embebidos de bajos recursos.
Dado que la arquitectura de los modelos ha demostrado
tener un gran impacto en la respuesta del mismo, en
el presente trabajo se propone estudiar una arquitectura
de red h
´
ıbrida basada en capas convolucionales y capas
recursivas, donde se conserven las virtudes logradas en
las arquitecturas CAE y VAE, bajo la premisa de baja
complejidad.
La red propuesta se contrasta con las estudiadas en [12]
y se extraen conclusiones. De la comparaci
´
on surge la
mejor opci
´
on, que luego se utiliza para la generaci
´
on de
espectrogramas artificiales.
II. OBJETIVOS
En base a Carnaghi [12] se puede indicar que un mo-
delo general simple, permite recuperar las caracter
´
ısticas
latentes correspondientes a diferentes espectrogramas de
sonidos subacu
´
atico de baja frecuencia. Adem
´
as, queda en
evidencia que la utilizaci
´
on de AE de baja dimensionalidad
puede ser un camino viable para la obtenci
´
on de datos
sint
´
eticos.
El objetivo del presente estudio radica en extender los
resultados mencionados, a partir de plantear una nueva
arquitectura que conserve las cualidades de las CAE y
VAE presentadas en [12]. Es importante mencionar que la
arquitectura propuesta debe continuar con la premisa de
baja complejidad, asociada a una posible implementaci
´
on
sobre un sistema embebido de bajo costo.
La arquitectura que se plantea en este trabajo utiliza una
primera etapa convolucional, al igual que las anteriores, e
incorpora recursividad en la siguiente etapa. Por
´
ultimo,
con el objetivo de explotar las virtudes presentes en las
arquitecturas VAE, se realiza un mapeo continuo del
espacio latente.
III. METODOLOG
´
IA
En la presente secci
´
on, se describe el proceso estableci-
do para el entrenamiento de los modelos propuestos y su
posterior utilizaci
´
on para la s
´
ıntesis de nuevos espectrogra-
mas. La metodolog
´
ıa consisten en: adecuaci
´
on de los datos
de entrada, dise
˜
no de arquitecturas de AE, entrenamiento
del modelo y obtenci
´
on de m
´
etricas, comparaci
´
on de
resultados entre arquitecturas, selecci
´
on del mejor modelo
y generaci
´
on de espectrogramas sint
´
eticos.
III-A. Adecuaci
´
on de los datos de entrada
La metodolog
´
ıa de s
´
ıntesis inicia con un acondicio-
namiento de los datos, cuyo objetivo es obtener una
representaci
´
on bidimensional de las muestras de audio ori-
ginales. Para ello, se generan matrices bidimensionales que
corresponden al espectrograma de magnitud logar
´
ıtmica
para cada muestra de audio. Dicha representaci
´
on matricial
combina la energ
´
ıa existente en un rango de frecuencia
contemplado, y su variaci
´
on en el tiempo del registro. A
su vez, permite una directa re-interpretaci
´
on como imagen
en escala de grises, apta como entrada al modelo.
Los datos disponibles fueron originalmente obtenidos
a partir de diversas fuentes y pertenecen a diferentes
subfamilias dentro de la familia de Ballenas Barbadas
[13]–[16]. Para constituir un conjunto correctamente es-
tructurado, los datos deben normalizarse. Los par
´
ametros
considerados para este proceso de normalizaci
´
on se listan
a continuaci
´
on:
Frecuencia de remuestreo: 44.1KHz.
Duraci
´
on temporal del registro de audio: 1s.
Tipo de ventana para espectrogramas: Tukey.
Cantidad de puntos por bloque para STFT: 256.
Normalizaci
´
on de Amplitud: -150 a 150 dB.
Una vez calculado el espectrograma asociado a cada re-
gistro de audio, se adecuan sus dimensiones para coincidir
con las dimensiones de datos en formato imagen, es decir
[n
´
umero de filas, n
´
umero de columnas, n
´
umero de canales
de color]. Luego se los agrupa conformando un conjunto
de datos destinado al entrenamiento del modelo. El mismo,
es, a su vez, dividido en: datos en entrenamiento ( D
Train
),
validaci
´
on (D
Val
) y evaluaci
´
on (D
Test
).
En la Tabla I se resumen la cantidad de datos dispo-
nibles y la forma del tensor de entrada correspondiente.
Por otro lado, en [17] se encuentran disponibles: el ten-
sor de entrada correspondiente a los diferentes registros
Revista elektron, Vol. 6, No. 2, pp. 129-134 (2022)
ISSN 2525-0159
130
http://elektron.fi.uba.ar
normalizados de Ballenas Barbadas, el vector de muestras
temporales y el vector de frecuencia necesarias para la
realizaci
´
on de los espectrogramas posteriores.
DA
TOS
N Dimensi
´
on del
tensor de entrada
Datos Entrenamiento Datos Ev
aluaci
´
on
B. Barbadas
(todas)
6715 [6043,128,196,1] [672,128,196,1]
Tabla I: Datos disponibles para el entrenamiento de los modelos: cantidad y forma
del tensor de entrada
III-B. Arquitecturas de Autoencoders
Las arquitecturas de AE que se estudian en este trabajo
son: CAE, VAE y CAE-LSTM (CAE with Long Short
Term Memory layers).
En la Fig. 1 se ilustra la arquitectura CAE, la cual em-
plea capas convolucionales para el proceso de codificaci
´
on
y extracci
´
on de caracter
´
ısticas. Adem
´
as, cuenta con una
capa flatten y una capa densamente conectada para mapear
las caracter
´
ısticas extra
´
ıdas, a un vector representativo
(espacio latente). Posteriormente, el vector de espacio
latente obtenido se emplea para recuperar la imagen de
entrada mediante un proceso de decodificaci
´
on que espeja
el procesamiento previo.
Fig. 1: Arquitectura de un CAE gen
´
erico.
La arquitecturas VAE, por su parte, es ilustrada en la
Fig. 2 y es similar a la CAE con la diferencia de realizar
un mapeo a un espacio latente continuo. Para ello, el
aprendizaje tiene por objetivo descubrir la distribuci
´
on de
las caracter
´
ısticas latentes, en lugar del mapeo a vectores
individuales [7]. Con esta finalidad, se agregan capas
densamente conectadas que extraen el valor medio (µ) y
la varianza (σ) de los valores obtenidos en capas previas.
Fig. 2: Arquitectura de un VAE gen
´
erico.
Por
´
ultimo, la arquitectura CAE-LSTM es presentada
en la Fig. 3, donde se observa que tanto la etapa de
codificaci
´
on como la etapa de decodificaci
´
on est
´
an com-
puestas por una etapa convolucional y una etapa recursiva.
De esta forma, se divide el procesamiento interno de los
datos empleando, en primer instancia, capas convolucio-
nales para extraen las caracter
´
ısticas de las im
´
agenes o
matrices del espectrograma y, al mismo tiempo, conservar
la correlaci
´
on local de los datos mediante el uso de
kernels; y en segunda instancia, capas recursivas cuyo
prop
´
osito es descubrir patrones temporales en los datos,
es decir, las diferentes caracter
´
ısticas obtenidas de las
capas convolucionales. El objetivo de la incorporaci
´
on de
etapas recursivas es brindar memoria a la red, lo que
permite aprender y aprovechar la naturaleza ordenada de
las observaciones de las secuencias de entrada [18]. De
esta manera, la etapa recurrente se encarga de la extracci
´
on
de caracter
´
ısticas temporales. Finalmente, para obtener un
mapeo continuo a un espacio latente, se utiliza el enfoque
presentado en la arquitectura VAE.
Fig. 3: Arquitectura de un CAE-LSTM gen
´
erico.
Las tres arquitecturas propuestas poseen en la etapa de
extracci
´
on de caracter
´
ısticas 4 capas convolucionales con
los siguientes par
´
ametros:
capa: 32 filtros de 3x3x1 con stride= 1,
capa: 64 filtros de 3x3x1 con stride= 2,
capa: 64 filtros de 3x3x1 con stride= 2,
capa: 64 filtros de 3x3x1 con stride= 1.
Adem
´
as, todas las etapas emplean funci
´
on de activaci
´
on
tipo RELU y auto-padding. A su vez, aplican instancias
de Batch Normalization, con el fin de acelerar el proceso
de entrenamiento, mejorar las propiedades de normaliza-
ci
´
on de la red, volverla m
´
as robusta frente a diferentes
esquemas de inicializaci
´
on y tasas de aprendizaje [19].
En la Fig. 4, se realiza una descripci
´
on gr
´
afica de la etapa
CNN, las transformaciones involucradas y las dimensiones
asociadas a las matrices hasta la salida de la capa Flatten.
Fig. 4: Descripci
´
on de la etapa de extracci
´
on de caracter
´
ısticas.
Al igual que en los aspectos anteriormente listados,
la dimensi
´
on del espacio latente es un hiperpar
´
ametro.
Revista elektron, Vol. 6, No. 2, pp. 129-134 (2022)
ISSN 2525-0159
131
http://elektron.fi.uba.ar