Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)
https://doi.org/10.37537/rev.elektron.10.1.227.2026
Original Article
Clasificaci
´
on ac
´
ustica de cangrejos con modelos
neuronales compactos
Acoustic classification of crabs with compact neural models
M. Celeste Cebedio
†‡
, Mart
´
ın Lorusso
*
#
, Leonardo Arnone
†‡
, Lucas A. Rabioglio
†‡
, Maximiliano Antonelli
†‡§
,
Ra
´
ul E. Lopresti
†‡§
, Luciana De Micco
†‡§
y M. Paz Sal Moyano
*
Instituto de Investigaciones Cient
´
ıficas y Tecnol
´
ogicas en Electr
´
onica (ICYTE)
Facultad de Ingenier
´
ıa, Universidad Nacional de Mar del Plata (FI - UNMdP)
§ Consejo Nacional de Investigaciones Cient
´
ıficas y T
´
ecnicas (CONICET)
*
Instituto de Investigaciones Marinas y Costeras (IIMyC)
# FCEyN, Universidad Nacional de Mar del Plata-CONICET
{celestecebedio,leoarn,lucas.rabioglio,maxanto,raul.lopresti,ldemicco,salmoyan@mdp.edu.ar}@fi.mdp.edu.ar
Received: 2025-12-16; Accepted: 2026-03-30
Abstract—This work presents an acoustic classifier based on
neural networks, designed for implementation in a portable
system for the field detection and classification of signals emitted
by Neohelice granulata and Cyrtograpsus angulatus. From recor-
dings acquired with a hydrophone in a controlled environment,
prefiltering and adaptive segmentation techniques are applied
to extract 22 acoustic features, which are used to train a low-
dimensional neural network. Compression techniques, such as
quantization, pruning, and knowledge distillation, are employed
to obtain a compact model. Regarding knowledge distillation,
different configurations of teacher models, segmentation win-
dows, and sampling schemes are analyzed to produce an efficient
model suitable for low-cost microcontrollers. The final model is
exported in TensorFlow Lite format, ready for integration into
embedded platforms, achieving an average class accuracy of
83.75 %, while maintaining low CPU and memory requirements
compatible with low-cost embedded systems.
Keywords— Bioacoustics, acoustic classification, neural
networks, embedded systems, microcontrollers, knowledge dis-
tillation.
Resumen— En este trabajo se presenta un clasificador
ac
´
ustico basado en redes neuronales, dise
˜
nado para su imple-
mentaci
´
on en un sistema port
´
atil para la detecci
´
on y clasifi-
caci
´
on en campo de se
˜
nales emitidas por Neohelice granulata
y Cyrtograpsus angulatus. A partir de grabaciones adquiridas
con un hidr
´
ofono en un entorno controlado, se aplican t
´
ecnicas
de prefiltrado y segmentaci
´
on adaptativa para extraer 22
caracter
´
ısticas ac
´
usticas, que se utilizan en el entrenamiento
de una red neuronal de baja dimensionalidad. Se emplean
t
´
ecnicas de compresi
´
on, incluyendo cuantizaci
´
on, pruning y
destilaci
´
on del conocimiento, para obtener un modelo compacto
y eficiente. En particular, se analizan distintas configuraciones
de modelos maestros, ventanas de segmentaci
´
on y esquemas
de muestreo, con el objetivo de generar un modelo apto para
microcontroladores de bajo costo. El modelo final se exporta
en formato TensorFlow Lite, listo para su integraci
´
on en pla-
taformas embebidas, alcanzando una exactitud promedio entre
clases del 83,75 %, mientras se mantienen bajos requerimientos
de CPU y memoria.
Palabras clave— Bioac
´
ustica, clasificaci
´
on ac
´
ustica, redes
neuronales, sistemas embebidos, microcontroladores, destilaci
´
on
del conocimiento.
I. INTRODUCCI
´
ON
La bioac
´
ustica marina ha emergido como una herramienta
poderosa para el estudio y la conservaci
´
on de la biodiversidad
marina [1]. La Reserva de Mar Chiquita, declarada reserva
Mundial de la Biosfera por la UNESCO, es un ambiente
estuarino de alta riqueza y diversidad biol
´
ogica [2], [3].
Entre las especies clave de la Albufera se encuentran los
cangrejos Neohelice granulata (Neo) y Cyrtograpsus angula-
tus (Cry). Estos crust
´
aceos desempe
˜
nan roles fundamentales
como ingenieros del ecosistema: sus actividades de excava-
ci
´
on modifican el h
´
abitat, influyen en la vegetaci
´
on y afectan
la disponibilidad de recursos para otras especies. En este
contexto, es de vital importancia el estudio de los sonidos
asociados a su comportamiento [4]. Sin embargo, el an
´
alisis
manual de grabaciones extensas resulta inviable en estudios
experimentales a gran escala, lo que impulsa la necesidad de
desarrollar m
´
etodos autom
´
aticos de detecci
´
on y clasificaci
´
on.
Los recientes avances en inteligencia artificial (IA) y
procesamiento digital de se
˜
nales abren nuevas posibilidades
para la aplicaci
´
on de estas herramientas en el estudio de
la biodiversidad [5]. El uso de tecnolog
´
ıas basadas en IA
representa un campo en r
´
apida expansi
´
on dentro de la in-
vestigaci
´
on biol
´
ogica [6], [7]. Por ejemplo, en [8] se utilizan
redes convolucionales para clasificar especies de cangrejos
con resultados prometedores, mientras que en [9] se aplican
redes profundas sobre im
´
agenes para objetivos similares.
No obstante, un desaf
´
ıo importante de estas t
´
ecnicas es su
ISSN 2525-0159
https://elektron.fi.uba.ar
41
Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)
https://doi.org/10.37537/rev.elektron.10.1.227.2026
Original Article
elevado requerimiento de recursos computacionales, lo que
dificulta su implementaci
´
on en entornos de campo, como
lagunas o zonas costeras, donde el uso de equipos de alto
rendimiento resulta impr
´
actico y costoso.
Las plataformas embebidas de bajo costo, como el ESP32
[10], [11] y los microcontroladores de la familia STM32
[12], se han consolidado como alternativas viables para la
ejecuci
´
on de modelos de IA en sistemas port
´
atiles y de
bajo consumo. Mediante el uso de modelos compactos y
optimizados, estas plataformas permiten la implementaci
´
on
de redes neuronales en escenarios de campo, tal como ha
sido reportado en trabajos recientes de TinyML [13].
En este trabajo se aborda el dise
˜
no de una red neuronal
cuantizada y optimizada para su ejecuci
´
on en plataformas
embebidas de bajo costo. Se parte de grabaciones crudas
adquiridas mediante un hidr
´
ofono, que posteriormente se
procesan para construir un conjunto de datos etiquetado con
tres clases de se
˜
nales: Neohelice granulata, Cyrtograpsus an-
gulatus y ruido ambiental. En la etapa de preprocesamiento se
eval
´
uan distintos esquemas de filtrado pasa-banda, as
´
ı como
t
´
ecnicas de reducci
´
on de la tasa de muestreo y extracci
´
on de
estad
´
ısticas simples, con el fin de analizar su impacto en el
desempe
˜
no del clasificador. Asimismo, se analizan distintas
arquitecturas de red y se emplea destilaci
´
on del conocimiento
junto con entrenamiento consciente de la cuantizaci
´
on, con el
objetivo de reducir la complejidad del modelo manteniendo
un rendimiento adecuado. Como resultado, se obtiene un
modelo final en formato ligero, listo para su despliegue
directo en una plataforma embebida de bajo costo.
II. DESCRIPCI
´
ON GENERAL DEL SISTEMA
El proyecto en el que se enmarca este trabajo tiene como
objetivo el desarrollo de un sistema automatizado y de bajo
costo capaz de procesar se
˜
nales ac
´
usticas provenientes de un
hidr
´
ofono en tiempo real, detectar la presencia de vocaliza-
ciones de cangrejos y almacenar
´
unicamente los segmentos
relevantes. Este sistema est
´
a orientado a la identificaci
´
on de
sonidos producidos por Neohelice granulata y Cyrtograpsus
angulatus en entornos con ruido ambiental.
A nivel general, el sistema completo, esquematizado en
la Fig. 1, contempla m
´
ultiples etapas: adquisici
´
on de la
se
˜
nal ac
´
ustica, filtrado pasa-banda, segmentaci
´
on temporal,
extracci
´
on de caracter
´
ısticas, clasificaci
´
on y gesti
´
on de me-
moria. Dentro de esta arquitectura, el m
´
odulo de clasificaci
´
on
neuronal cumple un rol central, ya que es el encargado de
determinar la presencia o ausencia de eventos de inter
´
es y, en
consecuencia, habilitar el almacenamiento de los segmentos
ac
´
usticos correspondientes.
En este trabajo se aborda espec
´
ıficamente el desarrollo
del clasificador neuronal y su flujo de construcci
´
on, inde-
pendientemente de los mecanismos de adquisici
´
on y gesti
´
on
de memoria, los cuales forman parte de etapas posterio-
res del sistema. En particular, se considera una cadena de
procesamiento compuesta por una etapa de filtrado, seguida
de la segmentaci
´
on, el preprocesamiento y la extracci
´
on de
caracter
´
ısticas, cuyos resultados son utilizados como entrada
del modelo de clasificaci
´
on.
Adquisición de
los datos
f_m=300 KHz
Memoria
Gestión de
memoria
Filtrado
3 a 20 KHz
Segmentación Preprocesamiento
Extracción de
características
Clasificador
Neuronal
Sistema de clasificación
Figura 1: Esquema del sistema completo.
Cabe destacar que la arquitectura propuesta desacopla
la etapa de adquisici
´
on de alta velocidad de la etapa de
clasificaci
´
on embebida. Esto se debe, por un lado, a que los
registros ac
´
usticos de inter
´
es presentan duraciones del orden
de varios minutos, mientras que el clasificador opera sobre
ventanas de corta duraci
´
on utilizadas como mecanismo de
detecci
´
on. Por otro lado, la tasa de muestreo requerida para
el registro completo (del orden de cientos de kHz) excede las
capacidades de adquisici
´
on sostenida de microcontroladores
de bajo costo, como el ESP32. En consecuencia, se adopta un
esquema en el cual el clasificador act
´
ua como un disparador
que habilita el almacenamiento de la se
˜
nal en alta resoluci
´
on
en un sistema externo.
III. ARQUITECTURA FUNCIONAL DEL SISTEMA DE
CLASIFICACI
´
ON
El sistema de clasificaci
´
on completo a implementar opera
de forma continua a partir de las se
˜
nales adquiridas por el
hidr
´
ofono y se organiza en etapas claramente definidas.
En primer lugar, la se
˜
nal ac
´
ustica es adquirida y sometida a
una etapa de filtrado pasa-banda, cuyo objetivo es restringir el
contenido espectral a la banda de inter
´
es asociada a las voca-
lizaciones de los cangrejos. Esta etapa puede implementarse
mediante un filtro digital en el microcontrolador o mediante
un filtrado anal
´
ogico previo.
A continuaci
´
on, la se
˜
nal filtrada se divide en segmentos
temporales sobre los cuales se aplican operaciones de pre-
procesamiento simples, tales como c
´
alculo de energ
´
ıa (Root
Mean Square, RMS) o submuestreo, con el fin de reducir la
cantidad de datos y resaltar informaci
´
on relevante.
Sobre estos segmentos se extrae un conjunto reducido de
caracter
´
ısticas temporales, mediante el extractor catch22,
que constituyen la entrada del clasificador neuronal.
A partir de estas caracter
´
ısticas, la red neuronal determina
la presencia de un evento ac
´
ustico y, en caso afirmativo,
identifica la especie correspondiente.
El resultado de la clasificaci
´
on se utiliza para controlar el
sistema de almacenamiento, de modo que los datos crudos o
los segmentos temporales asociados se guardan
´
unicamente
cuando se detecta un evento de inter
´
es. En la Fig. 2 se
presenta un esquema funcional del sistema.
ISSN 2525-0159
https://elektron.fi.uba.ar
42
Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)
https://doi.org/10.37537/rev.elektron.10.1.227.2026
Original Article
Figura 2: Esquema funcional del sistema completo de clasi-
ficaci
´
on.
IV. FILTRADO
Especialistas en el
´
area indican que algunas especies de
cangrejos podr
´
ıan emitir se
˜
nales con componentes de hasta
150 kHz. Sin embargo, tanto los estudios experimentales
disponibles como el an
´
alisis emp
´
ırico realizado en este tra-
bajo muestran que la informaci
´
on relevante para la detecci
´
on
y discriminaci
´
on se concentra por debajo de 20 kHz. En
consecuencia, se adopta este valor como l
´
ımite superior para
el procesamiento del sistema de clasificaci
´
on.
No obstante, dado que no puede descartarse completa-
mente la presencia de componentes de mayor frecuencia, el
sistema completo prev
´
e el almacenamiento de las se
˜
nales en
su ancho de banda original, permitiendo su an
´
alisis posterior
sin p
´
erdida de informaci
´
on.
En funci
´
on de este criterio, se define una etapa de filtrado
pasa-banda que conserva
´
unicamente la banda comprendida
entre 3 kHz y 20 kHz, eliminando componentes de baja
frecuencia asociadas al ruido ambiental y de altas frecuencias
irrelevantes para la tarea de clasificaci
´
on.
Para su implementaci
´
on se eval
´
uan dos enfoques: un
filtrado digital en el microcontrolador y un filtrado anal
´
ogico
en una etapa externa.
Filtro digital. Se implementa un filtro Butterworth
pasa-banda de sexto orden como filtro IIR, dise
˜
nado
para operar dentro de las restricciones de memoria y ca-
pacidad de c
´
omputo del microcontrolador. Su respuesta
en frecuencia presenta una atenuaci
´
on adecuada fuera
de banda y una implementaci
´
on eficiente en t
´
erminos
de recursos, lo que lo hace compatible con la ejecuci
´
on
en tiempo real en hardware embebido.
Filtro anal
´
ogico. Para reducir la carga de procesamiento
del microcontrolador, se eval
´
ua un filtrado anal
´
ogico
mediante la simulaci
´
on digital de un filtro Butterworth
pasa-banda de d
´
ecimo orden, implementado como un
IIR en secciones de segundo orden (SOS) y aplicado
con filtrado en fase cero. Este modelado se realiza con el
objetivo de emular el comportamiento esperado de una
implementaci
´
on anal
´
ogica equivalente, permitiendo su
comparaci
´
on directa con el filtrado digital en t
´
erminos
de desempe
˜
no del clasificador.
Para analizar el impacto sobre el desempe
˜
no global del
sistema, se realizan simulaciones comparativas entre ambos
filtros, utilizando como se
˜
nal de entrada grabaciones crudas
del sensor, correspondientes a registros ac
´
usticos de cangrejos
obtenidos en condiciones controladas (v
´
ease Secci
´
on V-A).
Para el caso del filtrado anal
´
ogico, los datos originales fueron
convertidos a formato mono y normalizados antes del filtrado,
de manera de reproducir con fidelidad la acci
´
on esperada
de un filtro anal
´
ogico equivalente aplicado en la etapa de
entrada. En la Fig. 3 se muestra la transferencia del filtro
utilizado y en la Fig. 4 la respuesta obtenida.
Figura 3: Respuesta en frecuencia del modelo digital equiva-
lente al filtro anal
´
ogico pasa-banda Butterworth.
Figura 4: Comparaci
´
on temporal y espectral de un segmento
de se
˜
nal de cangrejo antes y despu
´
es del filtrado anal
´
ogico
simulado (Butterworth pasa-banda de orden 10, 3–20 kHz).
V. DATOS PARA EL ENTRENAMIENTO DE LA RED
V-A. Recolecci
´
on de los datos para el entrenamiento
La recolecci
´
on de datos de individuos de ambas especies
de cangrejos se realiza en un entorno controlado de labo-
ratorio, espec
´
ıficamente en la estaci
´
on J. J. N
´
agera de la
Universidad Nacional de Mar del Plata. En este contexto
se registran muestras completas x[n] de dos minutos de
duraci
´
on, muestreadas a una frecuencia f
s
= 300 kHz,
utilizando un sistema de adquisici
´
on Avisoft UltraSoundGate
116h [14] y un hidr
´
ofono Reson TC4013 [15].
El sistema de adquisici
´
on utilizado permite registrar un
amplio rango de frecuencias, que cubre el espectro completo
ISSN 2525-0159
https://elektron.fi.uba.ar
43
Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)
https://doi.org/10.37537/rev.elektron.10.1.227.2026
Original Article
Filtro
Promediador 1
Filtro
Pasabanda
Filtro
Promediador 2
DiscriminadorPotencia
Ventana antipulso Banda de paso Ventana de promediación
Umbral
Extracción
Figura 5: Flujo de procesamiento de se
˜
nales: esquema de detecci
´
on autom
´
atica para la extracci
´
on de segmentos ac
´
usticos.
de las vocalizaciones de los cangrejos, las cuales pueden
extenderse hasta aproximadamente 150 kHz.
Las grabaciones se realizaron en m
´
ultiples ensayos inde-
pendientes, involucrando distintos individuos y condiciones
experimentales dentro del entorno controlado. En cada ensa-
yo se registra una
´
unica especie, conocida a priori, lo que per-
mite asignar etiquetas confiables a los segmentos detectados
dentro de cada archivo. Esto permite conformar un conjunto
de datos con variabilidad intraespec
´
ıfica e interespecc
´
ıfica,
as
´
ı como diferentes condiciones ac
´
usticas de fondo, lo cual
resulta relevante para el posterior entrenamiento y evaluaci
´
on
del clasificador.
V-B. Detecci
´
on de eventos y etiquetado
El esquema de detecci
´
on autom
´
atica para la extracci
´
on
de segmentos etiquetados que se utilizar
´
an en la fase de
entrenamiento se ilustra en la Fig. 5. El c
´
odigo utilizado para
implementar este esquema puede encontrarse en [16].
1. Filtro Promediador 1: promedia una ventana anti-
pulso deslizante de 15 puntos de muestra. Este fil-
tro aten
´
ua pulsos unitarios que, al pasar por el fil-
tro pasa-banda, generar
´
ıan respuestas al impulso no
deseadas. La cantidad de muestras de la ventana se
calcula de modo de no afectar la banda de inter
´
es
(300 kHz/20 kHz = 15).
2. Filtro Pasa Banda: filtro de muy alto orden con banda
de paso [3 kHz, 20 kHz], que selecciona la regi
´
on
espectral donde se concentran las vocalizaciones de
inter
´
es.
3. C
´
alculo de potencia: se calcula la potencia instant
´
anea
de la se
˜
nal filtrada.
4. Filtro Promediador 2: promedia la potencia instant
´
a-
nea sobre una ventana de 20.000 muestras para estabi-
lizar el piso de ruido y suavizar las variaciones r
´
apidas,
facilitando la aplicaci
´
on de un umbral.
5. Discriminador: la potencia promediada se compara
con un umbral adaptativo, generando una se
˜
nal binaria
que marca la presencia de eventos ac
´
usticos relevantes.
Los intervalos donde el discriminador se activa se utilizan
para recortar segmentos de se
˜
nal. Este esquema permite
identificar autom
´
aticamente la presencia de eventos ac
´
usti-
cos relevantes, separ
´
andolos del fondo. Cada segmento se
etiqueta a partir de la informaci
´
on experimental asociada a
cada grabaci
´
on: dado que los ensayos se realizan en entornos
controlados donde se conoce a priori la especie presente, los
segmentos detectados se clasifican como Neo o Cry seg
´
un
corresponda. Por su parte, los intervalos en los que no se
detectan eventos se consideran como ruido. De este modo, se
genera un conjunto de datos equilibrado que combina tanto
vocalizaciones como fragmentos de ruido ambiental. Estos
son los datos que se utilizar
´
an para entrenar la red neuronal,
en concordancia con la arquitectura prevista para el sistema
final (sensor + filtrado + preprocesamiento + red).
En la Fig. 6 se observa parte del proceso de la detecci
´
on
de los segmentos a partir del umbral aplicado sobre la
potencia promediada. Dado que los eventos de inter
´
es no
tienen una duraci
´
on fija, la ventana temporal que define
cada segmento es variable y depende de la activaci
´
on del
discriminador. La figura es una captura en donde se muestra
el espectrograma de un segmento del archivo de audio que
incluye tres vocalizaciones y la se
˜
nal resultante de potencia
promediada en amplitud.
Para ilustrar la eficiencia que puede aportar un sistema de
detecci
´
on selectiva, en la Tabla I se presenta el porcentaje de
informaci
´
on
´
util por archivo de audio analizado, considerando
que la duraci
´
on promedio de cada evento ac
´
ustico es de
29.000 muestras.
Tabla I: Resumen de grabaciones y segmentos de inter
´
es,
incluyendo el porcentaje de informaci
´
on
´
util. Cada segmento
tiene una duraci
´
on promedio de 29.000 muestras.
Especie Neohelice granulata Cyrtograpsus angulatus
Archivos 805 59
Segm.
´
utiles 4.728 941
%
´
util 0,95 % 1,29 %
Hs. totales 13,42 1,97
Hs.
´
utiles 0,127 0,025
V-C. Emulaci
´
on del filtrado
Dado que la arquitectura a embeber incluir
´
a una etapa de
filtrado en tiempo real, se aplican por separado los dos filtros
propuestos sobre los segmentos previamente recortados y
etiquetados. De este modo se generan dos conjuntos de datos
independientes, cada uno correspondiente a una alternativa
de filtrado, lo que permite emular el efecto que tendr
´
ıa cada
opci
´
on y evaluar su impacto sobre el desempe
˜
no de la red.
V-D. Segmentaci
´
on y preprocesamiento
A partir de los segmentos previamente detectados y eti-
quetados, se construyen las instancias de entrada para el
ISSN 2525-0159
https://elektron.fi.uba.ar
44
Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)
https://doi.org/10.37537/rev.elektron.10.1.227.2026
Original Article
Figura 6: Captura con tres vocalizaciones. Arriba, el espectro-
grama de una muestra completa y abajo su correspondiente
potencia promediada y umbral de comparaci
´
on. El eje ori-
zontal est
´
a en segundos y es compartido por ambas figuras;
el eje vertical del espectrograma est
´
a en Hz y el de potencia
en dB.
entrenamiento del clasificador. Dado que estos segmentos
suelen ser m
´
as largos de lo necesario para la clasificaci
´
on,
se subdividen en ventanas temporales m
´
as cortas. Antes
de la segmentaci
´
on, se aplican estrategias de reducci
´
on de
datos para disminuir la tasa de muestreo efectiva y la di-
mensionalidad de las se
˜
nales, evaluando distintos factores
de submuestreo. Sobre cada bloque resultante se realizan
operaciones de agregaci
´
on, como promediado por bloques
y c
´
alculo del valor eficaz en ventanas no superpuestas, que
permiten reducir la cantidad de datos y resaltar diferentes
propiedades de la se
˜
nal. Finalmente, la se
˜
nal procesada se
segmenta en ventanas de longitud fija, sobre las cuales se
extraen las caracter
´
ısticas que alimentan al clasificador. De
esta manera es posible analizar combinaciones de tama
˜
no
de ventana, submuestreo y preprocesamiento, evaluando su
efecto sobre el desempe
˜
no del sistema y su viabilidad para
identificar especies a partir de segmentos breves, un requisito
importante para la implementaci
´
on en tiempo real sobre
hardware embebido.
V-E. Extracci
´
on de caracter
´
ısticas
A partir de los segmentos filtrados se extraen carac-
ter
´
ısticas temporales mediante el extractor catch22 [17],
obteniendo vectores de 22 atributos para cada fragmento.
La elecci
´
on de catch22 permite generar un vector fijo
de 22 caracter
´
ısticas aun cuando los eventos ac
´
usticos no
poseen una duraci
´
on constante, lo que resulta especialmente
relevante en el caso de los sonidos producidos por los can-
grejos. Esta propiedad posibilita obtener una representaci
´
on
compacta y homog
´
enea de cada fragmento sin requerir que
la ventana de an
´
alisis capture el evento completo ni imponer
una estructura temporal uniforme en todos los segmentos.
Adem
´
as, aten
´
ua la sensibilidad al alineamiento exacto del
evento dentro de la ventana. Dado que sus descriptores se
basan en propiedades estad
´
ısticas de corto y mediano plazo,
es posible capturar rasgos representativos incluso cuando el
evento se encuentra parcialmente contenido o desplazado
dentro del segmento. Esto resulta especialmente
´
util en la
implementaci
´
on en tiempo real, donde el dispositivo procesa
ventanas de longitud fija y los eventos ac
´
usticos pueden
aparecer fragmentados, incompletos o distribuidos de manera
irregular.
VI. CLASIFICADOR
La construcci
´
on del clasificador se aborda como un flujo
de trabajo que comprende la preparaci
´
on de los datos, el
entrenamiento del modelo, la validaci
´
on de su desempe
˜
no
y la posterior exportaci
´
on a c
´
odigo en lenguaje C para
su ejecuci
´
on en un microcontrolador. Cabe destacar que
esta secci
´
on no describe una implementaci
´
on espec
´
ıfica del
sistema ni decisiones de dise
˜
no a nivel arquitectural, sino el
proceso metodol
´
ogico seguido para el desarrollo del modelo
de clasificaci
´
on.
1. Preparaci
´
on del conjunto de datos. En esta etapa se
realizan los ajustes necesarios sobre los datos para el
correcto entrenamiento de la red, incluyendo balanceo,
normalizaci
´
on y cuantizaci
´
on.
2. Dise
˜
no de la red neuronal. Se desarrolla una red
neuronal cuantizada y de baja complejidad, con el
objetivo de minimizar el uso de recursos y permitir su
ejecuci
´
on eficiente en plataformas embebidas de bajo
costo. Esta red constituye el modelo estudiante.
3. Entrenamiento mediante destilaci
´
on del conocimien-
to. Se define un modelo neuronal de mayor comple-
jidad y no cuantizado, denominado maestro, que se
entrena para maximizar el desempe
˜
no. Posteriormente,
su conocimiento se transfiere al modelo estudiante
mediante t
´
ecnicas de destilaci
´
on.
4. Preparaci
´
on para la implementaci
´
on embebida. El
modelo estudiante, ya entrenado y optimizado, se
convierte al formato TensorFlow Lite y se cuantiza
en int8. En esta etapa se eval
´
uan su precisi
´
on y
sus requerimientos de memoria y c
´
omputo, verificando
su compatibilidad con un microcontrolador de bajos
recursos.
Estas fases constituyen un proceso iterativo orientado a
optimizar el equilibrio entre el uso de recursos y la precisi
´
on
del modelo. En este contexto, la construcci
´
on del conjunto
de datos incluye la exploraci
´
on de distintas combinaciones de
tama
˜
no de ventana, factores de submuestreo y estrategias de
ISSN 2525-0159
https://elektron.fi.uba.ar
45
Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)
https://doi.org/10.37537/rev.elektron.10.1.227.2026
Original Article
preprocesamiento, as
´
ı como la evaluaci
´
on de filtros digitales
y anal
´
ogicos simulados. Cada una de estas variantes se eval
´
ua
en funci
´
on de su efecto tanto en el rendimiento durante el
entrenamiento como en el desempe
˜
no final sobre los datos
de prueba. En paralelo, en la etapa de dise
˜
no de la red se
analizan distintas arquitecturas de clasificadores, buscando
la mejor relaci
´
on entre complejidad y exactitud. El flujo de
trabajo correspondiente se presenta en la Fig. 7.
Modelo
Modelo Cuantizado.
Método y Estrategia de
entrenamiento
Procesamiento
Procesamiento de las señales
acústicas y extracción de
características con Catch22
Modelo Lite
Convertir modelo a
formato adecuado para
implementación
Python - Tensor Flow
Evaluación
Inferencia
Simulada
(TFLite)
Datos de
Test
Datos de
Train
C++
Proceso
Iterativo
Figura 7: Flujo de trabajo general al que ingresan las se
˜
nales
provenientes del sensor, ya filtradas.
VI-A. Balanceo, normalizaci
´
on y cuantizaci
´
on
Los vectores extra
´
ıdos se balancean para evitar sesgos
entre las tres clases. Para las clases de cangrejos se ajusta el
n
´
umero de vectores de la clase con menor cantidad de datos,
mientras que para la clase de ruido se extraen fragmentos de
las mismas grabaciones de cangrejos, de manera que todas
las clases tengan una representaci
´
on equivalente.
A partir de estos vectores se generan los conjuntos de
entrenamiento (Train), validaci
´
on (Val) y prueba (Test). La
partici
´
on del dataset se realiza a nivel de experimento, es
decir, la unidad de partici
´
on corresponde a cada experimento
completo (incluyendo todos sus archivos de audio y los
segmentos derivados de los mismos). De esta forma, los
experimentos asignados al conjunto de prueba no comparten
ning
´
un archivo ni segmento con los utilizados en entrena-
miento o validaci
´
on.
En consecuencia, todos los segmentos pertenecientes a un
mismo experimento se asignan exclusivamente a uno de los
subconjuntos (Train, Val o Test), evitando la presencia de
segmentos correlacionados en distintos conjuntos y descar-
tando posibles fugas de informaci
´
on. Esto garantiza que el
conjunto de prueba represente condiciones experimentales
completamente no vistas durante el entrenamiento. Adem
´
as,
en el sistema final, las se
˜
nales de entrada provienen de un
convertidor anal
´
ogico–digital (Analog-to-Digital Converter,
ADC) y solo est
´
an disponibles como n
´
umeros enteros de 8
bits. Para que el modelo se entrene y eval
´
ue bajo condiciones
similares a las del hardware, los datos se normalizan al
intervalo [0,1] y se cuantizan uniformemente, reproduciendo
as
´
ı las limitaciones de precisi
´
on impuestas por la entrada real
del sistema.
VI-B. Dise
˜
no de la red neuronal
El modelo de la red seleccionada para su implementaci
´
on
se presenta en la Tabla II. Se trata de una red neuronal
cuantizada y de baja complejidad, con un n
´
umero reducido
de capas, que en las etapas posteriores se denomina estu-
diante. Esta baja demanda de recursos asegura su adecuada
implementaci
´
on en hardware de recursos limitados.
Tabla II: Arquitectura de la red estudiante. Siendo: kernelQ =
quantized bits(8, 2, α=1), biasQ = quantized bits(8, 2, α=1),
activationQ = quantized bits(8, 2).
Capa Salida # Par
´
ametros
QActivation (None, 22) 0
fc1 (QDense) (None, 32) 736
relu1 (QActivation) (None, 32) 0
fc2 (QDense) (None, 16) 528
relu2 (QActivation) (None, 16) 0
fc3 (QDense) (None, 8) 136
relu3 (QActivation) (None, 8) 0
output (QDense) (None, 3) 27
softmax (Activation) (None, 3) 0
Par
´
ametros totales 1.427
VI-C. Entrenamiento
El m
´
etodo de entrenamiento adoptado es la Destilaci
´
on de
Conocimiento [18], la cual permite alcanzar un desempe
˜
no
elevado mediante el uso de modelos de baja complejidad.
En este enfoque, el conocimiento aprendido por un modelo
de mayor capacidad (modelo maestro) se transfiere a un
modelo m
´
as simple (modelo estudiante), favoreciendo una
mejor generalizaci
´
on sin incrementar significativamente los
requerimientos computacionales. En la Fig. 8 se muestra un
esquema de este tipo de entrenamiento.
Figura 8: Esquema de entrenamiento por destilaci
´
on del
conocimiento
VI-C1. Elecci
´
on de red maestro: Con el objetivo de ana-
lizar el impacto de distintas arquitecturas de redes neuronales,
se eval
´
uan diferentes modelos, incluyendo una red neuronal
profunda totalmente conectada, una red convolucional y
arquitecturas basadas en Temporal Convolutional Networks
(TCN) [19]. La selecci
´
on de estas arquitecturas responde
a la comparaci
´
on entre un modelo cl
´
asico, un modelo ba-
sado en convoluciones que captura correlaciones locales, y
una arquitectura dise
˜
nada espec
´
ıficamente para el modelado
de secuencias temporales mediante convoluciones causales
y dilatadas. En particular, se consideran tanto una TCN
est
´
andar como una TCN profunda. Los c
´
odigos desarrollados
y las caracter
´
ısticas exactas de cada modelo se encuentran
disponibles en [20]. El modelo maestro se entrena de manera
ISSN 2525-0159
https://elektron.fi.uba.ar
46
Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)
https://doi.org/10.37537/rev.elektron.10.1.227.2026
Original Article
Tabla III: Resumen de arquitecturas de modelos ”Maestro ”propuestos
Modelo Tipo Entrada Componentes principales Regularizaci
´
on
Modelo 1 MLP (Fully Connected) Vector (22) Dense (64-32-16-8) + BN Dropout (0.2, 0.1), L2
Modelo 2 CNN 1D Secuencia (22,1) Conv1D (32-64-64-128) + Pooling + Dense BatchNorm, Dropout (0.3), L2
Modelo 3 TCN (Residual) Secuencia (22,1) Bloques residuales dilatados (1,2,4,8) + Dense Dropout (0.3)
Modelo 4 TCN + Atenci
´
on Secuencia (22,1) Bloques residuales (1–16) + MultiHeadAttention + GAP Dropout (0.4), LayerNorm
supervisada utilizando los vectores de caracter
´
ısticas etiqueta-
dos correspondientes al conjunto de entrenamiento, mientras
que el conjunto de validaci
´
on se emplea para monitorear el
desempe
˜
no y seleccionar las configuraciones m
´
as adecuadas.
VI-C2. Entrenamiento del Estudiante: Por su parte, el
estudiante (el modelo cuantizado destinado a la implemen-
taci
´
on en hardware) aprende a replicar el comportamiento
del maestro. Es importante destacar que el entrenamiento
es consciente de la cuantizaci
´
on (QAT). En este esquema,
el entrenamiento del estudiante se realiza utilizando una
combinaci
´
on de la informaci
´
on provista por las etiquetas
reales y las salidas del modelo maestro, permitiendo transferir
el conocimiento aprendido por este
´
ultimo. De esta manera,
el estudiante no solo ajusta sus par
´
ametros para predecir
correctamente las clases, sino tambi
´
en para aproximar la
distribuci
´
on de probabilidad generada por el maestro. Los
detalles espec
´
ıficos de implementaci
´
on, incluyendo la confi-
guraci
´
on de hiperpar
´
ametros y las caracter
´
ısticas particulares
de cada arquitectura, se encuentran disponibles en [20].
VII. RESULTADOS DEL ENTRENAMIENTO
Previo a la presentaci
´
on de los resultados, se eval
´
uan
distintas alternativas para el esquema de filtrado aplicado a las
se
˜
nales; sin embargo, no se observan diferencias significativas
en el desempe
˜
no de los modelos entrenados bajo ambos
enfoques. Dado que el an
´
alisis comparativo del impacto del
tipo de filtrado no constituye el foco de este trabajo, y
con el objetivo de simplificar el esquema de procesamiento,
en los experimentos presentados a continuaci
´
on se utiliza
indistintamente uno de los esquemas de filtrado evaluados.
Los resultados obtenidos del entrenamiento de las dife-
rentes arquitecturas del modelo maestro, presentadas en la
Tabla III, se muestran en la Tabla IV. A partir de estos
resultados, se seleccionan los modelos candidatos para su
posterior utilizaci
´
on en el proceso de destilaci
´
on.
Cabe destacar que, durante los experimentos, se emplean
distintas estrategias de muestreo y tama
˜
nos de ventana. Si
bien la frecuencia de muestreo original de las se
˜
nales es
de 300 kHz, la banda de inter
´
es se encuentra limitada a
frecuencias inferiores a 20 kHz; en consecuencia, se emula
un proceso de submuestreo equivalente al uso de un ADC con
menor frecuencia de adquisici
´
on. Adicionalmente, se aplican
distintas estrategias de procesamiento posterior al submues-
treo, incluyendo el c
´
alculo de descriptores estad
´
ısticos como
el valor RMS.
Los resultados presentados en la Tabla IV indican que
los candidatos m
´
as prometedores a maestro son aquellos
modelos entrenados con un submuestreo de factor 16 y sin
la aplicaci
´
on de operaciones aritm
´
eticas adicionales. Este
Tabla IV: Resultados de entrenamiento para distintas estra-
tegias y modelos del conjunto maestro. Modelos: 1=Red
profunda, 2=Red convolucional, 3=Red TCN, 4=Red TCN
profunda. Datos: 0,9/0,2/0,1 (Train/Val/Test).
Ventana
Submuestreo /
Post-proc.*
Datos Accuracy Val Accuracy Modelo #
1024
16 /
[2823 x 22] 91 % 90 % 1
1024
16 /
[2823 x 22] 98 % 89 % 2
1024
16 /
[2823 x 22] 100 % 88 % 3
1024
16 /
[2823 x 22] 88 % 88 % 4
1024
2 / RMS4
[6664 x 22] 79 % 78 % 1
1024
2 / RMS4
[6664 x 22] 91 % 78 % 2
1024
2 / RMS4
[6664 x 22] 97 % 75 % 3
1024
2 / RMS4
[6664 x 22] 95 % 75 % 4
1024
4 / RMS4
[2823 x 22] 79 % 78 % 1
1024
4 / RMS4
[2823 x 22] 91 % 78 % 2
1024
4 / RMS4
[2823 x 22] 97 % 75 % 3
1024
4 / RMS4
[2823 x 22] 95 % 75 % 4
1024
8 / RMS2
[2823 x 22] 81 % 78 % 1
1024
8 / RMS2
[2823 x 22] 96 % 80 % 2
1024
8 / RMS2
[2823 x 22] 99 % 82 % 3
1024
8 / RMS2
[2823 x 22] 99 % 81 % 4
512
16 /
[6664 x 22] 81 % 82 % 1
512
16 /
[6664 x 22] 85 % 81 % 2
512
16 /
[6664 x 22] 93 % 81 % 3
512
16 /
[6664 x 22] 95 % 80 % 4
512
8 /
[14637 x 22] 76 % 77 % 1
512
8 /
[14637 x 22] 85 % 76 % 2
512
8 /
[14637 x 22] 89 % 75 % 3
512
8 /
[14637 x 22] 89 % 75 % 4
512
4 /
[30278 x 22] 72 % 72 % 1
512
4 /
[30278 x 22] 72 % 73 % 2
512
4 /
[30278 x 22] 85 % 70 % 3
512
4 /
[30278 x 22] 81 % 70 % 4
512
2 / RMS4
[14637 x 22]
512
2 / RMS4
[14637 x 22] 55 % 55 % 1
512
2 / RMS4
[14637 x 22]
512
2 / RMS8
[6664 x 22]
512
2 / RMS8
[6664 x 22] 79 % 63 % 1
512
2 / RMS8
[6664 x 22]
Nota: *Post-proc. se refiere a operaciones aplicadas despu
´
es del
submuestreo. RMSX indica c
´
alculo del valor eficaz (RMS) sobre
bloques de X muestras.
comportamiento sugiere que la informaci
´
on discriminativa
relevante para la tarea de clasificaci
´
on se preserva a
´
un bajo
esquemas de submuestreo agresivos, lo cual podr
´
ıa estar
asociado a la concentraci
´
on del contenido espectral
´
util en
bajas frecuencias. Este aspecto ser
´
a analizado con mayor
detalle en la Secci
´
on X. Por otro lado, se observa que las
arquitecturas m
´
as complejas no aportan mejoras significativas
en la performance del modelo maestro. A partir de esta
selecci
´
on, se procede a la destilaci
´
on del conocimiento hacia
el modelo estudiante, realizando ajustes finos en par
´
ametros
como el tama
˜
no del batch y la tasa de destilaci
´
on, utilizando
como maestro el modelo m
´
as simple (modelo #1).
En la Fig. 9 se presentan los resultados obtenidos tras
el proceso de entrenamiento. La precisi
´
on alcanzada por el
modelo maestro para los datos de validaci
´
on es de 90 %,
mientras que el modelo estudiante cuantizado logra una
ISSN 2525-0159
https://elektron.fi.uba.ar
47
Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)
https://doi.org/10.37537/rev.elektron.10.1.227.2026
Original Article
precisi
´
on para los datos de validaci
´
on de 83 %. La tasa de
aprendizaje se ajusta utilizando la t
´
ecnica de decaimiento
en pasos (Step Decay), donde la tasa se reduce de forma
escalonada; se emplea un tama
˜
no de batch de 30 y una tasa
de destilaci
´
on de 0,7.
Figura 9: Precisi
´
on del modelo cuantizado (estudiante) du-
rante el proceso de entrenamiento.
VIII. IMPLEMENTACI
´
ON
El modelo se entrena utilizando QKeras, una extensi
´
on
de Keras/TensorFlow que permite simular los efectos de la
cuantizaci
´
on mediante capas espec
´
ıficas (QDense, QActiva-
tion), y funciones de cuantizaci
´
on como quantized_bits
[21], [22]. Aunque el entrenamiento se realiza en punto
flotante, esta simulaci
´
on permite que la red aprenda a fun-
cionar bajo las restricciones num
´
ericas que impondr
´
ıa una
implementaci
´
on en baja precisi
´
on, anticipando las posibles
p
´
erdidas de desempe
˜
no. Dado que TensorFlow Lite no es
compatible directamente con QKeras, los pesos entrenados
deben transferirse a un modelo equivalente implementado en
Keras convencional. Este modelo se convierte posteriormente
al formato .tflite, que constituye el archivo final utilizado
para la ejecuci
´
on del clasificador en el microcontrolador
mediante TensorFlow Lite Micro.
Considerando las limitaciones de las plataformas objetivo,
se prioriza la cuantizaci
´
on y el dise
˜
no de arquitecturas
compactas, no as
´
ı el pruning, ya que no ofrece beneficios
significativos en t
´
erminos de memoria o latencia en micro-
controladores convencionales. En este contexto, se aplica
una cuantizaci
´
on entera posterior al entrenamiento (post-
training quantization, INT8) utilizando la herramienta oficial
de TensorFlow Lite [23]. A diferencia del enfoque simulado
de QKeras, esta etapa transforma realmente los pesos y las
activaciones a valores enteros de 8 bits, reduciendo tanto
el tama
˜
no del modelo como el uso de memoria durante la
inferencia. Para garantizar una cuantizaci
´
on precisa, se utiliza
un conjunto representativo de datos que permite calibrar
autom
´
aticamente los par
´
ametros de escala y punto cero de
cada tensor.
Durante la inferencia, el modelo espera recibir entradas
escaladas al mismo rango utilizado durante la calibraci
´
on.
Dado que los datos reales provienen de un ADC y se
representan como enteros sin signo de 8 bits, se incorpora una
etapa de escalado que ajusta estos valores al rango requerido
por el modelo en int8. Los par
´
ametros necesarios para este
escalado son provistos autom
´
aticamente por la herramienta de
conversi
´
on a TensorFlow Lite, lo cual asegura la coherencia
entre las etapas de entrenamiento, cuantizaci
´
on y ejecuci
´
on
en hardware.
La salida del modelo es una predicci
´
on de clase, que indica
si el fragmento de audio corresponde a Neohelice granulata,
Cyrtograpsus angulatus o ruido ambiental.
IX. RESULTADOS OBTENIDOS
En la Fig. 10 se muestran las matrices de confusi
´
on corres-
pondientes al modelo cuantizado y al modelo convertido al
formato TFLite. Estas matrices se obtienen evaluando ambos
modelos sobre el conjunto de datos de prueba, separado
previamente para garantizar que no hayan tenido acceso a
estos datos durante el entrenamiento. Las precisiones alcan-
zadas sobre el conjunto de prueba son del 83,75 % tanto para
el modelo cuantizado como para el modelo implementado
mediante TFLite.
Etiqueta predicha
(a) Modelo cuantizado.
Etiqueta verdadera
Etiqueta predicha
(b) Modelo final.
Figura 10: Comparaci
´
on de las matrices de confusi
´
on obte-
nidas para el modelo cuantizado y para la simulaci
´
on de su
implementaci
´
on sobre un microcontrolador.
La inferencia del modelo final se realiza utilizando la API
Interpreter de TensorFlow Lite. Esta API permite ejecutar
el modelo TFLite en un entorno de Python, emulando las
condiciones de ejecuci
´
on que luego se tendr
´
an en el mi-
crocontrolador. En este caso particular, el modelo emplea
cuantizaci
´
on int8, con escala 0,0039215 y punto cero 128,
mapeando el rango real al intervalo entero [128, 127].Bajo
esta configuraci
´
on, el modelo presenta una ocupaci
´
on de
1,41 kB de memoria RAM asociada a los tensores durante la
inferencia, mientras que el tama
˜
no del modelo almacenado
es de 4,15 kB.
X. AN
´
ALISIS DE LOS RESULTADOS OBTENIDOS
Determinar el impacto de cada bloque del sistema sobre
el uso de recursos y el desempe
˜
no global en una plata-
forma embebida de bajo costo es de suma relevancia para
la implemetaci
´
on. La Tabla V resume una estimaci
´
on del
consumo de memoria y c
´
omputo asociado a cada uno de
los bloques principales del sistema. A partir de estos valores
se establece el peso relativo de cada etapa dentro de la
arquitectura propuesta y se identifican los componentes m
´
as
exigentes en t
´
erminos de recursos.
ISSN 2525-0159
https://elektron.fi.uba.ar
48
Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)
https://doi.org/10.37537/rev.elektron.10.1.227.2026
Original Article
Tabla V: Estimaci
´
on de recursos requeridos por cada bloque sobre un microcontrolador con 520 kB RAM y 4 MB Flash.
Bloque Flash [kB] RAM [kB] Uso de CPU Porcentaje del recurso
Filtro Butterworth orden (3 SOS) 0.10 3–5 % <0.01 % Flash, 0.02 % RAM
Extracci
´
on de caracter
´
ısticas (catch22) 15 5 15–25 % 1.0 % Flash, 1.0 % RAM
Clasificador TFLite (int8) 4.46 1.48 <1 % 0.1 % Flash, 0.3 % RAM
Las estimaciones reportadas en la Tabla V se obtuvieron
mediante una combinaci
´
on de herramientas de simulaci
´
on y
an
´
alisis directo de implementaci
´
on. En el caso del clasifi-
cador, el consumo de memoria (Flash y RAM) se obtuvo a
partir de la herramienta TensorFlow Lite, que proporciona
autom
´
aticamente el tama
˜
no del modelo y la asignaci
´
on de
tensores durante la inferencia. Para la etapa de extracci
´
on de
caracter
´
ısticas (catch22), los valores se estimaron a partir de
su implementaci
´
on en C, considerando tanto el tama
˜
no del
c
´
odigo compilado como la memoria necesaria para buffers
intermedios. En el caso del filtrado digital, los requerimientos
de memoria y c
´
omputo se estimaron anal
´
ıticamente a partir
de la estructura del filtro IIR, teniendo en cuenta la cantidad
de secciones de segundo orden y las variables de estado
asociadas. El uso de CPU se aproxim
´
o en funci
´
on del n
´
umero
de operaciones por muestra y fue contrastado mediante per-
files de ejecuci
´
on en plataformas embebidas representativas.
La referencia a un microcontrolador con 520 kB de RAM
y 4 MB de Flash corresponde a una configuraci
´
on t
´
ıpica
dentro de la familia STM32 (por ejemplo, dispositivos de la
serie STM32F4), comparable con plataformas ampliamente
utilizadas como ESP32. El objetivo de esta referencia es
validar la viabilidad del sistema en hardware de bajo costo,
m
´
as que apuntar a un dispositivo espec
´
ıfico. En este sentido,
los valores reportados deben interpretarse como estimaciones
de orden de magnitud orientadas al dise
˜
no del sistema.
En la Tabla V se observa que la etapa de extracci
´
on
de caracter
´
ısticas mediante catch22 constituye el bloque
m
´
as costoso del sistema en t
´
erminos de memoria y uso de
CPU. Esta etapa requiere aproximadamente 15 kB de Flash,
5 kB de RAM y entre un 15 % y un 25 % del tiempo de
procesamiento, superando ampliamente a los requerimientos
del filtrado y del clasificador cuantizado.
En contraste, el filtrado digital presenta un impacto m
´
ınimo
sobre los recursos del sistema. El filtro Butterworth pasa-
banda de sexto orden requiere del orden de 100 bytes de
memoria y un uso de CPU inferior al 5 %, lo que confirma
que su implementaci
´
on directa en el microcontrolador resulta
viable y no constituye un factor limitante. En t
´
erminos
de desempe
˜
no del clasificador, no se observan diferencias
significativas entre el uso de filtrado digital y anal
´
ogico, tal
como se evidenci
´
o en las simulaciones comparativas realiza-
das. Por otra parte, dado que el filtrado digital presenta un
impacto m
´
ınimo en el uso de recursos del microcontrolador
(Tabla IV), su implementaci
´
on resulta suficiente dentro del
esquema propuesto.
Asimismo, el an
´
alisis presentado en esta secci
´
on respecto
del filtrado se centra exclusivamente en su impacto en los
recursos del sistema embebido y en la viabilidad de su
implementaci
´
on, y no en una comparaci
´
on exhaustiva entre
distintas t
´
ecnicas de filtrado. En este sentido, las considera-
ciones realizadas tienen como objetivo justificar la elecci
´
on
de una soluci
´
on compatible con las restricciones de hardware
sin afectar el desempe
˜
no del clasificador.
En relaci
´
on con el submuestreo considerado durante la
etapa de entrenamiento, se observa que una tasa efectiva equi-
valente a 300 kHz/16 resulta compatible con las prestaciones
de un microcontrolador de bajo costo, cumpliendo con las
restricciones de hardware de recursos limitados. Si bien esta
frecuencia no satisface estrictamente el criterio de Nyquist
para toda la banda de inter
´
es (0–20 kHz), el submuestreo con
factor 16 proporciona el mejor desempe
˜
no del clasificador en
las pruebas realizadas. Cabe se
˜
nalar que el criterio de Nyquist
garantiza la reconstrucci
´
on fiel de una se
˜
nal original, pero
no constituye un requisito estricto en tareas de clasificaci
´
on,
donde el objetivo es preservar informaci
´
on discriminativa
y no la forma exacta de la se
˜
nal. En este contexto, el
submuestreo con factores elevados introduce aliasing; sin
embargo, dicha transformaci
´
on no implica necesariamente
la p
´
erdida de las caracter
´
ısticas relevantes para distinguir
entre clases. Esto sugiere que la informaci
´
on discriminativa
de los eventos ac
´
usticos de inter
´
es se encuentra concentrada
en componentes espectrales que se preservan incluso bajo
un submuestreo agresivo, permitiendo una representaci
´
on
suficiente para la tarea de clasificaci
´
on. En este esquema,
el almacenamiento del dato ac
´
ustico completo puede reali-
zarse mediante un sistema de adquisici
´
on externo de mayor
velocidad, desacoplando la etapa de clasificaci
´
on en tiempo
real del proceso de registro de alta resoluci
´
on.
Respecto del dise
˜
no del modelo maestro utilizado para la
destilaci
´
on del conocimiento, se observa que arquitecturas
de mayor complejidad logran un desempe
˜
no ligeramente
superior sobre los datos de entrenamiento, pero no producen
mejoras significativas en los resultados de validaci
´
on. Este
comportamiento indica que el aumento de complejidad no se
traduce en una mejor capacidad de generalizaci
´
on y sugiere la
existencia de un l
´
ımite impuesto por la calidad y la naturaleza
del conjunto de datos disponible.
En relaci
´
on con la composici
´
on del conjunto de datos, se
observa una menor disponibilidad de registros correspondien-
tes a la especie Cyrtograpsus angulatus, lo que se traduce en
una menor cantidad de eventos
´
utiles respecto de otras clases.
Aunque el balanceo asegura que la cantidad de eventos sea
igualitaria.
Finalmente, si bien la red neuronal representa concep-
tualmente la etapa m
´
as compleja del sistema, su versi
´
on
cuantizada presenta una carga computacional muy reducida.
El clasificador final cuenta con 1.427 par
´
ametros y requiere
menos del 1 % de uso de CPU, lo que lo vuelve pr
´
acticamente
despreciable desde el punto de vista computacional. En
ISSN 2525-0159
https://elektron.fi.uba.ar
49
Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)
https://doi.org/10.37537/rev.elektron.10.1.227.2026
Original Article
consecuencia, se establece que el consumo de recursos del
sistema se encuentra dominado por la extracci
´
on de carac-
ter
´
ısticas, mientras que el filtrado digital y la clasificaci
´
on
no introducen restricciones relevantes para la operaci
´
on en
tiempo real.
XI. CONCLUSIONES Y TRABAJO FUTURO
Los resultados obtenidos muestran que el modelo desa-
rrollado presenta un uso de recursos altamente eficiente,
resultando adecuado para su integraci
´
on en un sistema em-
bebido de bajo costo. El entrenamiento realizado a partir de
se
˜
nales adquiridas con el sensor real, posteriormente filtradas
y segmentadas en las tres clases de inter
´
es (Neo, Cry y ruido),
garantiza una adecuada correspondencia entre las condiciones
de laboratorio y el escenario operativo previsto.
La exactitud promedio alcanzada del 83,75 % resulta ade-
cuada para la aplicaci
´
on propuesta, cuyo objetivo principal es
reducir la carga de grabaci
´
on en campo mediante la detecci
´
on
selectiva de eventos ac
´
usticos relevantes. En este contexto,
el sistema act
´
ua como un filtro inteligente previo al an
´
alisis
posterior por parte de un operador humano.
Asimismo, el an
´
alisis de los archivos de audio evidencia
que solo el 1,12 % del total de los datos contiene informaci
´
on
relevante, lo que resalta la ventaja de implementar un clasi-
ficador embebido capaz de detectar y almacenar
´
unicamente
dichos segmentos.
Un aspecto relevante de la implementaci
´
on embebida es
que el clasificador puede operar con una frecuencia de
muestreo efectiva 16 veces menor y con ventanas de tan
solo 1024 muestras, lo que lo hace totalmente compatible
con microcontroladores de muy bajos recursos. Esto permite
realizar la detecci
´
on de eventos de cangrejo de manera
eficiente sin comprometer la capacidad de memoria del
sistema principal. La parte m
´
as cr
´
ıtica recae en la gesti
´
on
de memoria externa, donde se utiliza un buffer de mayor
tama
˜
no (aproximadamente 16.500 muestras) para almacenar
temporalmente los eventos completos antes de transferirlos
a memoria externa. Este enfoque asegura que los eventos
completos se preserven para su an
´
alisis posterior, mientras
que la etapa de clasificaci
´
on se mantiene altamente eficiente
y liviana en t
´
erminos de recursos computacionales.
En esta misma l
´
ınea, se plantea la ampliaci
´
on del conjunto
de datos, especialmente en lo que respecta a la especie
Cyrtograpsus angulatus, con el objetivo de incrementar la
variabilidad intraclase disponible y mejorar la evaluaci
´
on de
la capacidad de generalizaci
´
on del modelo.
Como trabajo futuro, se prev
´
e ampliar la evaluaci
´
on del
modelo incorporando m
´
etricas adicionales m
´
as all
´
a de la
matriz de confusi
´
on. En particular, resulta de inter
´
es el costo
esperado normalizado (CEN), una de las pocas m
´
etricas
consistentes en problemas de clasificaci
´
on arbitrarios. No
obstante, su aplicaci
´
on requiere la definici
´
on de costos asocia-
dos a los errores en un escenario real, por lo que se abordar
´
a
en etapas posteriores de validaci
´
on en campo.
Paralelamente, se avanzar
´
a en la implementaci
´
on integral
del sistema en el dispositivo embebido, incluyendo la ad-
quisici
´
on en tiempo real y su validaci
´
on experimental en
condiciones reales de operaci
´
on.
Finalmente, se identific
´
o que la etapa de extracci
´
on de
caracter
´
ısticas mediante catch22 constituye el componente
m
´
as costoso en t
´
erminos de recursos. En consecuencia, se
explorar
´
an alternativas m
´
as livianas basadas en estad
´
ısticas
simples o transformaciones optimizadas para hardware, con
el objetivo de reducir el uso de memoria y c
´
omputo sin
degradar significativamente el desempe
˜
no del sistema.
DECLARACI
´
ON DE DISPONIBILIDAD DE DATOS
Los datos que respaldan los resultados de este estudio
est
´
an disponibles a partir del autor de correspondencia previa
solicitud razonable.
CREDIT DECLARACI
´
ON DE CONTRIBUCI
´
ON DE AUTOR
´
IA
M. Celeste Cebedio: Validaci
´
on; redacci
´
on borrador ori-
ginal; Adquisici
´
on de fondos. Mart
´
ın Lorusso: Validaci
´
on;
Investigaci
´
on. Leonardo Arnone: Software; visualizaci
´
on.
Lucas A. Rabioglio: Software; redacci
´
on; Conceptualiza-
ci
´
on. Maximiliano Antonelli: investigaci
´
on; visualizaci
´
on;
Software; redacci
´
on. Ra
´
ul E. Lopresti: visualizaci
´
on; re-
dacci
´
on. Luciana De Micco: redacci
´
on borrador original;
investigaci
´
on; Validaci
´
on; supervisi
´
on; An
´
alisis formal. M.
Paz Sal Moyano: administraci
´
on del proyecto; Adquisici
´
on
de fondos; Investigaci
´
on.
XII. AGRADECIMIENTOS
Este trabajo fue financiado por la Universidad Nacional
de Mar del Plata a trav
´
es de los proyectos EXA1213/24
“Bioac
´
ustica marina: se
˜
nales sonoras naturales y efecto del
sonido antr
´
opico en una especie clave de cangrejo. OCS
2024-6” y PI2Ba RR-2024-1914 “T
´
ecnicas avanzadas de
ingenier
´
ıa e inteligencia artificial aplicadas al an
´
alisis de
datos ac
´
usticos biol
´
ogicos: caracterizaci
´
on a nivel especies
e intra-especie y efecto de la contaminaci
´
on por ruido sobre
animales”.
REFERENCIAS
[1] M. Minello, L. Calado y F. C. Xavier, “Ecoacoustic
Indices in Marine Ecosystems: A Review on Recent
Developments, Challenges, and Future Directions”,
ICES Journal of Marine Science, vol. 78, n.
o
9,
p
´
ags. 3066-3074, 2021. DOI: 10.1093/icesjms/fsab193.
direcci
´
on: https://academic.oup.com/icesjms/article-
pdf/78/9/3066/41765284/fsab193.pdf.
[2] Ministerio de Ambiente y Desarrollo Sostenible de la
Naci
´
on Argentina, Ficha t
´
ecnica de la Reserva de la
Biosfera Mar Chiquita, 2023. direcci
´
on: https://www.
argentina. gob. ar/ sites /default / files/ 2023/ 02 /fichas
web 07.pdf.
[3] AMPAR Argentina, Mar Chiquita, Accessed: Apr. 26,
2025. direcci
´
on: https://ampargentina.org/areas/mar-
chiquita/.
ISSN 2525-0159
https://elektron.fi.uba.ar
50
Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)
https://doi.org/10.37537/rev.elektron.10.1.227.2026
Original Article
[4] M. P. Sal Moyano, M. Ceraulo, T. Luppi, M. A. Gavio
y G. Buscaino, “Anthropogenic and Biological Sound
Effects on the Maternal Care Behavior of a Key Crab
Species”, Frontiers in Marine Science, vol. 10, 2023.
DOI: 10.3389/fmars.2023.1050148. direcci
´
on: https:
//www.frontiersin.org/journals/marine-science/articles/
10.3389/fmars.2023.1050148.
[5] S. Kumar et al., Deep Learning in Computational Bio-
logy: Advancements, Challenges, and Future Outlook,
2023. arXiv: 2310.03086 [cs.LG]. direcci
´
on: https:
//arxiv.org/abs/2310.03086.
[6] D. Tuia et al., “Perspectives in Machine Learning
for Wildlife Conservation”, Nature Communications,
vol. 13, n.
o
792, 2022. DOI: 10 . 1038 / s41467 - 022 -
27980-y.
[7] A. Lamba, P. Cassey, R. Raja Segaran y L. Koh, “Deep
Learning for Environmental Conservation”, Current
Biology, vol. 29, n.
o
19, R977-R982, 2019. DOI: 10.
1016/j.cub.2019.08.016.
[8] U. Malik, M. Malik y A. Malik, “Leveraging Deep
Learning for Accurate Classification of Leptograpsus
Crabs Based on Morphological Measurements”, en
Intelligent Computing Systems, A. Safi, A. Martin-
Gonzalez, C. Brito-Loeza y V. Casta
˜
neda-Zeman,
eds., Cham: Springer Nature Switzerland, 2025,
p
´
ags. 161-175, ISBN: 978-3-031-82931-4. DOI: 10 .
1007/978-3-031-82931-4 12.
[9] C. Wu et al., “A Part-based Deep Learning Network
for Identifying Individual Crabs Using Abdomen Ima-
ges”, Frontiers in Marine Science, vol. 10, 2023. DOI:
10.3389/fmars.2023.1093542. direcci
´
on: https://www.
frontiersin . org /journals / marine - science / articles / 10 .
3389/fmars.2023.1093542.
[10] Espressif Systems, ESP32 Series Datasheet, 2024.
direcci
´
on: https : / / www. espressif . com / sites / default /
files/documentation/esp32 datasheet en.pdf.
[11] STMicroelectronics, Artificial Intelligence on STM32
Microcontrollers, 2024. direcci
´
on: https://www.st.com/
en/embedded-software/x-cube-ai.html.
[12] STMicroelectronics, STM32 Microcontrollers, 2024.
direcci
´
on: https://www.st.com/stm32.
[13] V. V, A. C. Ramachandra, R. Prasanna, P. C. Kakarla,
V. P. J. Simha y N. Mohan, Implementation of Tiny
Machine Learning Models on Arduino 33 BLE for
Gesture and Speech Recognition, 2022. DOI: 10.48550/
arXiv.2207.12866. arXiv: 2207.12866 [eess.AS].
direcci
´
on: https://arxiv.org/abs/2207.12866.
[14] Avisoft Bioacoustics, UltraSoundGate 116H: USB-
based Ultrasound Recording Interface, Datasheet,
2023. direcci
´
on: https : / / avisoft . com/ ultrasoundgate /
116h/.
[15] Teledyne Marine / RESON, TC4013 Miniature Refe-
rence Hydrophone Datasheet, Product leaflet / techni-
cal specifications, 2020. direcci
´
on: https : / / teramara .
ca / sites / default / files / 2022 - 01 / reson - TC4013 %
20product%20leaflet.pdf.
[16] M. Antonelli, scrubDetection, Accessed: Nov. 18,
2025, 2025. direcci
´
on: https:// github.com / maxanto /
scrubDetection.
[17] C. H. Lubba, S. S. Sethi, P. Knaute, S. R. Schultz,
B. D. Fulcher y N. S. Jones, “catch22: CAnonical
Time-series CHaracteristics: Selected through Highly
Comparative Time-Series Analysis”, Data Mining and
Knowledge Discovery, vol. 33, n.
o
6, p
´
ags. 1821-1852,
2019. DOI: 10.1007/s10618-019-00647-x.
[18] J. Gou, B. Yu, S. J. Maybank y D. Tao, “Knowledge
Distillation: A Survey”, International Journal of Com-
puter Vision, vol. 129, n.
o
6, p
´
ags. 1789-1819, 2021.
DOI: 10.1007/s11263-021-01453-z.
[19] S. Bai, J. Z. Kolter y V. Koltun, “An Empirical
Evaluation of Generic Convolutional and Recurrent
Networks for Sequence Modeling”, en Proceedings of
the International Conference on Learning Representa-
tions (ICLR), 2018. DOI: 10.48550/arXiv.1803.01271.
[20] M. C. Cebedio, Clasificaci
´
on de Cangrejos, Reposito-
rio de c
´
odigo asociado al clasificador, 2025. direcci
´
on:
https://github.com/cebedio/Clasificaci-n-de-cangrejos.
[21] M. C. Cebedio, L. A. Rabioglio y L. De Mic-
co, “Quantized Generative Autoencoder for Au-
dio Spectrograms”, IEEE Embedded Systems Letters,
p
´
ags. 419-422, jun. de 2025. DOI: 10.1109/LES.2025.
3575372.
[22] Google, QKeras: Quantization Extensions for Keras,
Accessed: Feb. 1, 2025, 2023. direcci
´
on: https://github.
com/google/qkeras.
[23] TensorFlow, TensorFlow Lite for Microcontrollers,
Accessed: Apr. 27, 2025, 2025. direcci
´
on: https : / /
www.tensorflow.org/lite/microcontrollers?hl=es-419.
ISSN 2525-0159
https://elektron.fi.uba.ar
51