Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)

https://doi.org/10.37537/rev.elektron.10.1.227.2026

Original Article

Clasiﬁcaci

on ac

ustica de cangrejos con modelos

neuronales compactos

Acoustic classiﬁcation of crabs with compact neural models

M. Celeste Cebedio

†‡

, Mart

ın Lorusso

, Leonardo Arnone

†‡

, Lucas A. Rabioglio

†‡

, Maximiliano Antonelli

†‡§

ul E. Lopresti

†‡§

, Luciana De Micco

†‡§

y M. Paz Sal Moyano

#§

† Instituto de Investigaciones Cient

ıﬁcas y Tecnol

ogicas en Electr

onica (ICYTE)

‡ Facultad de Ingenier

ıa, Universidad Nacional de Mar del Plata (FI - UNMdP)

§ Consejo Nacional de Investigaciones Cient

ıﬁcas y T

ecnicas (CONICET)

Instituto de Investigaciones Marinas y Costeras (IIMyC)

# FCEyN, Universidad Nacional de Mar del Plata-CONICET

{celestecebedio,leoarn,lucas.rabioglio,maxanto,raul.lopresti,ldemicco,salmoyan@mdp.edu.ar}@ﬁ.mdp.edu.ar

Received: 2025-12-16; Accepted: 2026-03-30

Abstract—This work presents an acoustic classiﬁer based on

neural networks, designed for implementation in a portable

system for the ﬁeld detection and classiﬁcation of signals emitted

by Neohelice granulata and Cyrtograpsus angulatus. From recor-

dings acquired with a hydrophone in a controlled environment,

preﬁltering and adaptive segmentation techniques are applied

to extract 22 acoustic features, which are used to train a low-

dimensional neural network. Compression techniques, such as

quantization, pruning, and knowledge distillation, are employed

to obtain a compact model. Regarding knowledge distillation,

different conﬁgurations of teacher models, segmentation win-

dows, and sampling schemes are analyzed to produce an efﬁcient

model suitable for low-cost microcontrollers. The ﬁnal model is

exported in TensorFlow Lite format, ready for integration into

embedded platforms, achieving an average class accuracy of

83.75 %, while maintaining low CPU and memory requirements

compatible with low-cost embedded systems.

Keywords— Bioacoustics, acoustic classiﬁcation, neural

networks, embedded systems, microcontrollers, knowledge dis-

tillation.

Resumen— En este trabajo se presenta un clasiﬁcador

ustico basado en redes neuronales, dise

nado para su imple-

mentaci

on en un sistema port

atil para la detecci

on y clasiﬁ-

caci

on en campo de se

nales emitidas por Neohelice granulata

y Cyrtograpsus angulatus. A partir de grabaciones adquiridas

con un hidr

ofono en un entorno controlado, se aplican t

ecnicas

de preﬁltrado y segmentaci

on adaptativa para extraer 22

caracter

ısticas ac

usticas, que se utilizan en el entrenamiento

de una red neuronal de baja dimensionalidad. Se emplean

ecnicas de compresi

on, incluyendo cuantizaci

on, pruning y

destilaci

on del conocimiento, para obtener un modelo compacto

y eﬁciente. En particular, se analizan distintas conﬁguraciones

de modelos maestros, ventanas de segmentaci

on y esquemas

de muestreo, con el objetivo de generar un modelo apto para

microcontroladores de bajo costo. El modelo ﬁnal se exporta

en formato TensorFlow Lite, listo para su integraci

on en pla-

taformas embebidas, alcanzando una exactitud promedio entre

clases del 83,75 %, mientras se mantienen bajos requerimientos

de CPU y memoria.

Palabras clave— Bioac

ustica, clasiﬁcaci

on ac

ustica, redes

neuronales, sistemas embebidos, microcontroladores, destilaci

del conocimiento.

I. INTRODUCCI

La bioac

ustica marina ha emergido como una herramienta

poderosa para el estudio y la conservaci

on de la biodiversidad

marina [1]. La Reserva de Mar Chiquita, declarada reserva

Mundial de la Biosfera por la UNESCO, es un ambiente

estuarino de alta riqueza y diversidad biol

ogica [2], [3].

Entre las especies clave de la Albufera se encuentran los

cangrejos Neohelice granulata (Neo) y Cyrtograpsus angula-

tus (Cry). Estos crust

aceos desempe

nan roles fundamentales

como ingenieros del ecosistema: sus actividades de excava-

on modiﬁcan el h

abitat, inﬂuyen en la vegetaci

on y afectan

la disponibilidad de recursos para otras especies. En este

contexto, es de vital importancia el estudio de los sonidos

asociados a su comportamiento [4]. Sin embargo, el an

alisis

manual de grabaciones extensas resulta inviable en estudios

experimentales a gran escala, lo que impulsa la necesidad de

desarrollar m

etodos autom

aticos de detecci

on y clasiﬁcaci

on.

Los recientes avances en inteligencia artiﬁcial (IA) y

procesamiento digital de se

nales abren nuevas posibilidades

para la aplicaci

on de estas herramientas en el estudio de

la biodiversidad [5]. El uso de tecnolog

ıas basadas en IA

representa un campo en r

apida expansi

on dentro de la in-

vestigaci

on biol

ogica [6], [7]. Por ejemplo, en [8] se utilizan

redes convolucionales para clasiﬁcar especies de cangrejos

con resultados prometedores, mientras que en [9] se aplican

redes profundas sobre im

agenes para objetivos similares.

No obstante, un desaf

ıo importante de estas t

ecnicas es su

ISSN 2525-0159

https://elektron.ﬁ.uba.ar

Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)

https://doi.org/10.37537/rev.elektron.10.1.227.2026

Original Article

elevado requerimiento de recursos computacionales, lo que

diﬁculta su implementaci

on en entornos de campo, como

lagunas o zonas costeras, donde el uso de equipos de alto

rendimiento resulta impr

actico y costoso.

Las plataformas embebidas de bajo costo, como el ESP32

[10], [11] y los microcontroladores de la familia STM32

[12], se han consolidado como alternativas viables para la

ejecuci

on de modelos de IA en sistemas port

atiles y de

bajo consumo. Mediante el uso de modelos compactos y

optimizados, estas plataformas permiten la implementaci

de redes neuronales en escenarios de campo, tal como ha

sido reportado en trabajos recientes de TinyML [13].

En este trabajo se aborda el dise

no de una red neuronal

cuantizada y optimizada para su ejecuci

on en plataformas

embebidas de bajo costo. Se parte de grabaciones crudas

adquiridas mediante un hidr

ofono, que posteriormente se

procesan para construir un conjunto de datos etiquetado con

tres clases de se

nales: Neohelice granulata, Cyrtograpsus an-

gulatus y ruido ambiental. En la etapa de preprocesamiento se

eval

uan distintos esquemas de ﬁltrado pasa-banda, as

ı como

ecnicas de reducci

on de la tasa de muestreo y extracci

on de

estad

ısticas simples, con el ﬁn de analizar su impacto en el

desempe

no del clasiﬁcador. Asimismo, se analizan distintas

arquitecturas de red y se emplea destilaci

on del conocimiento

junto con entrenamiento consciente de la cuantizaci

on, con el

objetivo de reducir la complejidad del modelo manteniendo

un rendimiento adecuado. Como resultado, se obtiene un

modelo ﬁnal en formato ligero, listo para su despliegue

directo en una plataforma embebida de bajo costo.

II. DESCRIPCI

ON GENERAL DEL SISTEMA

El proyecto en el que se enmarca este trabajo tiene como

objetivo el desarrollo de un sistema automatizado y de bajo

costo capaz de procesar se

nales ac

usticas provenientes de un

hidr

ofono en tiempo real, detectar la presencia de vocaliza-

ciones de cangrejos y almacenar

unicamente los segmentos

relevantes. Este sistema est

a orientado a la identiﬁcaci

on de

sonidos producidos por Neohelice granulata y Cyrtograpsus

angulatus en entornos con ruido ambiental.

A nivel general, el sistema completo, esquematizado en

la Fig. 1, contempla m

ultiples etapas: adquisici

on de la

nal ac

ustica, ﬁltrado pasa-banda, segmentaci

on temporal,

extracci

on de caracter

ısticas, clasiﬁcaci

on y gesti

on de me-

moria. Dentro de esta arquitectura, el m

odulo de clasiﬁcaci

neuronal cumple un rol central, ya que es el encargado de

determinar la presencia o ausencia de eventos de inter

es y, en

consecuencia, habilitar el almacenamiento de los segmentos

usticos correspondientes.

En este trabajo se aborda espec

ıﬁcamente el desarrollo

del clasiﬁcador neuronal y su ﬂujo de construcci

on, inde-

pendientemente de los mecanismos de adquisici

on y gesti

de memoria, los cuales forman parte de etapas posterio-

res del sistema. En particular, se considera una cadena de

procesamiento compuesta por una etapa de ﬁltrado, seguida

de la segmentaci

on, el preprocesamiento y la extracci

on de

caracter

ısticas, cuyos resultados son utilizados como entrada

del modelo de clasiﬁcaci

on.

Adquisición de

los datos

f_m=300 KHz

Memoria

Gestión de

memoria

Filtrado

3 a 20 KHz

Segmentación Preprocesamiento

Extracción de

características

Clasificador

Neuronal

Sistema de clasificación

Figura 1: Esquema del sistema completo.

Cabe destacar que la arquitectura propuesta desacopla

la etapa de adquisici

on de alta velocidad de la etapa de

clasiﬁcaci

on embebida. Esto se debe, por un lado, a que los

registros ac

usticos de inter

es presentan duraciones del orden

de varios minutos, mientras que el clasiﬁcador opera sobre

ventanas de corta duraci

on utilizadas como mecanismo de

detecci

on. Por otro lado, la tasa de muestreo requerida para

el registro completo (del orden de cientos de kHz) excede las

capacidades de adquisici

on sostenida de microcontroladores

de bajo costo, como el ESP32. En consecuencia, se adopta un

esquema en el cual el clasiﬁcador act

ua como un disparador

que habilita el almacenamiento de la se

nal en alta resoluci

en un sistema externo.

III. ARQUITECTURA FUNCIONAL DEL SISTEMA DE

CLASIFICACI

El sistema de clasiﬁcaci

on completo a implementar opera

de forma continua a partir de las se

nales adquiridas por el

hidr

ofono y se organiza en etapas claramente deﬁnidas.

En primer lugar, la se

nal ac

ustica es adquirida y sometida a

una etapa de ﬁltrado pasa-banda, cuyo objetivo es restringir el

contenido espectral a la banda de inter

es asociada a las voca-

lizaciones de los cangrejos. Esta etapa puede implementarse

mediante un ﬁltro digital en el microcontrolador o mediante

un ﬁltrado anal

ogico previo.

A continuaci

on, la se

nal ﬁltrada se divide en segmentos

temporales sobre los cuales se aplican operaciones de pre-

procesamiento simples, tales como c

alculo de energ

ıa (Root

Mean Square, RMS) o submuestreo, con el ﬁn de reducir la

cantidad de datos y resaltar informaci

on relevante.

Sobre estos segmentos se extrae un conjunto reducido de

caracter

ısticas temporales, mediante el extractor catch22,

que constituyen la entrada del clasiﬁcador neuronal.

A partir de estas caracter

ısticas, la red neuronal determina

la presencia de un evento ac

ustico y, en caso aﬁrmativo,

identiﬁca la especie correspondiente.

El resultado de la clasiﬁcaci

on se utiliza para controlar el

sistema de almacenamiento, de modo que los datos crudos o

los segmentos temporales asociados se guardan

unicamente

cuando se detecta un evento de inter

es. En la Fig. 2 se

presenta un esquema funcional del sistema.

ISSN 2525-0159

https://elektron.ﬁ.uba.ar

Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)

https://doi.org/10.37537/rev.elektron.10.1.227.2026

Original Article

Figura 2: Esquema funcional del sistema completo de clasi-

ﬁcaci

on.

IV. FILTRADO

Especialistas en el

area indican que algunas especies de

cangrejos podr

ıan emitir se

nales con componentes de hasta

150 kHz. Sin embargo, tanto los estudios experimentales

disponibles como el an

alisis emp

ırico realizado en este tra-

bajo muestran que la informaci

on relevante para la detecci

y discriminaci

on se concentra por debajo de 20 kHz. En

consecuencia, se adopta este valor como l

ımite superior para

el procesamiento del sistema de clasiﬁcaci

on.

No obstante, dado que no puede descartarse completa-

mente la presencia de componentes de mayor frecuencia, el

sistema completo prev

e el almacenamiento de las se

nales en

su ancho de banda original, permitiendo su an

alisis posterior

sin p

erdida de informaci

on.

En funci

on de este criterio, se deﬁne una etapa de ﬁltrado

pasa-banda que conserva

unicamente la banda comprendida

entre 3 kHz y 20 kHz, eliminando componentes de baja

frecuencia asociadas al ruido ambiental y de altas frecuencias

irrelevantes para la tarea de clasiﬁcaci

on.

Para su implementaci

on se eval

uan dos enfoques: un

ﬁltrado digital en el microcontrolador y un ﬁltrado anal

ogico

en una etapa externa.

Filtro digital. Se implementa un ﬁltro Butterworth

pasa-banda de sexto orden como ﬁltro IIR, dise

nado

para operar dentro de las restricciones de memoria y ca-

pacidad de c

omputo del microcontrolador. Su respuesta

en frecuencia presenta una atenuaci

on adecuada fuera

de banda y una implementaci

on eﬁciente en t

erminos

de recursos, lo que lo hace compatible con la ejecuci

en tiempo real en hardware embebido.

Filtro anal

ogico. Para reducir la carga de procesamiento

del microcontrolador, se eval

ua un ﬁltrado anal

ogico

mediante la simulaci

on digital de un ﬁltro Butterworth

pasa-banda de d

ecimo orden, implementado como un

IIR en secciones de segundo orden (SOS) y aplicado

con ﬁltrado en fase cero. Este modelado se realiza con el

objetivo de emular el comportamiento esperado de una

implementaci

on anal

ogica equivalente, permitiendo su

comparaci

on directa con el ﬁltrado digital en t

erminos

de desempe

no del clasiﬁcador.

Para analizar el impacto sobre el desempe

no global del

sistema, se realizan simulaciones comparativas entre ambos

ﬁltros, utilizando como se

nal de entrada grabaciones crudas

del sensor, correspondientes a registros ac

usticos de cangrejos

obtenidos en condiciones controladas (v

ease Secci

on V-A).

Para el caso del ﬁltrado anal

ogico, los datos originales fueron

convertidos a formato mono y normalizados antes del ﬁltrado,

de manera de reproducir con ﬁdelidad la acci

on esperada

de un ﬁltro anal

ogico equivalente aplicado en la etapa de

entrada. En la Fig. 3 se muestra la transferencia del ﬁltro

utilizado y en la Fig. 4 la respuesta obtenida.

Figura 3: Respuesta en frecuencia del modelo digital equiva-

lente al ﬁltro anal

ogico pasa-banda Butterworth.

Figura 4: Comparaci

on temporal y espectral de un segmento

de se

nal de cangrejo antes y despu

es del ﬁltrado anal

ogico

simulado (Butterworth pasa-banda de orden 10, 3–20 kHz).

V. DATOS PARA EL ENTRENAMIENTO DE LA RED

V-A. Recolecci

on de los datos para el entrenamiento

La recolecci

on de datos de individuos de ambas especies

de cangrejos se realiza en un entorno controlado de labo-

ratorio, espec

ıﬁcamente en la estaci

on J. J. N

agera de la

Universidad Nacional de Mar del Plata. En este contexto

se registran muestras completas x[n] de dos minutos de

duraci

on, muestreadas a una frecuencia f

= 300 kHz,

utilizando un sistema de adquisici

on Avisoft UltraSoundGate

116h [14] y un hidr

ofono Reson TC4013 [15].

El sistema de adquisici

on utilizado permite registrar un

amplio rango de frecuencias, que cubre el espectro completo

ISSN 2525-0159

https://elektron.ﬁ.uba.ar

Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)

https://doi.org/10.37537/rev.elektron.10.1.227.2026

Original Article

Filtro

Promediador 1

Filtro

Pasabanda

Filtro

Promediador 2

DiscriminadorPotencia

Ventana antipulso Banda de paso Ventana de promediación

Umbral

Extracción

Figura 5: Flujo de procesamiento de se

nales: esquema de detecci

on autom

atica para la extracci

on de segmentos ac

usticos.

de las vocalizaciones de los cangrejos, las cuales pueden

extenderse hasta aproximadamente 150 kHz.

Las grabaciones se realizaron en m

ultiples ensayos inde-

pendientes, involucrando distintos individuos y condiciones

experimentales dentro del entorno controlado. En cada ensa-

yo se registra una

unica especie, conocida a priori, lo que per-

mite asignar etiquetas conﬁables a los segmentos detectados

dentro de cada archivo. Esto permite conformar un conjunto

de datos con variabilidad intraespec

ıﬁca e interespecc

ıﬁca,

ı como diferentes condiciones ac

usticas de fondo, lo cual

resulta relevante para el posterior entrenamiento y evaluaci

del clasiﬁcador.

V-B. Detecci

on de eventos y etiquetado

El esquema de detecci

on autom

atica para la extracci

de segmentos etiquetados que se utilizar

an en la fase de

entrenamiento se ilustra en la Fig. 5. El c

odigo utilizado para

implementar este esquema puede encontrarse en [16].

1. Filtro Promediador 1: promedia una ventana anti-

pulso deslizante de 15 puntos de muestra. Este ﬁl-

tro aten

ua pulsos unitarios que, al pasar por el ﬁl-

tro pasa-banda, generar

ıan respuestas al impulso no

deseadas. La cantidad de muestras de la ventana se

calcula de modo de no afectar la banda de inter

(300 kHz/20 kHz = 15).

2. Filtro Pasa Banda: ﬁltro de muy alto orden con banda

de paso [3 kHz, 20 kHz], que selecciona la regi

espectral donde se concentran las vocalizaciones de

inter

es.

3. C

alculo de potencia: se calcula la potencia instant

anea

de la se

nal ﬁltrada.

4. Filtro Promediador 2: promedia la potencia instant

nea sobre una ventana de 20.000 muestras para estabi-

lizar el piso de ruido y suavizar las variaciones r

apidas,

facilitando la aplicaci

on de un umbral.

5. Discriminador: la potencia promediada se compara

con un umbral adaptativo, generando una se

nal binaria

que marca la presencia de eventos ac

usticos relevantes.

Los intervalos donde el discriminador se activa se utilizan

para recortar segmentos de se

nal. Este esquema permite

identiﬁcar autom

aticamente la presencia de eventos ac

usti-

cos relevantes, separ

andolos del fondo. Cada segmento se

etiqueta a partir de la informaci

on experimental asociada a

cada grabaci

on: dado que los ensayos se realizan en entornos

controlados donde se conoce a priori la especie presente, los

segmentos detectados se clasiﬁcan como Neo o Cry seg

corresponda. Por su parte, los intervalos en los que no se

detectan eventos se consideran como ruido. De este modo, se

genera un conjunto de datos equilibrado que combina tanto

vocalizaciones como fragmentos de ruido ambiental. Estos

son los datos que se utilizar

an para entrenar la red neuronal,

en concordancia con la arquitectura prevista para el sistema

ﬁnal (sensor + ﬁltrado + preprocesamiento + red).

En la Fig. 6 se observa parte del proceso de la detecci

de los segmentos a partir del umbral aplicado sobre la

potencia promediada. Dado que los eventos de inter

es no

tienen una duraci

on ﬁja, la ventana temporal que deﬁne

cada segmento es variable y depende de la activaci

on del

discriminador. La ﬁgura es una captura en donde se muestra

el espectrograma de un segmento del archivo de audio que

incluye tres vocalizaciones y la se

nal resultante de potencia

promediada en amplitud.

Para ilustrar la eﬁciencia que puede aportar un sistema de

detecci

on selectiva, en la Tabla I se presenta el porcentaje de

informaci

util por archivo de audio analizado, considerando

que la duraci

on promedio de cada evento ac

ustico es de

29.000 muestras.

Tabla I: Resumen de grabaciones y segmentos de inter

es,

incluyendo el porcentaje de informaci

util. Cada segmento

tiene una duraci

on promedio de 29.000 muestras.

Especie Neohelice granulata Cyrtograpsus angulatus

Archivos 805 59

Segm.

utiles 4.728 941

util 0,95 % 1,29 %

Hs. totales 13,42 1,97

Hs.

utiles 0,127 0,025

V-C. Emulaci

on del ﬁltrado

Dado que la arquitectura a embeber incluir

a una etapa de

ﬁltrado en tiempo real, se aplican por separado los dos ﬁltros

propuestos sobre los segmentos previamente recortados y

etiquetados. De este modo se generan dos conjuntos de datos

independientes, cada uno correspondiente a una alternativa

de ﬁltrado, lo que permite emular el efecto que tendr

ıa cada

opci

on y evaluar su impacto sobre el desempe

no de la red.

V-D. Segmentaci

on y preprocesamiento

A partir de los segmentos previamente detectados y eti-

quetados, se construyen las instancias de entrada para el

ISSN 2525-0159

https://elektron.ﬁ.uba.ar

Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)

https://doi.org/10.37537/rev.elektron.10.1.227.2026

Original Article

Figura 6: Captura con tres vocalizaciones. Arriba, el espectro-

grama de una muestra completa y abajo su correspondiente

potencia promediada y umbral de comparaci

on. El eje ori-

zontal est

a en segundos y es compartido por ambas ﬁguras;

el eje vertical del espectrograma est

a en Hz y el de potencia

en dB.

entrenamiento del clasiﬁcador. Dado que estos segmentos

suelen ser m

as largos de lo necesario para la clasiﬁcaci

on,

se subdividen en ventanas temporales m

as cortas. Antes

de la segmentaci

on, se aplican estrategias de reducci

on de

datos para disminuir la tasa de muestreo efectiva y la di-

mensionalidad de las se

nales, evaluando distintos factores

de submuestreo. Sobre cada bloque resultante se realizan

operaciones de agregaci

on, como promediado por bloques

y c

alculo del valor eﬁcaz en ventanas no superpuestas, que

permiten reducir la cantidad de datos y resaltar diferentes

propiedades de la se

nal. Finalmente, la se

nal procesada se

segmenta en ventanas de longitud ﬁja, sobre las cuales se

extraen las caracter

ısticas que alimentan al clasiﬁcador. De

esta manera es posible analizar combinaciones de tama

de ventana, submuestreo y preprocesamiento, evaluando su

efecto sobre el desempe

no del sistema y su viabilidad para

identiﬁcar especies a partir de segmentos breves, un requisito

importante para la implementaci

on en tiempo real sobre

hardware embebido.

V-E. Extracci

on de caracter

ısticas

A partir de los segmentos ﬁltrados se extraen carac-

ter

ısticas temporales mediante el extractor catch22 [17],

obteniendo vectores de 22 atributos para cada fragmento.

La elecci

on de catch22 permite generar un vector ﬁjo

de 22 caracter

ısticas aun cuando los eventos ac

usticos no

poseen una duraci

on constante, lo que resulta especialmente

relevante en el caso de los sonidos producidos por los can-

grejos. Esta propiedad posibilita obtener una representaci

compacta y homog

enea de cada fragmento sin requerir que

la ventana de an

alisis capture el evento completo ni imponer

una estructura temporal uniforme en todos los segmentos.

Adem

as, aten

ua la sensibilidad al alineamiento exacto del

evento dentro de la ventana. Dado que sus descriptores se

basan en propiedades estad

ısticas de corto y mediano plazo,

es posible capturar rasgos representativos incluso cuando el

evento se encuentra parcialmente contenido o desplazado

dentro del segmento. Esto resulta especialmente

util en la

implementaci

on en tiempo real, donde el dispositivo procesa

ventanas de longitud ﬁja y los eventos ac

usticos pueden

aparecer fragmentados, incompletos o distribuidos de manera

irregular.

VI. CLASIFICADOR

La construcci

on del clasiﬁcador se aborda como un ﬂujo

de trabajo que comprende la preparaci

on de los datos, el

entrenamiento del modelo, la validaci

on de su desempe

y la posterior exportaci

on a c

odigo en lenguaje C para

su ejecuci

on en un microcontrolador. Cabe destacar que

esta secci

on no describe una implementaci

on espec

ıﬁca del

sistema ni decisiones de dise

no a nivel arquitectural, sino el

proceso metodol

ogico seguido para el desarrollo del modelo

de clasiﬁcaci

on.

1. Preparaci

on del conjunto de datos. En esta etapa se

realizan los ajustes necesarios sobre los datos para el

correcto entrenamiento de la red, incluyendo balanceo,

normalizaci

on y cuantizaci

on.

2. Dise

no de la red neuronal. Se desarrolla una red

neuronal cuantizada y de baja complejidad, con el

objetivo de minimizar el uso de recursos y permitir su

ejecuci

on eﬁciente en plataformas embebidas de bajo

costo. Esta red constituye el modelo estudiante.

3. Entrenamiento mediante destilaci

on del conocimien-

to. Se deﬁne un modelo neuronal de mayor comple-

jidad y no cuantizado, denominado maestro, que se

entrena para maximizar el desempe

no. Posteriormente,

su conocimiento se transﬁere al modelo estudiante

mediante t

ecnicas de destilaci

on.

4. Preparaci

on para la implementaci

on embebida. El

modelo estudiante, ya entrenado y optimizado, se

convierte al formato TensorFlow Lite y se cuantiza

en int8. En esta etapa se eval

uan su precisi

on y

sus requerimientos de memoria y c

omputo, veriﬁcando

su compatibilidad con un microcontrolador de bajos

recursos.

Estas fases constituyen un proceso iterativo orientado a

optimizar el equilibrio entre el uso de recursos y la precisi

del modelo. En este contexto, la construcci

on del conjunto

de datos incluye la exploraci

on de distintas combinaciones de

tama

no de ventana, factores de submuestreo y estrategias de

ISSN 2525-0159

https://elektron.ﬁ.uba.ar

Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)

https://doi.org/10.37537/rev.elektron.10.1.227.2026

Original Article

preprocesamiento, as

ı como la evaluaci

on de ﬁltros digitales

y anal

ogicos simulados. Cada una de estas variantes se eval

en funci

on de su efecto tanto en el rendimiento durante el

entrenamiento como en el desempe

no ﬁnal sobre los datos

de prueba. En paralelo, en la etapa de dise

no de la red se

analizan distintas arquitecturas de clasiﬁcadores, buscando

la mejor relaci

on entre complejidad y exactitud. El ﬂujo de

trabajo correspondiente se presenta en la Fig. 7.

Modelo

Modelo Cuantizado.

Método y Estrategia de

entrenamiento

Procesamiento

Procesamiento de las señales

acústicas y extracción de

características con Catch22

Modelo Lite

Convertir modelo a

formato adecuado para

implementación

Python - Tensor Flow

Evaluación

Inferencia

Simulada

(TFLite)

Datos de

Test

Datos de

Train

C++

Proceso

Iterativo

Figura 7: Flujo de trabajo general al que ingresan las se

nales

provenientes del sensor, ya ﬁltradas.

VI-A. Balanceo, normalizaci

on y cuantizaci

Los vectores extra

ıdos se balancean para evitar sesgos

entre las tres clases. Para las clases de cangrejos se ajusta el

umero de vectores de la clase con menor cantidad de datos,

mientras que para la clase de ruido se extraen fragmentos de

las mismas grabaciones de cangrejos, de manera que todas

las clases tengan una representaci

on equivalente.

A partir de estos vectores se generan los conjuntos de

entrenamiento (Train), validaci

on (Val) y prueba (Test). La

partici

on del dataset se realiza a nivel de experimento, es

decir, la unidad de partici

on corresponde a cada experimento

completo (incluyendo todos sus archivos de audio y los

segmentos derivados de los mismos). De esta forma, los

experimentos asignados al conjunto de prueba no comparten

ning

un archivo ni segmento con los utilizados en entrena-

miento o validaci

on.

En consecuencia, todos los segmentos pertenecientes a un

mismo experimento se asignan exclusivamente a uno de los

subconjuntos (Train, Val o Test), evitando la presencia de

segmentos correlacionados en distintos conjuntos y descar-

tando posibles fugas de informaci

on. Esto garantiza que el

conjunto de prueba represente condiciones experimentales

completamente no vistas durante el entrenamiento. Adem

as,

en el sistema ﬁnal, las se

nales de entrada provienen de un

convertidor anal

ogico–digital (Analog-to-Digital Converter,

ADC) y solo est

an disponibles como n

umeros enteros de 8

bits. Para que el modelo se entrene y eval

ue bajo condiciones

similares a las del hardware, los datos se normalizan al

intervalo [0,1] y se cuantizan uniformemente, reproduciendo

ı las limitaciones de precisi

on impuestas por la entrada real

del sistema.

VI-B. Dise

no de la red neuronal

El modelo de la red seleccionada para su implementaci

se presenta en la Tabla II. Se trata de una red neuronal

cuantizada y de baja complejidad, con un n

umero reducido

de capas, que en las etapas posteriores se denomina estu-

diante. Esta baja demanda de recursos asegura su adecuada

implementaci

on en hardware de recursos limitados.

Tabla II: Arquitectura de la red estudiante. Siendo: kernelQ =

quantized bits(8, 2, α=1), biasQ = quantized bits(8, 2, α=1),

activationQ = quantized bits(8, 2).

Capa Salida # Par

ametros

QActivation (None, 22) 0

fc1 (QDense) (None, 32) 736

relu1 (QActivation) (None, 32) 0

fc2 (QDense) (None, 16) 528

relu2 (QActivation) (None, 16) 0

fc3 (QDense) (None, 8) 136

relu3 (QActivation) (None, 8) 0

output (QDense) (None, 3) 27

softmax (Activation) (None, 3) 0

Par

ametros totales 1.427

VI-C. Entrenamiento

El m

etodo de entrenamiento adoptado es la Destilaci

on de

Conocimiento [18], la cual permite alcanzar un desempe

elevado mediante el uso de modelos de baja complejidad.

En este enfoque, el conocimiento aprendido por un modelo

de mayor capacidad (modelo maestro) se transﬁere a un

modelo m

as simple (modelo estudiante), favoreciendo una

mejor generalizaci

on sin incrementar signiﬁcativamente los

requerimientos computacionales. En la Fig. 8 se muestra un

esquema de este tipo de entrenamiento.

Figura 8: Esquema de entrenamiento por destilaci

on del

conocimiento

VI-C1. Elecci

on de red maestro: Con el objetivo de ana-

lizar el impacto de distintas arquitecturas de redes neuronales,

se eval

uan diferentes modelos, incluyendo una red neuronal

profunda totalmente conectada, una red convolucional y

arquitecturas basadas en Temporal Convolutional Networks

(TCN) [19]. La selecci

on de estas arquitecturas responde

a la comparaci

on entre un modelo cl

asico, un modelo ba-

sado en convoluciones que captura correlaciones locales, y

una arquitectura dise

nada espec

ıﬁcamente para el modelado

de secuencias temporales mediante convoluciones causales

y dilatadas. En particular, se consideran tanto una TCN

est

andar como una TCN profunda. Los c

odigos desarrollados

y las caracter

ısticas exactas de cada modelo se encuentran

disponibles en [20]. El modelo maestro se entrena de manera

ISSN 2525-0159

https://elektron.ﬁ.uba.ar

Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)

https://doi.org/10.37537/rev.elektron.10.1.227.2026

Original Article

Tabla III: Resumen de arquitecturas de modelos ”Maestro ”propuestos

Modelo Tipo Entrada Componentes principales Regularizaci

Modelo 1 MLP (Fully Connected) Vector (22) Dense (64-32-16-8) + BN Dropout (0.2, 0.1), L2

Modelo 2 CNN 1D Secuencia (22,1) Conv1D (32-64-64-128) + Pooling + Dense BatchNorm, Dropout (0.3), L2

Modelo 3 TCN (Residual) Secuencia (22,1) Bloques residuales dilatados (1,2,4,8) + Dense Dropout (0.3)

Modelo 4 TCN + Atenci

on Secuencia (22,1) Bloques residuales (1–16) + MultiHeadAttention + GAP Dropout (0.4), LayerNorm

supervisada utilizando los vectores de caracter

ısticas etiqueta-

dos correspondientes al conjunto de entrenamiento, mientras

que el conjunto de validaci

on se emplea para monitorear el

desempe

no y seleccionar las conﬁguraciones m

as adecuadas.

VI-C2. Entrenamiento del Estudiante: Por su parte, el

estudiante (el modelo cuantizado destinado a la implemen-

taci

on en hardware) aprende a replicar el comportamiento

del maestro. Es importante destacar que el entrenamiento

es consciente de la cuantizaci

on (QAT). En este esquema,

el entrenamiento del estudiante se realiza utilizando una

combinaci

on de la informaci

on provista por las etiquetas

reales y las salidas del modelo maestro, permitiendo transferir

el conocimiento aprendido por este

ultimo. De esta manera,

el estudiante no solo ajusta sus par

ametros para predecir

correctamente las clases, sino tambi

en para aproximar la

distribuci

on de probabilidad generada por el maestro. Los

detalles espec

ıﬁcos de implementaci

on, incluyendo la conﬁ-

guraci

on de hiperpar

ametros y las caracter

ısticas particulares

de cada arquitectura, se encuentran disponibles en [20].

VII. RESULTADOS DEL ENTRENAMIENTO

Previo a la presentaci

on de los resultados, se eval

uan

distintas alternativas para el esquema de ﬁltrado aplicado a las

nales; sin embargo, no se observan diferencias signiﬁcativas

en el desempe

no de los modelos entrenados bajo ambos

enfoques. Dado que el an

alisis comparativo del impacto del

tipo de ﬁltrado no constituye el foco de este trabajo, y

con el objetivo de simpliﬁcar el esquema de procesamiento,

en los experimentos presentados a continuaci

on se utiliza

indistintamente uno de los esquemas de ﬁltrado evaluados.

Los resultados obtenidos del entrenamiento de las dife-

rentes arquitecturas del modelo maestro, presentadas en la

Tabla III, se muestran en la Tabla IV. A partir de estos

resultados, se seleccionan los modelos candidatos para su

posterior utilizaci

on en el proceso de destilaci

on.

Cabe destacar que, durante los experimentos, se emplean

distintas estrategias de muestreo y tama

nos de ventana. Si

bien la frecuencia de muestreo original de las se

nales es

de 300 kHz, la banda de inter

es se encuentra limitada a

frecuencias inferiores a 20 kHz; en consecuencia, se emula

un proceso de submuestreo equivalente al uso de un ADC con

menor frecuencia de adquisici

on. Adicionalmente, se aplican

distintas estrategias de procesamiento posterior al submues-

treo, incluyendo el c

alculo de descriptores estad

ısticos como

el valor RMS.

Los resultados presentados en la Tabla IV indican que

los candidatos m

as prometedores a maestro son aquellos

modelos entrenados con un submuestreo de factor 16 y sin

la aplicaci

on de operaciones aritm

eticas adicionales. Este

Tabla IV: Resultados de entrenamiento para distintas estra-

tegias y modelos del conjunto maestro. Modelos: 1=Red

profunda, 2=Red convolucional, 3=Red TCN, 4=Red TCN

profunda. Datos: 0,9/0,2/0,1 (Train/Val/Test).

Ventana

Submuestreo /

Post-proc.*

Datos Accuracy Val Accuracy Modelo #

1024

16 / —

[2823 x 22] 91 % 90 % 1

1024

16 / —

[2823 x 22] 98 % 89 % 2

1024

16 / —

[2823 x 22] 100 % 88 % 3

1024

16 / —

[2823 x 22] 88 % 88 % 4

1024

2 / RMS4

[6664 x 22] 79 % 78 % 1

1024

2 / RMS4

[6664 x 22] 91 % 78 % 2

1024

2 / RMS4

[6664 x 22] 97 % 75 % 3

1024

2 / RMS4

[6664 x 22] 95 % 75 % 4

1024

4 / RMS4

[2823 x 22] 79 % 78 % 1

1024

4 / RMS4

[2823 x 22] 91 % 78 % 2

1024

4 / RMS4

[2823 x 22] 97 % 75 % 3

1024

4 / RMS4

[2823 x 22] 95 % 75 % 4

1024

8 / RMS2

[2823 x 22] 81 % 78 % 1

1024

8 / RMS2

[2823 x 22] 96 % 80 % 2

1024

8 / RMS2

[2823 x 22] 99 % 82 % 3

1024

8 / RMS2

[2823 x 22] 99 % 81 % 4

512

16 / —

[6664 x 22] 81 % 82 % 1

512

16 / —

[6664 x 22] 85 % 81 % 2

512

16 / —

[6664 x 22] 93 % 81 % 3

512

16 / —

[6664 x 22] 95 % 80 % 4

512

8 / —

[14637 x 22] 76 % 77 % 1

512

8 / —

[14637 x 22] 85 % 76 % 2

512

8 / —

[14637 x 22] 89 % 75 % 3

512

8 / —

[14637 x 22] 89 % 75 % 4

512

4 / —

[30278 x 22] 72 % 72 % 1

512

4 / —

[30278 x 22] 72 % 73 % 2

512

4 / —

[30278 x 22] 85 % 70 % 3

512

4 / —

[30278 x 22] 81 % 70 % 4

512

2 / RMS4

[14637 x 22]

512

2 / RMS4

[14637 x 22] 55 % 55 % 1

512

2 / RMS4

[14637 x 22]

512

2 / RMS8

[6664 x 22]

512

2 / RMS8

[6664 x 22] 79 % 63 % 1

512

2 / RMS8

[6664 x 22]

Nota: *Post-proc. se reﬁere a operaciones aplicadas despu

es del

submuestreo. RMSX indica c

alculo del valor eﬁcaz (RMS) sobre

bloques de X muestras.

comportamiento sugiere que la informaci

on discriminativa

relevante para la tarea de clasiﬁcaci

on se preserva a

un bajo

esquemas de submuestreo agresivos, lo cual podr

ıa estar

asociado a la concentraci

on del contenido espectral

util en

bajas frecuencias. Este aspecto ser

a analizado con mayor

detalle en la Secci

on X. Por otro lado, se observa que las

arquitecturas m

as complejas no aportan mejoras signiﬁcativas

en la performance del modelo maestro. A partir de esta

selecci

on, se procede a la destilaci

on del conocimiento hacia

el modelo estudiante, realizando ajustes ﬁnos en par

ametros

como el tama

no del batch y la tasa de destilaci

on, utilizando

como maestro el modelo m

as simple (modelo #1).

En la Fig. 9 se presentan los resultados obtenidos tras

el proceso de entrenamiento. La precisi

on alcanzada por el

modelo maestro para los datos de validaci

on es de 90 %,

mientras que el modelo estudiante cuantizado logra una

ISSN 2525-0159

https://elektron.ﬁ.uba.ar

Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)

https://doi.org/10.37537/rev.elektron.10.1.227.2026

Original Article

precisi

on para los datos de validaci

on de 83 %. La tasa de

aprendizaje se ajusta utilizando la t

ecnica de decaimiento

en pasos (Step Decay), donde la tasa se reduce de forma

escalonada; se emplea un tama

no de batch de 30 y una tasa

de destilaci

on de 0,7.

Figura 9: Precisi

on del modelo cuantizado (estudiante) du-

rante el proceso de entrenamiento.

VIII. IMPLEMENTACI

El modelo se entrena utilizando QKeras, una extensi

de Keras/TensorFlow que permite simular los efectos de la

cuantizaci

on mediante capas espec

ıﬁcas (QDense, QActiva-

tion), y funciones de cuantizaci

on como quantized_bits

[21], [22]. Aunque el entrenamiento se realiza en punto

ﬂotante, esta simulaci

on permite que la red aprenda a fun-

cionar bajo las restricciones num

ericas que impondr

ıa una

implementaci

on en baja precisi

on, anticipando las posibles

erdidas de desempe

no. Dado que TensorFlow Lite no es

compatible directamente con QKeras, los pesos entrenados

deben transferirse a un modelo equivalente implementado en

Keras convencional. Este modelo se convierte posteriormente

al formato .tflite, que constituye el archivo ﬁnal utilizado

para la ejecuci

on del clasiﬁcador en el microcontrolador

mediante TensorFlow Lite Micro.

Considerando las limitaciones de las plataformas objetivo,

se prioriza la cuantizaci

on y el dise

no de arquitecturas

compactas, no as

ı el pruning, ya que no ofrece beneﬁcios

signiﬁcativos en t

erminos de memoria o latencia en micro-

controladores convencionales. En este contexto, se aplica

una cuantizaci

on entera posterior al entrenamiento (post-

training quantization, INT8) utilizando la herramienta oﬁcial

de TensorFlow Lite [23]. A diferencia del enfoque simulado

de QKeras, esta etapa transforma realmente los pesos y las

activaciones a valores enteros de 8 bits, reduciendo tanto

el tama

no del modelo como el uso de memoria durante la

inferencia. Para garantizar una cuantizaci

on precisa, se utiliza

un conjunto representativo de datos que permite calibrar

autom

aticamente los par

ametros de escala y punto cero de

cada tensor.

Durante la inferencia, el modelo espera recibir entradas

escaladas al mismo rango utilizado durante la calibraci

on.

Dado que los datos reales provienen de un ADC y se

representan como enteros sin signo de 8 bits, se incorpora una

etapa de escalado que ajusta estos valores al rango requerido

por el modelo en int8. Los par

ametros necesarios para este

escalado son provistos autom

aticamente por la herramienta de

conversi

on a TensorFlow Lite, lo cual asegura la coherencia

entre las etapas de entrenamiento, cuantizaci

on y ejecuci

en hardware.

La salida del modelo es una predicci

on de clase, que indica

si el fragmento de audio corresponde a Neohelice granulata,

Cyrtograpsus angulatus o ruido ambiental.

IX. RESULTADOS OBTENIDOS

En la Fig. 10 se muestran las matrices de confusi

on corres-

pondientes al modelo cuantizado y al modelo convertido al

formato TFLite. Estas matrices se obtienen evaluando ambos

modelos sobre el conjunto de datos de prueba, separado

previamente para garantizar que no hayan tenido acceso a

estos datos durante el entrenamiento. Las precisiones alcan-

zadas sobre el conjunto de prueba son del 83,75 % tanto para

el modelo cuantizado como para el modelo implementado

mediante TFLite.

Etiqueta verdadera

Etiqueta predicha

(a) Modelo cuantizado.

Etiqueta verdadera

Etiqueta predicha

(b) Modelo ﬁnal.

Figura 10: Comparaci

on de las matrices de confusi

on obte-

nidas para el modelo cuantizado y para la simulaci

on de su

implementaci

on sobre un microcontrolador.

La inferencia del modelo ﬁnal se realiza utilizando la API

Interpreter de TensorFlow Lite. Esta API permite ejecutar

el modelo TFLite en un entorno de Python, emulando las

condiciones de ejecuci

on que luego se tendr

an en el mi-

crocontrolador. En este caso particular, el modelo emplea

cuantizaci

on int8, con escala 0,0039215 y punto cero −128,

mapeando el rango real al intervalo entero [−128, 127].Bajo

esta conﬁguraci

on, el modelo presenta una ocupaci

on de

1,41 kB de memoria RAM asociada a los tensores durante la

inferencia, mientras que el tama

no del modelo almacenado

es de 4,15 kB.

X. AN

ALISIS DE LOS RESULTADOS OBTENIDOS

Determinar el impacto de cada bloque del sistema sobre

el uso de recursos y el desempe

no global en una plata-

forma embebida de bajo costo es de suma relevancia para

la implemetaci

on. La Tabla V resume una estimaci

on del

consumo de memoria y c

omputo asociado a cada uno de

los bloques principales del sistema. A partir de estos valores

se establece el peso relativo de cada etapa dentro de la

arquitectura propuesta y se identiﬁcan los componentes m

exigentes en t

erminos de recursos.

ISSN 2525-0159

https://elektron.ﬁ.uba.ar

Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)

https://doi.org/10.37537/rev.elektron.10.1.227.2026

Original Article

Tabla V: Estimaci

on de recursos requeridos por cada bloque sobre un microcontrolador con 520 kB RAM y 4 MB Flash.

Bloque Flash [kB] RAM [kB] Uso de CPU Porcentaje del recurso

Filtro Butterworth 6º orden (3 SOS) – 0.10 3–5 % <0.01 % Flash, 0.02 % RAM

Extracci

on de caracter

ısticas (catch22) ≈15 ≈5 15–25 % 1.0 % Flash, 1.0 % RAM

Clasiﬁcador TFLite (int8) 4.46 1.48 <1 % 0.1 % Flash, 0.3 % RAM

Las estimaciones reportadas en la Tabla V se obtuvieron

mediante una combinaci

on de herramientas de simulaci

on y

alisis directo de implementaci

on. En el caso del clasiﬁ-

cador, el consumo de memoria (Flash y RAM) se obtuvo a

partir de la herramienta TensorFlow Lite, que proporciona

autom

aticamente el tama

no del modelo y la asignaci

on de

tensores durante la inferencia. Para la etapa de extracci

on de

caracter

ısticas (catch22), los valores se estimaron a partir de

su implementaci

on en C, considerando tanto el tama

no del

odigo compilado como la memoria necesaria para buffers

intermedios. En el caso del ﬁltrado digital, los requerimientos

de memoria y c

omputo se estimaron anal

ıticamente a partir

de la estructura del ﬁltro IIR, teniendo en cuenta la cantidad

de secciones de segundo orden y las variables de estado

asociadas. El uso de CPU se aproxim

o en funci

on del n

umero

de operaciones por muestra y fue contrastado mediante per-

ﬁles de ejecuci

on en plataformas embebidas representativas.

La referencia a un microcontrolador con 520 kB de RAM

y 4 MB de Flash corresponde a una conﬁguraci

on t

ıpica

dentro de la familia STM32 (por ejemplo, dispositivos de la

serie STM32F4), comparable con plataformas ampliamente

utilizadas como ESP32. El objetivo de esta referencia es

validar la viabilidad del sistema en hardware de bajo costo,

as que apuntar a un dispositivo espec

ıﬁco. En este sentido,

los valores reportados deben interpretarse como estimaciones

de orden de magnitud orientadas al dise

no del sistema.

En la Tabla V se observa que la etapa de extracci

de caracter

ısticas mediante catch22 constituye el bloque

as costoso del sistema en t

erminos de memoria y uso de

CPU. Esta etapa requiere aproximadamente 15 kB de Flash,

5 kB de RAM y entre un 15 % y un 25 % del tiempo de

procesamiento, superando ampliamente a los requerimientos

del ﬁltrado y del clasiﬁcador cuantizado.

En contraste, el ﬁltrado digital presenta un impacto m

ınimo

sobre los recursos del sistema. El ﬁltro Butterworth pasa-

banda de sexto orden requiere del orden de 100 bytes de

memoria y un uso de CPU inferior al 5 %, lo que conﬁrma

que su implementaci

on directa en el microcontrolador resulta

viable y no constituye un factor limitante. En t

erminos

de desempe

no del clasiﬁcador, no se observan diferencias

signiﬁcativas entre el uso de ﬁltrado digital y anal

ogico, tal

como se evidenci

o en las simulaciones comparativas realiza-

das. Por otra parte, dado que el ﬁltrado digital presenta un

impacto m

ınimo en el uso de recursos del microcontrolador

(Tabla IV), su implementaci

on resulta suﬁciente dentro del

esquema propuesto.

Asimismo, el an

alisis presentado en esta secci

on respecto

del ﬁltrado se centra exclusivamente en su impacto en los

recursos del sistema embebido y en la viabilidad de su

implementaci

on, y no en una comparaci

on exhaustiva entre

distintas t

ecnicas de ﬁltrado. En este sentido, las considera-

ciones realizadas tienen como objetivo justiﬁcar la elecci

de una soluci

on compatible con las restricciones de hardware

sin afectar el desempe

no del clasiﬁcador.

En relaci

on con el submuestreo considerado durante la

etapa de entrenamiento, se observa que una tasa efectiva equi-

valente a 300 kHz/16 resulta compatible con las prestaciones

de un microcontrolador de bajo costo, cumpliendo con las

restricciones de hardware de recursos limitados. Si bien esta

frecuencia no satisface estrictamente el criterio de Nyquist

para toda la banda de inter

es (0–20 kHz), el submuestreo con

factor 16 proporciona el mejor desempe

no del clasiﬁcador en

las pruebas realizadas. Cabe se

nalar que el criterio de Nyquist

garantiza la reconstrucci

on ﬁel de una se

nal original, pero

no constituye un requisito estricto en tareas de clasiﬁcaci

on,

donde el objetivo es preservar informaci

on discriminativa

y no la forma exacta de la se

nal. En este contexto, el

submuestreo con factores elevados introduce aliasing; sin

embargo, dicha transformaci

on no implica necesariamente

la p

erdida de las caracter

ısticas relevantes para distinguir

entre clases. Esto sugiere que la informaci

on discriminativa

de los eventos ac

usticos de inter

es se encuentra concentrada

en componentes espectrales que se preservan incluso bajo

un submuestreo agresivo, permitiendo una representaci

suﬁciente para la tarea de clasiﬁcaci

on. En este esquema,

el almacenamiento del dato ac

ustico completo puede reali-

zarse mediante un sistema de adquisici

on externo de mayor

velocidad, desacoplando la etapa de clasiﬁcaci

on en tiempo

real del proceso de registro de alta resoluci

on.

Respecto del dise

no del modelo maestro utilizado para la

destilaci

on del conocimiento, se observa que arquitecturas

de mayor complejidad logran un desempe

no ligeramente

superior sobre los datos de entrenamiento, pero no producen

mejoras signiﬁcativas en los resultados de validaci

on. Este

comportamiento indica que el aumento de complejidad no se

traduce en una mejor capacidad de generalizaci

on y sugiere la

existencia de un l

ımite impuesto por la calidad y la naturaleza

del conjunto de datos disponible.

En relaci

on con la composici

on del conjunto de datos, se

observa una menor disponibilidad de registros correspondien-

tes a la especie Cyrtograpsus angulatus, lo que se traduce en

una menor cantidad de eventos

utiles respecto de otras clases.

Aunque el balanceo asegura que la cantidad de eventos sea

igualitaria.

Finalmente, si bien la red neuronal representa concep-

tualmente la etapa m

as compleja del sistema, su versi

cuantizada presenta una carga computacional muy reducida.

El clasiﬁcador ﬁnal cuenta con 1.427 par

ametros y requiere

menos del 1 % de uso de CPU, lo que lo vuelve pr

acticamente

despreciable desde el punto de vista computacional. En

ISSN 2525-0159

https://elektron.ﬁ.uba.ar

Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)

https://doi.org/10.37537/rev.elektron.10.1.227.2026

Original Article

consecuencia, se establece que el consumo de recursos del

sistema se encuentra dominado por la extracci

on de carac-

ter

ısticas, mientras que el ﬁltrado digital y la clasiﬁcaci

no introducen restricciones relevantes para la operaci

on en

tiempo real.

XI. CONCLUSIONES Y TRABAJO FUTURO

Los resultados obtenidos muestran que el modelo desa-

rrollado presenta un uso de recursos altamente eﬁciente,

resultando adecuado para su integraci

on en un sistema em-

bebido de bajo costo. El entrenamiento realizado a partir de

nales adquiridas con el sensor real, posteriormente ﬁltradas

y segmentadas en las tres clases de inter

es (Neo, Cry y ruido),

garantiza una adecuada correspondencia entre las condiciones

de laboratorio y el escenario operativo previsto.

La exactitud promedio alcanzada del 83,75 % resulta ade-

cuada para la aplicaci

on propuesta, cuyo objetivo principal es

reducir la carga de grabaci

on en campo mediante la detecci

selectiva de eventos ac

usticos relevantes. En este contexto,

el sistema act

ua como un ﬁltro inteligente previo al an

alisis

posterior por parte de un operador humano.

Asimismo, el an

alisis de los archivos de audio evidencia

que solo el 1,12 % del total de los datos contiene informaci

relevante, lo que resalta la ventaja de implementar un clasi-

ﬁcador embebido capaz de detectar y almacenar

unicamente

dichos segmentos.

Un aspecto relevante de la implementaci

on embebida es

que el clasiﬁcador puede operar con una frecuencia de

muestreo efectiva 16 veces menor y con ventanas de tan

solo 1024 muestras, lo que lo hace totalmente compatible

con microcontroladores de muy bajos recursos. Esto permite

realizar la detecci

on de eventos de cangrejo de manera

eﬁciente sin comprometer la capacidad de memoria del

sistema principal. La parte m

as cr

ıtica recae en la gesti

de memoria externa, donde se utiliza un buffer de mayor

tama

no (aproximadamente 16.500 muestras) para almacenar

temporalmente los eventos completos antes de transferirlos

a memoria externa. Este enfoque asegura que los eventos

completos se preserven para su an

alisis posterior, mientras

que la etapa de clasiﬁcaci

on se mantiene altamente eﬁciente

y liviana en t

erminos de recursos computacionales.

En esta misma l

ınea, se plantea la ampliaci

on del conjunto

de datos, especialmente en lo que respecta a la especie

Cyrtograpsus angulatus, con el objetivo de incrementar la

variabilidad intraclase disponible y mejorar la evaluaci

on de

la capacidad de generalizaci

on del modelo.

Como trabajo futuro, se prev

e ampliar la evaluaci

on del

modelo incorporando m

etricas adicionales m

as all

a de la

matriz de confusi

on. En particular, resulta de inter

es el costo

esperado normalizado (CEN), una de las pocas m

etricas

consistentes en problemas de clasiﬁcaci

on arbitrarios. No

obstante, su aplicaci

on requiere la deﬁnici

on de costos asocia-

dos a los errores en un escenario real, por lo que se abordar

en etapas posteriores de validaci

on en campo.

Paralelamente, se avanzar

a en la implementaci

on integral

del sistema en el dispositivo embebido, incluyendo la ad-

quisici

on en tiempo real y su validaci

on experimental en

condiciones reales de operaci

on.

Finalmente, se identiﬁc

o que la etapa de extracci

on de

caracter

ısticas mediante catch22 constituye el componente

as costoso en t

erminos de recursos. En consecuencia, se

explorar

an alternativas m

as livianas basadas en estad

ısticas

simples o transformaciones optimizadas para hardware, con

el objetivo de reducir el uso de memoria y c

omputo sin

degradar signiﬁcativamente el desempe

no del sistema.

DECLARACI

ON DE DISPONIBILIDAD DE DATOS

Los datos que respaldan los resultados de este estudio

est

an disponibles a partir del autor de correspondencia previa

solicitud razonable.

CREDIT DECLARACI

ON DE CONTRIBUCI

ON DE AUTOR

M. Celeste Cebedio: Validaci

on; redacci

on – borrador ori-

ginal; Adquisici

on de fondos. Mart

ın Lorusso: Validaci

on;

Investigaci

on. Leonardo Arnone: Software; visualizaci

on.

Lucas A. Rabioglio: Software; redacci

on; Conceptualiza-

on. Maximiliano Antonelli: investigaci

on; visualizaci

on;

Software; redacci

on. Ra

ul E. Lopresti: visualizaci

on; re-

dacci

on. Luciana De Micco: redacci

on – borrador original;

investigaci

on; Validaci

on; supervisi

on; An

alisis formal. M.

Paz Sal Moyano: administraci

on del proyecto; Adquisici

de fondos; Investigaci

on.

XII. AGRADECIMIENTOS

Este trabajo fue ﬁnanciado por la Universidad Nacional

de Mar del Plata a trav

es de los proyectos EXA1213/24

“Bioac

ustica marina: se

nales sonoras naturales y efecto del

sonido antr

opico en una especie clave de cangrejo. OCS

2024-6” y PI2Ba RR-2024-1914 “T

ecnicas avanzadas de

ingenier

ıa e inteligencia artiﬁcial aplicadas al an

alisis de

datos ac

usticos biol

ogicos: caracterizaci

on a nivel especies

e intra-especie y efecto de la contaminaci

on por ruido sobre

animales”.

REFERENCIAS

[1] M. Minello, L. Calado y F. C. Xavier, “Ecoacoustic

Indices in Marine Ecosystems: A Review on Recent

Developments, Challenges, and Future Directions”,

ICES Journal of Marine Science, vol. 78, n.

ags. 3066-3074, 2021. DOI: 10.1093/icesjms/fsab193.

direcci

on: https://academic.oup.com/icesjms/article-

pdf/78/9/3066/41765284/fsab193.pdf.

[2] Ministerio de Ambiente y Desarrollo Sostenible de la

Naci

on Argentina, Ficha t

ecnica de la Reserva de la

Biosfera Mar Chiquita, 2023. direcci

on: https://www.

argentina. gob. ar/ sites /default / ﬁles/ 2023/ 02 /ﬁchas

web 07.pdf.

[3] AMPAR Argentina, Mar Chiquita, Accessed: Apr. 26,

2025. direcci

on: https://ampargentina.org/areas/mar-

chiquita/.

ISSN 2525-0159

https://elektron.ﬁ.uba.ar

Revista Elektron, Vol. 10, No. 1, pp. 41–51 (2026)

https://doi.org/10.37537/rev.elektron.10.1.227.2026

Original Article

[4] M. P. Sal Moyano, M. Ceraulo, T. Luppi, M. A. Gavio

y G. Buscaino, “Anthropogenic and Biological Sound

Effects on the Maternal Care Behavior of a Key Crab

Species”, Frontiers in Marine Science, vol. 10, 2023.

DOI: 10.3389/fmars.2023.1050148. direcci

on: https:

//www.frontiersin.org/journals/marine-science/articles/

10.3389/fmars.2023.1050148.

[5] S. Kumar et al., Deep Learning in Computational Bio-

logy: Advancements, Challenges, and Future Outlook,

2023. arXiv: 2310.03086 [cs.LG]. direcci

on: https:

//arxiv.org/abs/2310.03086.

[6] D. Tuia et al., “Perspectives in Machine Learning

for Wildlife Conservation”, Nature Communications,

vol. 13, n.

792, 2022. DOI: 10 . 1038 / s41467 - 022 -

27980-y.

[7] A. Lamba, P. Cassey, R. Raja Segaran y L. Koh, “Deep

Learning for Environmental Conservation”, Current

Biology, vol. 29, n.

19, R977-R982, 2019. DOI: 10.

1016/j.cub.2019.08.016.

[8] U. Malik, M. Malik y A. Malik, “Leveraging Deep

Learning for Accurate Classiﬁcation of Leptograpsus

Crabs Based on Morphological Measurements”, en

Intelligent Computing Systems, A. Saﬁ, A. Martin-

Gonzalez, C. Brito-Loeza y V. Casta

neda-Zeman,

eds., Cham: Springer Nature Switzerland, 2025,

ags. 161-175, ISBN: 978-3-031-82931-4. DOI: 10 .

1007/978-3-031-82931-4 12.

[9] C. Wu et al., “A Part-based Deep Learning Network

for Identifying Individual Crabs Using Abdomen Ima-

ges”, Frontiers in Marine Science, vol. 10, 2023. DOI:

10.3389/fmars.2023.1093542. direcci

on: https://www.

frontiersin . org /journals / marine - science / articles / 10 .

3389/fmars.2023.1093542.

[10] Espressif Systems, ESP32 Series Datasheet, 2024.

direcci

on: https : / / www. espressif . com / sites / default /

ﬁles/documentation/esp32 datasheet en.pdf.

[11] STMicroelectronics, Artiﬁcial Intelligence on STM32

Microcontrollers, 2024. direcci

on: https://www.st.com/

en/embedded-software/x-cube-ai.html.

[12] STMicroelectronics, STM32 Microcontrollers, 2024.

direcci

on: https://www.st.com/stm32.

[13] V. V, A. C. Ramachandra, R. Prasanna, P. C. Kakarla,

V. P. J. Simha y N. Mohan, Implementation of Tiny

Machine Learning Models on Arduino 33 BLE for

Gesture and Speech Recognition, 2022. DOI: 10.48550/

arXiv.2207.12866. arXiv: 2207.12866 [eess.AS].

direcci

on: https://arxiv.org/abs/2207.12866.

[14] Avisoft Bioacoustics, UltraSoundGate 116H: USB-

based Ultrasound Recording Interface, Datasheet,

2023. direcci

on: https : / / avisoft . com/ ultrasoundgate /

116h/.

[15] Teledyne Marine / RESON, TC4013 Miniature Refe-

rence Hydrophone Datasheet, Product leaﬂet / techni-

cal speciﬁcations, 2020. direcci

on: https : / / teramara .

ca / sites / default / ﬁles / 2022 - 01 / reson - TC4013 %

20product%20leaﬂet.pdf.

[16] M. Antonelli, scrubDetection, Accessed: Nov. 18,

2025, 2025. direcci

on: https:// github.com / maxanto /

scrubDetection.

[17] C. H. Lubba, S. S. Sethi, P. Knaute, S. R. Schultz,

B. D. Fulcher y N. S. Jones, “catch22: CAnonical

Time-series CHaracteristics: Selected through Highly

Comparative Time-Series Analysis”, Data Mining and

Knowledge Discovery, vol. 33, n.

6, p

ags. 1821-1852,

2019. DOI: 10.1007/s10618-019-00647-x.

[18] J. Gou, B. Yu, S. J. Maybank y D. Tao, “Knowledge

Distillation: A Survey”, International Journal of Com-

puter Vision, vol. 129, n.

6, p

ags. 1789-1819, 2021.

DOI: 10.1007/s11263-021-01453-z.

[19] S. Bai, J. Z. Kolter y V. Koltun, “An Empirical

Evaluation of Generic Convolutional and Recurrent

Networks for Sequence Modeling”, en Proceedings of

the International Conference on Learning Representa-

tions (ICLR), 2018. DOI: 10.48550/arXiv.1803.01271.

[20] M. C. Cebedio, Clasiﬁcaci

on de Cangrejos, Reposito-

rio de c

odigo asociado al clasiﬁcador, 2025. direcci

on:

https://github.com/cebedio/Clasiﬁcaci-n-de-cangrejos.

[21] M. C. Cebedio, L. A. Rabioglio y L. De Mic-

co, “Quantized Generative Autoencoder for Au-

dio Spectrograms”, IEEE Embedded Systems Letters,

ags. 419-422, jun. de 2025. DOI: 10.1109/LES.2025.

3575372.

[22] Google, QKeras: Quantization Extensions for Keras,

Accessed: Feb. 1, 2025, 2023. direcci

on: https://github.

com/google/qkeras.

[23] TensorFlow, TensorFlow Lite for Microcontrollers,

Accessed: Apr. 27, 2025, 2025. direcci

on: https : / /

www.tensorﬂow.org/lite/microcontrollers?hl=es-419.

ISSN 2525-0159

https://elektron.ﬁ.uba.ar