Aplicaci

on de redes neuronales en tomograf

ıa

computarizada por ultrasonido

Application of Neural Networks in Ultrasound Computed Tomography

Malena D

ıaz Falvo

∗1

, Mart

ın G. Gonz

alez

∗†

y Leonardo Rey Vega

∗†

∗

Facultad de Ingenier

ıa, Universidad de Buenos Aires

Paseo Colon 850, C1063ACV, Buenos Aires, Argentina

†

Consejo Nacional de Investigaciones Cient

ıﬁcas y T

ecnicas, (CONICET)

Godoy Cruz 2290, C1425FQB, Buenos Aires, Argentina

mcdiaz@fi.uba.ar

Resumen— En este trabajo se desarroll

o un sistema

de reconstrucci

on de im

agenes en el marco de la

tomograf

ıa computarizada por ultrasonido, utilizando

ecnicas de aprendizaje profundo para la estimaci

de mapas de velocidad, asociados a la propagaci

on de

ondas ac

usticas. Se abord

o el dise

no y entrenamiento

de diferentes arquitecturas de redes neuronales y se

evalu

o su desempe

no. Para esto, se gener

o un conjunto

de datos sint

etico mediante simulaciones y se realiz

o la

adquisici

on de sinogramas reales mediante un sistema

experimental que utiliza un transductor de inmersi

on.

Palabras clave: tomograf

ıa; ultrasonido; DCN; U-

Net.

Abstract— This work developed an image

reconstruction system within the framework of

Ultrasound Computed Tomography, utilizing deep

learning techniques for the estimation of velocity maps

associated with acoustic wave propagation. The design

and training of different neural network architectures

were addressed, and their performance was evaluated.

To this end, a synthetic dataset was generated through

simulations, and the acquisition of real sinograms was

performed using an experimental system that employs

an immersion transducer.

Keywords: tomography; ultrasound; DCN; U-Net.

I. INTRODUCCI

Las t

ecnicas de obtenci

on de im

agenes m

edicas permi-

ten visualizar estructuras internas del cuerpo de forma no

invasiva. Entre ellas, la tomograf

ıa se destaca por generar

agenes transversales del cuerpo a partir de mediciones

sobre diferentes

angulos [1], [2]. En particular, la tomo-

graf

ıa computarizada por ultrasonido (TCUS) surge como

una alternativa segura frente a la radiaci

on ionizante, con

gran potencial para la detecci

on temprana del c

ancer de

mama [3], [4]. A diferencia de la radiograf

ıa, el ultrasonido

se ve afectado en gran medida por fen

omenos ondulatorios

como reﬂexi

on, refracci

on y difracci

on [5], [6], lo que

convierte la reconstrucci

on en un problema inverso no lineal

de alta complejidad [7], [8].

La TCUS se basa en aplicar un campo ac

ustico conocido

sobre un objeto y analizar el campo transmitido o reﬂejado

para estimar propiedades del medio, como la velocidad del

sonido o la atenuaci

on ac

ustica [5], [9]. Estas propiedades

revelan informaci

on sobre la estructura interna del tejido

y pueden obtenerse mediante distintas conﬁguraciones de

transductores.

Una conﬁguraci

on t

ıpica para la adquisici

on de im

agenes

tomogr

aﬁcas consiste en rodear el objeto con una serie de

transductores, o rotar un transductor alrededor del mismo

para sondear el objeto con ondas de ultrasonido y medir

la interacci

on resultante. La opci

on de girar mec

anicamente

un transductor alrededor del objeto tiene la ventaja de ser

una conﬁguraci

on simple y poco costosa. Por otro lado, la

utilizaci

on de un arreglo de transductores es generalmente

as costosa de implementar, pero acelera enormemente el

proceso de adquisici

on de datos.

Existen varios algoritmos de reconstrucci

on de im

agenes

para obtener el mapa de velocidades del objeto de inter

es. En

el presente trabajo, se propone un enfoque basado en redes

neuronales para la estimaci

on de los mapas de velocidad del

sonido. Para tal ﬁn, se ha generado una base de datos sint

eti-

ca empleando los algoritmos de simulaci

on y reconstrucci

utilizados en un estudio previo [10]. Este volumen de datos

sint

eticos se cre

o con el objetivo de entrenar las arquitecturas

de redes neuronales propuestas y, posteriormente, lograr la

reconstrucci

on del mapa de velocidades asociado a cada

medici

on experimental.

II. TOM

OGRAFO AC

USTICO 2-D BASADO EN UN

UNICO

TRANSDUCTOR

En el desarrollo de sistemas de TCUS, la precisi

on de las

mediciones depende fuertemente del dise

no de la conﬁgura-

on experimental. Una arquitectura robusta y simple no s

olo

mejora la calidad de los datos, sino que tambi

en minimiza

la inﬂuencia de factores externos, como ruido, interferen-

cias electromagn

eticas, variaciones t

ermicas y errores sis-

tem

aticos. Como sistema experimental se utiliz

o el montaje

desarrollado previamente en el laboratorio del Grupo de

aser,

Optica de Materiales y Aplicaciones Electromagn

eti-

cas (GLOmAEe), para la adquisici

on de sinogramas [10].

Recibido: 03/11/25; Aceptado: 12/12/25

https://doi.org/10.37537/rev.elektron.9.2.223.2025

Original Article

Revista elektron, Vol. 9, No. 2, pp. 47-55 (2025)

ISSN 2525-0159

Figura 1. Esquema de un transductor de inmersi

on.

Figura 2. Transformada de Fourier de la se

nal emitida por el transductor.

II-A. Transductor de inmersi

La Fig. 1 muestra un esquema t

ıpico de un transductor

de inmersi

on. Un transductor convierte se

nales el

ectricas

en ondas ac

usticas y viceversa; su funci

on principal es

transmitir energ

ıa ultras

onica al medio y recibir los ecos

reﬂejados. Entre sus componentes, el m

as relevante es el

elemento activo piezoel

ectrico, que efect

ua esa conversi

electrotromec

anica. El piezoel

ectrico est

a polarizado y co-

nectado mediante electrodos al conector el

ectrico exterior;

a su vez, un respaldo absorbente amortigua vibraciones

residuales y la placa de desgaste protege el elemento activo

y ayuda a adaptar la impedancia ac

ustica entre el transductor

y el medio de acoplamiento [11]. Se utiliz

o un trans-

ductor Olympus V306-SU [12], con frecuencia central de

2,25 MHz, patr

on de campo no enfocado y di

ametro efectivo

de 13 mm. El espectro de la se

nal emitida se muestra en la

Fig. 2, donde se observa el pico principal coincidente con

la frecuencia central reportada por el fabricante.

En los sistemas de TCUS, el acoplamiento ac

ustico entre

el transductor y el objeto resulta cr

ıtico para garantizar

mediciones conﬁables. En nuestro caso, se utiliz

o agua

destilada como medio de transmisi

on del ultrasonido, ya

que su impedancia ac

ustica es similar a la de los tejidos

biol

ogicos y permite una transmisi

on eﬁciente de la energ

ıa.

II-B. Conﬁguraci

on experimental

En la Fig. 3 se muestra la cuba de pl

astico acr

ılico en la

que se realizaron las mediciones.

Esta cuenta con oriﬁcios

laterales para los transductores, un eje de rotaci

on conectado

a un motor paso a paso (Newport PR50CC con controlador

ESP-300), juntas de goma para mantener estanqueidad y

una v

alvula de desag

ue. Para determinar la velocidad de

Figura 3. Cuba acr

ılica utilizada en el sistema de medici

on.

sonido se midi

o la temperatura del agua con un termistor

NTC calibrado en nuestro laboratorio.

En la Fig. 4 se presenta el esquem

atico del sistema de

transmisi

on y recepci

on de ultrasonido. Durante la transmi-

on, el generador de pulsos (HP 222A) cortos (< 25ns) de

tensi

on se conecta directamente al transductor, mientras que

durante la recepci

on se acopla al ampliﬁcador (Picosecond

5828A) a trav

es del conmutador T/R. Las se

nales se registra-

ron con un osciloscopio (Tektronix TDS2024B). El control

y adquisici

on de datos se realizaron desde una computadora,

mediante un algoritmo implementado en Python basado en

la librer

ıa PyVISA.

Figura 4. Esquema del sistema experimental de emisi

on y detecci

ultras

onica.

II-C. Procedimiento de adquisici

El generador de pulsos excita el transductor, que emite

una onda ultras

onica a trav

es del agua. Esta se

nal interact

con el objeto bajo estudio, y parte de ella es reﬂejada hacia

el transductor, que ahora act

ua como receptor. Una vez

ﬁnalizada la emisi

on, la ca

ıda de tensi

on en los terminales

del conmutador T/R desciende por debajo del umbral de

±2 V, lo que provoca que el circuito conmute y permita

el paso de la se

nal ac

ustica recibida. Esta se

nal atraviesa

el interruptor, se dirige al ampliﬁcador y, por

ultimo, es

digitalizada por el osciloscopio. Luego de cada adquisici

on,

el objeto rota un

angulo controlado por el motor paso a paso.

La temperatura se mide al inicio y al ﬁnal de cada sesi

Revista elektron, Vol. 9, No. 2, pp. 47-55 (2025)

ISSN 2525-0159

http://elektron.fi.uba.ar

para relevar el cambio de la velocidad del sonido durante la

adquisici

on de un sinograma.

II-D. Ruido experimental

Se realizaron mediciones sin un objeto presente, a ﬁn

de relevar y caracterizar el ruido que presenta la conﬁ-

guraci

on. Este ruido puede estar asociado a interferencias

ectricas, provenientes de equipos o dispositivos externos

al sistema. La Fig. 5 muestra cinco de las mediciones de

ruido obtenidas, digitalizadas por el osciloscopio, junto con

el espectro en frecuencia de cada una de esas se

nales. Para el

espectro, se realiz

o un acercamiento al rango de 0 a 5 MHz,

para visualizar claramente las componentes espectrales con

mayor aporte.

Figura 5. (a) Ejemplo de se

nales de ruido medidas en ausencia de objeto.

(b) Espectro en frecuencia de las se

nales medidas, con un acercamiento a

un ancho de banda de 10MHz.

El ruido adquiere mayor relevancia para objetos con

ındice de refracci

on similares al agua o para determinados

angulos de medici

on donde la relaci

on se

nal a ruido (SNR)

es baja.

III. REDES NEURONALES PROFUNDAS

III-A. Redes convolucionales densas

Las redes convolucionales densas (DCN) son redes neu-

ronales convolucionales caracterizadas por tener una conec-

tividad densa, a modo de aumentar el ﬂujo de informaci

entre capas. Esta red introduce conexiones directas desde

cada capa a todas las capas posteriores, por lo que cada

instancia recibe como entrada la concatenaci

on de las salidas

de todas las capas previas. La salida x de la capa ℓ puede

expresarse por la siguiente ecuaci

on:

ℓ

= H

ℓ

([x

, x

, ..., x

ℓ−1

]) (1)

donde [x

, x

, ..., x

ℓ−1

] representa la concatenaci

on de las

salidas producidas por las capas anteriores, y H

ℓ

(·) es una

transformaci

on no lineal. Esta transformaci

on consiste en

una serie de operaciones convolucionales que pueden estar

acompa

nadas por etapas de normalizaci

on, funciones de

activaci

on no lineales como ReLU y operaciones de agrupa-

miento (pooling), dependiendo del dise

no de la arquitectura.

Dado que la concatenaci

on de (1) no es viable cuando

el tama

no de los mapas de caracter

ısticas cambia, la red es

dividida en varios bloques densamente conectados, deﬁnidos

por la transformaci

on H

ℓ

. Entre ellos, se deﬁnen capas de

transici

on, que incluyen normalizaciones, convoluciones y

agrupamientos para reducir la dimensi

on de los datos. En la

Fig. 6 se muestra un diagrama en bloques de una red de tipo

DCN, utilizada para la clasiﬁcaci

on de im

agenes. Se observa

que la misma cuenta con tres bloques densos y dos capas de

transici

on entre los mismos, las cuales est

an compuestas por

una operaci

on de convoluci

on (C) para reducir la cantidad

de canales, seguida de una capa de agrupamiento (P) para

reducir la resoluci

on espacial de cada canal. Adem

as, a la

entrada de la red se encuentra una capa de convoluci

para extraer las caracter

ısticas b

asicas de la imagen y, a

la salida, una capa de agrupamiento seguida de una capa

completamente conectada (L) para obtener la clasiﬁcaci

esperada de la imagen de entrada.

Figura 6. Diagrama de una red DCN.

Por otro lado, en los bloques densamente conectados, cada

operaci

on H

ℓ

produce k mapas de caracter

ısticas, lo que

implica que la capa ℓ tiene k

+ k · (ℓ − 1) entradas, donde

es el n

umero de canales de entrada. A este hiperpar

ametro

k se lo denomina tasa de crecimiento, y su funci

on principal

es controlar el incremento progresivo de la informaci

extra

ıda en la red a medida que se agregan capas [13].

III-B. U-Net

En la Fig. 7 se muestra la otra red usada en este trabajo,

que tiene una arquitectura tipo U-Net [14]. Estas redes

reciben su nombre por la forma de su estructura, ya que

cuentan con un camino descendente, uno ascendente y uno

de conexi

on entre ambos, resultando en una estructura con

forma de U (ver Fig. 7). El primer camino se denomina

ruta de contracci

on (codiﬁcador) y est

a compuesto por

distintas capas convolucionales, junto con operaciones de

submuestreo, que buscan reducir la resoluci

on de la entrada,

aumentando la cantidad de canales. De esta manera se

extraen las caracter

ısticas m

as relevantes de la imagen de

entrada para cada resoluci

on, codiﬁcando los datos. Cada

capa de submuestreo reduce la resoluci

on de la imagen

y aumenta la profundidad o n

umero de canales. El otro

camino se denomina ruta de expansi

on (decodiﬁcador) y

est

a compuesto por capas convolucionales transpuestas, las

necesarias para decodiﬁcar los datos hasta su resoluci

on ori-

ginal. El punto medio entre estos dos caminos se denomina

cuello de botella y es la capa que representa el mayor punto

de abstracci

on respecto a la entrada original, ya que los

datos se encuentran en su m

axima compresi

on. Por

ultimo,

existen las conexiones de atajo, que son conexiones entre las

distintas rutas que buscan acelerar el entrenamiento y ali-

vianar el problema del desvanecimiento del gradiente [14].

Este problema se presenta cuando los gradientes se vuelven

demasiado peque

nos, ya que contin

uan disminuyendo y

Revista elektron, Vol. 9, No. 2, pp. 47-55 (2025)

ISSN 2525-0159

http://elektron.fi.uba.ar

Figura 7. Diagrama de una U-Net.

actualizando pesos de las capas, hasta que se vuelven tan

cercanos a 0 que la red pr

acticamente no se actualiza.

En la Fig. 7, adem

as, se presentan los valores de los

par

ametros que caracterizan a esta red utilizados en este

trabajo. Se observa que la entrada posee un

unico canal,

que es transformado a 16 canales mediante una doble

convoluci

on. A partir de all

ı, el n

umero de canales se

duplica en cada etapa del codiﬁcador, pasando de 16 a

32, luego a 64, 128 y ﬁnalmente 256 en el cuello de

la red. Cada una de estas etapas reduce la dimensi

espacial mediante operaciones de max-pooling. En el camino

del decodiﬁcador, las dimensiones espaciales se recuperan

mediante operaciones de sobremuestreo, mientras que el

umero de canales se reduce progresivamente a la mitad. En

cada nivel del decodiﬁcador, las caracter

ısticas recuperadas

se concatenan con aquellas provenientes del codiﬁcador en

la misma escala, permitiendo preservar tanto la informaci

local como la global. Finalmente, una

ultima convoluci

proyecta los 16 canales a la cantidad deseada de canales de

salida.

III-C. Autoencoders variacionales

Los autoencoders son redes neuronales dise

nadas para

aprender una representaci

on comprimida de los datos de

entrada y, posteriormente, reconstruirlos. Est

an compuestos

por un codiﬁcador, que extrae las variables latentes rele-

vantes; un cuello de botella, que contiene la representaci

comprimida; y un decodiﬁcador, que reconstruye la entrada

original a partir de dichas variables.

A diferencia de los autoencoders determin

ısticos, los

autoencoders variacionales (VAE) aprenden una distribuci

probabil

ıstica continua del espacio latente, en lugar de

una representaci

on ﬁja. Mediante una reparametrizaci

on, la

variable latente se deﬁne como

z = µ

+ σ

⊙ ϵ, ϵ ∼ N (0, I), (2)

donde ⊙ denota la multiplicaci

on elemento a elemento,

N (0, I) la distribuci

on normal est

andar y µ

y σ

media y desviaci

on est

andar de la distribuci

on del espacio

latente, respectivamente. Esta formulaci

on permite separar

los componentes determin

ısticos y estoc

asticos, facilitando

el entrenamiento y la generaci

on de nuevas se

nales [15],

[16].

La Fig. 8 ilustra un esquema general de un VAE: el

codiﬁcador produce los par

ametros µ

y σ

, a partir de

Figura 8. Esquema de un autoencoder variacional.

los cuales se obtiene la variable latente z, que luego el

decodiﬁcador utiliza para reconstruir la salida ˆx.

IV. GENERACI

ON DEL CONJUNTO DE DATOS

IV-A. Im

agenes verdaderas

La generaci

on de este conjunto de datos sint

etico se

abord

o inicialmente creando un conjunto de im

agenes en

blanco y negro, con una resoluci

on de 200 × 200 p

ıxeles.

Para la representaci

on de los objetos bajo estudio, se utili-

zaron ﬁguras geom

etricas b

asicas, espec

ıﬁcamente c

ırculos

y pol

ıgonos regulares con una cantidad de lados entre 3

y 6 (tri

angulos, cuadrados, pent

agonos y hex

agonos). Para

cada ﬁgura se utilizaron diferentes escalas y

angulos de

rotaci

on aleatorios. Existen tres conﬁguraciones principales

en la generaci

on de estas ﬁguras:

1. Figuras s

olidas: ﬁguras geom

etricas sin modiﬁcacio-

nes internas y posicionadas en el centro de la imagen,

ease Fig. 9(a).

2. Figuras s

olidas con sustracci

on interna: Se parte de

una ﬁgura geom

etrica maciza y luego se sustraen entre

1 y 3 ﬁguras m

as peque

nas de su interior; estas pueden

ser de cualquiera de los tipos de ﬁguras mencionadas.

La sustracci

on se realiza en distintas posiciones dentro

de la ﬁgura principal, generando patrones huecos o

perforados, v

ease Fig. 9(b).

3. Figuras espejadas: Para cada imagen, se generan

dos ﬁguras del mismo tipo, con diferentes tama

nos,

ambas ubicadas alrededor del centro de la imagen y

en cuadrantes opuestos, v

ease Fig. 9(c).

En total, se generaron 1000 im

agenes destinadas a con-

formar el conjunto de datos de entrenamiento y otras 100

agenes para el de testeo.

IV-B. Simulaci

on de sinogramas

Las im

agenes generadas se emplearon para simular sino-

gramas representativos del banco experimental. El algoritmo

desarrollado rota cada imagen y emite un pulso ultras

onico,

registrando las se

nales reﬂejadas. Para la simulaci

on ac

usti-

ca se utiliz

o el programa j-Wave, un simulador num

erico

basado en JAX, que permite diferenciaci

on autom

atica, pa-

ralelizaci

on en GPU y resoluci

on eﬁciente de ecuaciones de

onda mediante discretizaciones espectrales o de diferencias

ﬁnitas [17], [18].

El dominio de simulaci

on fue discretizado en una grilla

ﬁnita, aplicando condiciones de contorno de Perfectly Mat-

ched Layer (PML) para evitar reﬂexiones causadas por los

ımites del recinto de simulaci

on. El transductor se model

como una l

ınea de fuentes puntuales sincronizadas, cuya

Revista elektron, Vol. 9, No. 2, pp. 47-55 (2025)

ISSN 2525-0159

http://elektron.fi.uba.ar

Figura 9. (a) Figura maciza generada (caso 1). (b) Figura generada con

sustracci

on interna (caso 2). (c) Figuras espejadas generadas (caso 3)

aproximaci

on es v

alida siempre que las dimensiones f

ısicas

del sensor en la conﬁguraci

on experimental sean peque

nas

en comparaci

on con la longitud de onda de las se

nales

usticas. En la Fig. 10 se expone una comparaci

on del

pulso emitido por el transductor y el simulado, utilizado

en la generaci

on de sinogramas. Esta

ultima fue generada

aplicando una rampa decreciente junto con una ventana

gaussiana a la amplitud de una se

nal senoidal de 2.25 MHz,

a modo de aproximar la se

nal utilizada al pulso emitido por

el transductor.

Figura 10. Comparaci

on entre la se

nal medida emitida por el transductor

y la simulada.

La velocidad del sonido del medio (v

) y del objeto (v

)

se asign

o a partir de distribuciones uniformes y teniendo

en cuenta las condiciones que se tienen en la conﬁguraci

experimental:

∼ U(1480, 1500) m/s (agua)

∼ U(1600, 1620) m/s (goma)

resultando en

ındices de refracci

on n

∈ [1.067, 1.095]. Para

cada imagen, se generaron tres sinogramas con distintas

combinaciones de velocidades, obteniendo un total de 3000

agenes para el conjunto de entrenamiento y 300 para el

de evaluaci

on.

Cada simulaci

on consisti

o en N

= 90

angulos de

rotaci

on y se

nales temporales de N

= 2500 muestras. El

pulso ultras

onico utilizado replica la se

nal medida experi-

mentalmente. El mismo fue generado a partir de aplicar

una rampa decreciente junto con una ventana gaussiana a

la amplitud de una se

nal senoidal. Las se

nales reﬂejadas

obtenidas para cada

angulo conforman los sinogramas.

IV-C. Generaci

on de ruido coloreado

Para reproducir las condiciones experimentales, se gener

ruido coloreado mediante un VAE entrenado con 270 se

nales

de ruido medidas sin objeto. El modelo aprendi

o la distri-

buci

on estad

ıstica del ruido real y permiti

o sintetizar nuevas

instancias a partir de ruido blanco gaussiano. En la Fig. 11 se

muestran cinco se

nales de ruido generadas por la red, tanto

en el dominio temporal como en el de la frecuencia. Estas

nales fueron adicionadas a los sinogramas simulados,

obteniendo un conjunto de datos m

as representativo del

sistema experimental.

Figura 11. (a) Ejemplos de se

nales de ruido generadas por la red VAE

implementada en este trabajo. (b) Espectro en frecuencia de las se

nales

generadas.

IV-D. Algoritmo de reconstrucci

on cl

asico

Se analiz

o la respuesta de las redes implementadas ante

entradas que contienen informaci

on espacial, compar

andolas

con reconstrucciones obtenidas mediante un enfoque cl

asico.

Para ello, los sinogramas se reconstruyeron utilizando el

algoritmo descrito en [10], el cual modela la propagaci

y detecci

on de ondas ac

usticas en un medio homog

eneo,

adaptado a la geometr

ıa circular del sistema. El algoritmo

requiere deﬁnir par

ametros experimentales, entre ellos el

desv

ıo est

andar del ruido temporal S

noise

. La estimaci

espectral de la se

nal reﬂejada se obtiene seg

un:

(f) =

(f)P

∗

(f)

(f)|

+ S

noise

, (3)

donde P

(f) y P

(f) representan las transformadas de

Fourier de las se

nales reﬂejada y emitida, respectivamente.

El t

ermino S

noise

estabiliza el ﬁltro ante frecuencias con muy

baja amplitud, maximizando la respuesta a ecos coherentes

Revista elektron, Vol. 9, No. 2, pp. 47-55 (2025)

ISSN 2525-0159

http://elektron.fi.uba.ar

con el pulso transmitido, debido al numerador que calcula la

correlaci

on cruzada entre la se

nal medida y la transmitida.

Cada sinograma es proyectado sobre una grilla bidimen-

sional centrada en el eje de rotaci

on. Para cada

angulo θ

el tiempo de ida y vuelta al p

ıxel (x

, y

) se calcula como:

(i, θ

) =

cos θ

−x

) cos θ

+(R

sin θ

−y

) sin θ

(4)

siendo θ el

angulo de rotaci

on y R

el radio del transductor.

La contribuci

on de cada

angulo es acumulada seg

un:

j=1

(i, θ

)) ∆θ, (5)

obteni

endose la imagen reconstruida F

. A partir de ahora,

este algoritmo se denominar

a USRT.

Se evaluaron distintos tama

nos de im

agenes, registrando

la PSNR y el tiempo de c

omputo. Se encontr

o que im

agenes

mayores a 256×256 la PSNR no mejora signiﬁcativamente,

mientras que el tiempo de reconstrucci

on aumenta de forma

considerable. Por este motivo, se adopt

o 256 × 256 para

generar el conjunto de datos sint

eticos de entrenamiento.

La tomograf

ıa por reﬂexi

on presenta como limitaci

on la

erdida de informaci

on en bajas frecuencias [10]. Por lo

tanto, para emular este efecto, se aplic

o un ﬁltro pasa-

altos sobre las im

agenes originales, enfatizando los bordes

y eliminando componentes de baja frecuencia. El ﬁltro se

implement

o mediante la convoluci

on con el kernel de 5 ×5:







−1 −1 −1 −1 −1

−1 1 2 1 −1

−1 2 4 2 −1

−1 1 2 1 −1

−1 −1 −1 −1 −1







Las im

agenes ﬁltradas conforman las im

agenes objetivo

del conjunto de datos.

V. REDES IMPLEMENTADAS

Se utilizaron dos topolog

ıas para abordar el problema de

reconstrucci

on de im

agenes tomogr

aﬁcas. La primera consta

de una arquitectura h

ıbrida, donde se utiliza una red DCN,

cuya salida se encuentra conectada a una U-Net. Esta red

toma como entrada los sinogramas generados y devuelve una

imagen reconstruida con la informaci

on sobre los contornos

internos y externos del objeto.

Otro enfoque utilizado fue el uso de una red U-Net

para el ﬁltrado de los artefactos presentes en m

etodos de

reconstrucci

on cl

asicos. De esta forma, se busc

o que la

red funcione como un ﬁltro que logre discernir entre la

informaci

on de alta frecuencia correspondiente al objeto y la

correspondiente a los artefactos que introduce el algoritmo.

Las redes se entrenaron utilizando el conjunto de datos

generado y se validaron adicionalmente con mediciones ex-

perimentales. Como funciones de error se emplearon la ra

ız

cuadr

atica media (RMSE) y el

ındice de similitud estructural

para datos de punto ﬂotante (DSSIM) [19] combinadas de

la siguiente forma:

Φ = α RMSE + β DSSIM, α = β = 0.5, (6)

Para evaluar el desempe

no del modelo en mediciones

reales, se utilizaron sinogramas obtenidos a partir de la

conﬁguraci

on experimental. Las reconstrucciones de estos

sinogramas se exponen en la Fig. 12. Los mismos se

corresponden con mediciones de 90

angulos de una goma

rectangular de tama

no 18,5 mm × 11,6 mm (izquierda) y de

un cilindro de aluminio de 12,7 mm de di

ametro (derecha).

Figura 12. Reconstrucciones de sinogramas obtenidos mediante la

conﬁguraci

on experimental.

Todos los entrenamientos se realizaron con una compu-

tadora con una CPU Intel i9-10900F, 128 GB de RAM y

dos GPU NVIDIA RTX-3090 de 24 GB cada una.

V-A. DCN + U-Net con informaci

on USRT

Se evalu

o el desempe

no de la red seg

un dos variantes.

En primer lugar, se prob

o introducir el mapa de velocidades

estimado por el algoritmo USRT a la U-Net, como canal

adicional, y luego estimar los mapas de velocidad sin esta

informaci

on.

A su vez, se evaluaron dos estrategias de entrenamiento:

Entrenamiento conjunto en un paso (E1P): actuali-

zar todos los par

ametros de a red simult

aneamente.

Entrenamiento en dos pasos (E2P): pre-entrenar la

DCN, ﬁjar sus pesos y entrenar la U-Net.

El entrenamiento se realiz

o en 200

epocas para E1P; en

E2P se emplearon fases separadas para DCN y U-Net, ambas

de 200

epocas cada una. Adem

as, se utiliz

o el optimizador

de Adam para llevar a cabo el aprendizaje de la red.

Dos ejemplos de testeo con datos sint

eticos se presentan

en la Fig. 13(a) donde se muestra que la red reduce los

artefactos presentes en la reconstrucci

on USRT pero con

marcadas irregularidades en los contornos.

Figura 13. Comparaci

on (objetivo / predicci

on / USRT) para DCN + U-

Net con informaci

on USRT, con datos sint

eticos. (a) Caso E1P. (b) Caso

E2P.

En la Fig. 14(a) se puede ver que s

olo el cilindro met

alico

fue correctamente identiﬁcado cuando la red fue aplicada a

mediciones reales.

Revista elektron, Vol. 9, No. 2, pp. 47-55 (2025)

ISSN 2525-0159

http://elektron.fi.uba.ar

Figura 14. Predicciones (DCN + U-Net con USRT) a partir de sinogramas

experimentales. (a) Caso E1P. (b) Caso E2P.

En las Figs. 13(b) y 14(b) se puede apreciar de forma

cualitativa que las predicciones mejoran considerablemente

al modiﬁcar el m

etodo de entrenamiento a un enfoque E2P,

y que es posible identiﬁcar la forma original del objeto

en las mediciones reales, aunque los contornos presenten

irregularidades con respecto al objeto original.

V-B. DCN + U-Net sin informaci

on USRT

Se entren

o nuevamente la red pero esta vez sin incluir la

reconstrucci

on por USRT como segundo canal a la entrada

de la U-Net. El objetivo fue evaluar si el modelo pod

ıa

reconstruir los mapas de velocidad utilizando

unicamente

la informaci

on proveniente de los sinogramas.

Las predicciones con datos sint

eticos (ver Fig. 15(a))

muestran que, si bien se preservan las estructuras generales,

la red no logra deﬁnir contornos n

ıtidos.

Con las mediciones experimentales (ver Fig. 16(a)) las

predicciones no presentan mejoras respecto al caso de la

subsecci

on V-A, mostrando formas indeﬁnidas y ruidosas.

Figura 15. Comparaci

on (objetivo / predicci

on E2P / USRT) para DCN +

U-Net sin informaci

on USRT, con datos sint

eticos. (a) Caso E1P. (b) Caso

E2P.

En el E2P, la funci

on de error mostr

o grandes saltos

en el error de validaci

on (ver Fig. 17), lo que evidencia

la diﬁcultad del modelo para generalizar sin informaci

auxiliar de la reconstrucci

on.

Los resultados obtenidos a partir del conjunto de testeo

(Fig. 15(b)) y de las mediciones reales (Fig. 16(b)) con-

Figura 16. Predicciones (DCN + U-Net sin USRT) a partir de sinogramas

experimentales. (a) Caso E1P. (b) Caso E2P.

Figura 17. Funci

on de error durante el entrenamiento de la U-Net en el

E2P para DCN + U-Net sin informaci

on USRT.

ﬁrman que la red no logra reconstruir adecuadamente los

contornos, ni es posible distinguir las formas de los objetos

reales.

En este enfoque, la red recibe como entrada las recons-

trucciones obtenidas por el m

etodo cl

asico, y aprende a

ﬁltrar los artefactos y transformar las im

agenes para que

sean m

as cercanas a las verdaderas.

En la Fig. 18 se presentan los resultados en base al con-

junto de datos de testeo. La red logra ajustar sus par

ametros

de forma tal que la predicci

on se aproxima notablemente a

la imagen verdadera, eliminando los artefactos presentes en

la reconstrucci

on obtenida con USRT.

Figura 18. Comparaci

on entre la imagen verdadera, la salida de la U-Net

y la reconstrucci

on USRT.

Posteriormente, se evalu

o la red sobre reconstrucciones

provenientes de mediciones reales. Como se muestra en la

Fig. 19(a), la U-Net logra preservar las formas geom

etricas

de los objetos, aunque no consigue eliminar completamente

los artefactos asociados al algoritmo USRT aplicado a

mediciones.

Finalmente, se intent

o entrenar la red para que la mis-

ma conserve las componentes de baja frecuencia en las

Revista elektron, Vol. 9, No. 2, pp. 47-55 (2025)

ISSN 2525-0159

http://elektron.fi.uba.ar

Figura 19. Aplicaci

on de la red U-Net sobre reconstrucciones de

mediciones reales. (a) Sin mantener las componentes de baja frecuencia.

(b) Manteniendo las componentes de baja frecuencia.

agenes de salida. Para este caso, la red fue entrenada con

agenes objetivo sin ﬁltrado previo. En las predicciones

presentadas en la Fig. 19(b) se observan regiones con textura

no uniforme dentro de los objetos macizos, por lo que la red

no logra conservar de forma precisa las componentes de baja

frecuencia.

VI. COMPARACI

ON DE RESULTADOS

En la Fig. 20 se muestra la imagen de referencia utilizada

para evaluar las distintas arquitecturas. La Fig. 21 presenta

las reconstrucciones obtenidas a partir de un mismo sinogra-

ma, incluyendo los resultados de la U-Net, de la red h

ıbrida

DCN + U-Net con y sin informaci

on USRT y de USRT. A

simple vista, las salidas de la U-Net y de la red h

ıbrida con

informaci

on USRT y E2P son las que m

as se aproximan a

la imagen verdadera.

Figura 20. Imagen verdadera de referencia.

La Tabla I resume los valores promedio de las m

etricas

de evaluaci

on, junto con el correspondiente desv

ıo est

andar:

SSIM, PC, RMSE y PSNR. En todas las m

etricas, los

mejores valores se obtienen para la red h

ıbrida (DCN +

U-Net) con informaci

on USRT y E2P, seguida de la U-Net,

lo que concuerda con los resultados simulados cualitativos

presentados en la secci

on anterior.

Por lo tanto, se tiene que tanto la U-Net como la red

ıbrida con informaci

on USRT y E2P lograron brindar

reconstrucciones que superan al m

etodo USRT en todas las

etricas cuantitativas. Sin embargo, desde una perspectiva

puramente visual, cabe mencionar que un observador podr

ıa

reconocer con mayor facilidad la forma original del objeto

en las reconstrucciones obtenidas mediante el m

etodo USRT

Figura 21. Comparaci

on de las reconstrucciones obtenidas mediante U-

Net, DCN + U-Net (con y sin informaci

on USRT) y USRT.

Topolog

ıa USRT E2P SSIM PC RMSE PSNR [dB]

DCN

U-Net

ı No

0.82 0.39 0.089 21.3

±0.06 ±0.17 ±0.02 ±2.1

ı S

0.97 0.90 0.039 28

±0.02 ±0.08 ±0.01 ±3

No No

0.83 0.40 0.088 21.3

±0.06 ±0.17 ±0.02 ±2.1

No S

0.51 0.36 0.109 19.4

±0.09 ±0.14 ±0.02 ±1.6

U-Net

- -

0.96 0.89 0.041 28

±0.03 ±0.08 ±0.01 ±3

USRT

- -

0.06 0.16 0.124 18.3

±0.06 ±0.07 ±0.02 ±2

Tabla I

ETRICAS DE EVALUACI

ON Y SU DESV

IO EST

ANDAR PARA LAS

DISTINTAS REDES CON EL CONJUNTO DE DATOS DE TESTEO.

que en las generadas por las redes h

ıbridas. Si bien este

algoritmo presenta m

etricas cuantitativas signiﬁcativamente

inferiores, sus artefactos son sistem

aticos y predecibles,

lo que facilita su identiﬁcaci

on visual. En cambio, las

redes pueden introducir distorsiones menos familiares, que

diﬁcultan la interpretaci

on de la imagen.

VII. CONCLUSIONES

En este trabajo, se implementaron y compararon los

siguientes enfoques de aprendizaje profundo para la recons-

trucci

on de im

agenes: (i) una red DCN seguida por una

U-Net y (ii) una U-Net aplicada como post-procesamiento

sobre reconstrucciones USRT.

Revista elektron, Vol. 9, No. 2, pp. 47-55 (2025)

ISSN 2525-0159

http://elektron.fi.uba.ar

La arquitectura DCN + U-Net que incorpor

o informaci

USRT y E2P alcanz

o las mejores m

etricas cuantitativas. El

E2P permiti

o que esta arquitectura aprendiera de manera

as efectiva las im

agenes objetivo, aprovechando la infor-

maci

on espacial ya contenida en la reconstrucci

on USRT.

En segundo lugar se ubic

o la U-Net. Al recibir como

entrada una reconstrucci

on que ya contiene la mayor

ıa de

los datos relevantes, la red fue capaz de preservar los

contornos, aunque no logr

o erradicar en su totalidad los

artefactos presentes. Por el contrario, las variantes que

partieron directamente del sinograma mostraron p

erdidas de

detalle y contornos imprecisos, reﬂejando la diﬁcultad de

predecir los mapas de velocidad sin informaci

on espacial

adicional. Aun as

ı, las redes h

ıbridas superaron al m

etodo

USRT en las m

etricas evaluadas, mostrando el potencial del

aprendizaje profundo para mejorar la calidad y velocidad de

la reconstrucci

on.

Entre las posibles mejoras se destaca la ampliaci

on y

diversiﬁcaci

on del conjunto de datos, incorporando simula-

ciones m

as realistas para aumentar la robustez del modelo.

En particular, las simulaciones generadas en este trabajo

consideran el modelado de la velocidad del sonido, con

geometr

ıas bien deﬁnidas y transiciones abruptas entre mate-

riales, mientras que las mediciones reales, presentan hetero-

geneidades internas, bordes irregulares, atenuaci

on ac

ustica

o fen

omenos de dispersi

on, que no se encuentran modelados

en los datos sint

eticos generados. Si bien se incorpor

o ruido

experimental en el dominio temporal para reducir parcial-

mente esta brecha, la ausencia de un modelado expl

ıcito

de atenuaci

on y de texturas internas constituye una limita-

on del conjunto sint

etico utilizado. La incorporaci

on de

simulaciones que contemplen estas propiedades f

ısicas m

realistas permitir

ıa reducir el desajuste entre datos sint

eticos

y experimentales, favoreciendo as

ı una mejor generalizaci

del modelo.

Tambi

en es posible mejorar la sensibilidad del sistema

mediante el uso de una etapa ampliﬁcadora sobre la se

nal de

excitaci

on del transductor, lo que permitir

ıa obtener se

nales

reﬂejadas de mayor amplitud y generar reconstrucciones

as deﬁnidas. Finalmente, futuras l

ıneas de trabajo podr

ıan

centrarse en la extensi

on a modelos de generaci

on de datos

sint

eticos con mallas tridimensionales y el an

alisis de su

impacto en la estabilidad y convergencia de la red.

AGRADECIMIENTOS

Este trabajo fue ﬁnanciado por la Universidad de Bue-

nos Aires (UBACYT 20020190100032BA), CONICET (PIP

11220200101826CO) y la Agencia I+D+i (PICT 2020-

01336).

REFERENCIAS

[1] A. C. Kak and M. Slaney, Principles of Computerized Tomographic

Imaging. Philadelphia: Society for Industrial and Applied Mathe-

matics, 2001.

[2] C. Høilund, “The radon transform,” Master’s thesis, Aalborg Univer-

sity, 2007.

[3] N. Duric, C. Li, O. Roy, and S. Schmidt, “Acoustic tomography:

Promise versus reality,” in AIP Conference Proceedings, vol. 1335,

no. 1, 2011, pp. 25–31.

[4] X. Lin, H. Shi, Z. Fu, H. Lin, S. Chen, X. Chen, and M. Chen,

“Dynamic speed of sound adaptive transmission/reﬂection ultrasound

computed tomography,” Sensors, vol. 23, no. 7, p. 3694, 2023.

[5] F. A. Duck, Physical Properties of Tissues: A Comprehensive Refe-

rence Book. London: Academic Press, 1990.

[6] D. Carroll, L. McKay, C. Hacking et al. (2024) Attenuation

(ultrasound). Radiopaedia.org. Accessed: 2025-10-31. [Online].

Available: https://radiopaedia.org/articles/attenuation-ultrasound

[7] J. Virieux and S. Operto, “An overview of full-waveform inversion

in exploration geophysics,” Geophysics, vol. 74, no. 6, pp. WCC1–

WCC26, 2009.

[8] T. C. Robins, C. Cueto, J. Cudeiro, O. Bates, O. C. Agudo, G. Strong,

L. Guasch, M. Warner, and M.-X. Tang, “Dual-probe transcranial full-

waveform inversion: A brain phantom feasibility study,” Ultrasound

in Medicine and Biology, vol. 49, no. 1, pp. 283–298, 2023.

[9] W. Han, D. N. Sinha, K. N. Springer, and D. C. Lizon, “Noninvasive

measurement of acoustic properties of ﬂuids using an ultrasonic

interferometry technique,” The Journal of the Acoustical Society of

America, vol. 104, no. 3, pp. 1404–1411, 1998.

[10] M. Reigada, M. G. Gonz

alez, and L. R. Vega, “Estudio y desarrollo

de un sistema para tomograf

ıa ultras

onica bidimensional,” Elektron,

vol. 7, no. 2, pp. 40–47, 2023.

[11] Olympus NDT, Introduction to Ultrasonic Transducers, Olympus

Corporation, 2010, accessed: 2025-10-31. [Online]. Available:

https://www.olympus-ims.com/en/ndt-tutorials/transducers/

[12] Evident. Immersion transducers: Thickness and ﬂaw ins-

pection solutions. Accessed: 2025-10-31. [Online]. Avai-

lable: https://ims.evidentscientiﬁc.com/en/probes/single-and-dual-

element/immersion-transducers

[13] G. Huang, Z. Liu, L. van der Maaten, and K. Q. Weinberger, “Densely

connected convolutional networks,” in Proceedings of the IEEE

Conference on Computer Vision and Pattern Recognition (CVPR),

2017, pp. 4700–4708.

[14] O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional

networks for biomedical image segmentation,” in Medical Image

Computing and Computer-Assisted Intervention (MICCAI), ser. Lec-

ture Notes in Computer Science, vol. 9351. Springer, 2015, pp.

234–241, available at https://arxiv.org/abs/1505.04597.

[15] D. P. Kingma and M. Welling, “Auto-encoding variational

bayes,” arXiv preprint arXiv:1312.6114, 2013, available at

https://arxiv.org/abs/1312.6114.

[16] D. Bergmann and C. Stryker, “What is a variational

autoencoder?” IBM Research Blog, 2021, available at

https://research.ibm.com/blog/what-is-variational-autoencoder,

Accessed: 2025-10-31.

[17] A. Stanziola, S. R. Arridge, B. T. Cox, and B. E. Treeby, “j-

wave: An open-source differentiable wave simulator,” arXiv preprint

arXiv:2202.04633, 2022.

[18] R. Frostig, M. J. Johnson, and C. Leary, “Compiling machine lear-

ning programs via high-level tracing,” in SysML Conference, 2018,

available at https://github.com/google/jax.

[19] A. Baker, A. Pinard, and D. Hammerling, “DSSIM: a structural simi-

larity index for ﬂoating-point data,” arXiv preprint arXiv:2202.02616,

2022.

Revista elektron, Vol. 9, No. 2, pp. 47-55 (2025)

ISSN 2525-0159

http://elektron.fi.uba.ar