Aplicaci
´
on de redes neuronales en tomograf
´
ıa
computarizada por ultrasonido
Application of Neural Networks in Ultrasound Computed Tomography
Malena D
´
ıaz Falvo
1
, Mart
´
ın G. Gonz
´
alez
y Leonardo Rey Vega
Facultad de Ingenier
´
ıa, Universidad de Buenos Aires
Paseo Colon 850, C1063ACV, Buenos Aires, Argentina
Consejo Nacional de Investigaciones Cient
´
ıficas y T
´
ecnicas, (CONICET)
Godoy Cruz 2290, C1425FQB, Buenos Aires, Argentina
1
mcdiaz@fi.uba.ar
Resumen— En este trabajo se desarroll
´
o un sistema
de reconstrucci
´
on de im
´
agenes en el marco de la
tomograf
´
ıa computarizada por ultrasonido, utilizando
t
´
ecnicas de aprendizaje profundo para la estimaci
´
on
de mapas de velocidad, asociados a la propagaci
´
on de
ondas ac
´
usticas. Se abord
´
o el dise
˜
no y entrenamiento
de diferentes arquitecturas de redes neuronales y se
evalu
´
o su desempe
˜
no. Para esto, se gener
´
o un conjunto
de datos sint
´
etico mediante simulaciones y se realiz
´
o la
adquisici
´
on de sinogramas reales mediante un sistema
experimental que utiliza un transductor de inmersi
´
on.
Palabras clave: tomograf
´
ıa; ultrasonido; DCN; U-
Net.
Abstract— This work developed an image
reconstruction system within the framework of
Ultrasound Computed Tomography, utilizing deep
learning techniques for the estimation of velocity maps
associated with acoustic wave propagation. The design
and training of different neural network architectures
were addressed, and their performance was evaluated.
To this end, a synthetic dataset was generated through
simulations, and the acquisition of real sinograms was
performed using an experimental system that employs
an immersion transducer.
Keywords: tomography; ultrasound; DCN; U-Net.
I. INTRODUCCI
´
ON
Las t
´
ecnicas de obtenci
´
on de im
´
agenes m
´
edicas permi-
ten visualizar estructuras internas del cuerpo de forma no
invasiva. Entre ellas, la tomograf
´
ıa se destaca por generar
im
´
agenes transversales del cuerpo a partir de mediciones
sobre diferentes
´
angulos [1], [2]. En particular, la tomo-
graf
´
ıa computarizada por ultrasonido (TCUS) surge como
una alternativa segura frente a la radiaci
´
on ionizante, con
gran potencial para la detecci
´
on temprana del c
´
ancer de
mama [3], [4]. A diferencia de la radiograf
´
ıa, el ultrasonido
se ve afectado en gran medida por fen
´
omenos ondulatorios
como reflexi
´
on, refracci
´
on y difracci
´
on [5], [6], lo que
convierte la reconstrucci
´
on en un problema inverso no lineal
de alta complejidad [7], [8].
La TCUS se basa en aplicar un campo ac
´
ustico conocido
sobre un objeto y analizar el campo transmitido o reflejado
para estimar propiedades del medio, como la velocidad del
sonido o la atenuaci
´
on ac
´
ustica [5], [9]. Estas propiedades
revelan informaci
´
on sobre la estructura interna del tejido
y pueden obtenerse mediante distintas configuraciones de
transductores.
Una configuraci
´
on t
´
ıpica para la adquisici
´
on de im
´
agenes
tomogr
´
aficas consiste en rodear el objeto con una serie de
transductores, o rotar un transductor alrededor del mismo
para sondear el objeto con ondas de ultrasonido y medir
la interacci
´
on resultante. La opci
´
on de girar mec
´
anicamente
un transductor alrededor del objeto tiene la ventaja de ser
una configuraci
´
on simple y poco costosa. Por otro lado, la
utilizaci
´
on de un arreglo de transductores es generalmente
m
´
as costosa de implementar, pero acelera enormemente el
proceso de adquisici
´
on de datos.
Existen varios algoritmos de reconstrucci
´
on de im
´
agenes
para obtener el mapa de velocidades del objeto de inter
´
es. En
el presente trabajo, se propone un enfoque basado en redes
neuronales para la estimaci
´
on de los mapas de velocidad del
sonido. Para tal fin, se ha generado una base de datos sint
´
eti-
ca empleando los algoritmos de simulaci
´
on y reconstrucci
´
on
utilizados en un estudio previo [10]. Este volumen de datos
sint
´
eticos se cre
´
o con el objetivo de entrenar las arquitecturas
de redes neuronales propuestas y, posteriormente, lograr la
reconstrucci
´
on del mapa de velocidades asociado a cada
medici
´
on experimental.
II. TOM
´
OGRAFO AC
´
USTICO 2-D BASADO EN UN
´
UNICO
TRANSDUCTOR
En el desarrollo de sistemas de TCUS, la precisi
´
on de las
mediciones depende fuertemente del dise
˜
no de la configura-
ci
´
on experimental. Una arquitectura robusta y simple no s
´
olo
mejora la calidad de los datos, sino que tambi
´
en minimiza
la influencia de factores externos, como ruido, interferen-
cias electromagn
´
eticas, variaciones t
´
ermicas y errores sis-
tem
´
aticos. Como sistema experimental se utiliz
´
o el montaje
desarrollado previamente en el laboratorio del Grupo de
L
´
aser,
´
Optica de Materiales y Aplicaciones Electromagn
´
eti-
cas (GLOmAEe), para la adquisici
´
on de sinogramas [10].
Recibido: 03/11/25; Aceptado: 12/12/25
https://doi.org/10.37537/rev.elektron.9.2.223.2025
Original Article
Revista elektron, Vol. 9, No. 2, pp. 47-55 (2025)
ISSN 2525-0159
47
Figura 1. Esquema de un transductor de inmersi
´
on.
Figura 2. Transformada de Fourier de la se
˜
nal emitida por el transductor.
II-A. Transductor de inmersi
´
on
La Fig. 1 muestra un esquema t
´
ıpico de un transductor
de inmersi
´
on. Un transductor convierte se
˜
nales el
´
ectricas
en ondas ac
´
usticas y viceversa; su funci
´
on principal es
transmitir energ
´
ıa ultras
´
onica al medio y recibir los ecos
reflejados. Entre sus componentes, el m
´
as relevante es el
elemento activo piezoel
´
ectrico, que efect
´
ua esa conversi
´
on
electrotromec
´
anica. El piezoel
´
ectrico est
´
a polarizado y co-
nectado mediante electrodos al conector el
´
ectrico exterior;
a su vez, un respaldo absorbente amortigua vibraciones
residuales y la placa de desgaste protege el elemento activo
y ayuda a adaptar la impedancia ac
´
ustica entre el transductor
y el medio de acoplamiento [11]. Se utiliz
´
o un trans-
ductor Olympus V306-SU [12], con frecuencia central de
2,25 MHz, patr
´
on de campo no enfocado y di
´
ametro efectivo
de 13 mm. El espectro de la se
˜
nal emitida se muestra en la
Fig. 2, donde se observa el pico principal coincidente con
la frecuencia central reportada por el fabricante.
En los sistemas de TCUS, el acoplamiento ac
´
ustico entre
el transductor y el objeto resulta cr
´
ıtico para garantizar
mediciones confiables. En nuestro caso, se utiliz
´
o agua
destilada como medio de transmisi
´
on del ultrasonido, ya
que su impedancia ac
´
ustica es similar a la de los tejidos
biol
´
ogicos y permite una transmisi
´
on eficiente de la energ
´
ıa.
II-B. Configuraci
´
on experimental
En la Fig. 3 se muestra la cuba de pl
´
astico acr
´
ılico en la
que se realizaron las mediciones.
´
Esta cuenta con orificios
laterales para los transductores, un eje de rotaci
´
on conectado
a un motor paso a paso (Newport PR50CC con controlador
ESP-300), juntas de goma para mantener estanqueidad y
una v
´
alvula de desag
¨
ue. Para determinar la velocidad de
Figura 3. Cuba acr
´
ılica utilizada en el sistema de medici
´
on.
sonido se midi
´
o la temperatura del agua con un termistor
NTC calibrado en nuestro laboratorio.
En la Fig. 4 se presenta el esquem
´
atico del sistema de
transmisi
´
on y recepci
´
on de ultrasonido. Durante la transmi-
si
´
on, el generador de pulsos (HP 222A) cortos (< 25ns) de
tensi
´
on se conecta directamente al transductor, mientras que
durante la recepci
´
on se acopla al amplificador (Picosecond
5828A) a trav
´
es del conmutador T/R. Las se
˜
nales se registra-
ron con un osciloscopio (Tektronix TDS2024B). El control
y adquisici
´
on de datos se realizaron desde una computadora,
mediante un algoritmo implementado en Python basado en
la librer
´
ıa PyVISA.
Figura 4. Esquema del sistema experimental de emisi
´
on y detecci
´
on
ultras
´
onica.
II-C. Procedimiento de adquisici
´
on
El generador de pulsos excita el transductor, que emite
una onda ultras
´
onica a trav
´
es del agua. Esta se
˜
nal interact
´
ua
con el objeto bajo estudio, y parte de ella es reflejada hacia
el transductor, que ahora act
´
ua como receptor. Una vez
finalizada la emisi
´
on, la ca
´
ıda de tensi
´
on en los terminales
del conmutador T/R desciende por debajo del umbral de
±2 V, lo que provoca que el circuito conmute y permita
el paso de la se
˜
nal ac
´
ustica recibida. Esta se
˜
nal atraviesa
el interruptor, se dirige al amplificador y, por
´
ultimo, es
digitalizada por el osciloscopio. Luego de cada adquisici
´
on,
el objeto rota un
´
angulo controlado por el motor paso a paso.
La temperatura se mide al inicio y al final de cada sesi
´
on
Revista elektron, Vol. 9, No. 2, pp. 47-55 (2025)
ISSN 2525-0159
48
http://elektron.fi.uba.ar
para relevar el cambio de la velocidad del sonido durante la
adquisici
´
on de un sinograma.
II-D. Ruido experimental
Se realizaron mediciones sin un objeto presente, a fin
de relevar y caracterizar el ruido que presenta la confi-
guraci
´
on. Este ruido puede estar asociado a interferencias
el
´
ectricas, provenientes de equipos o dispositivos externos
al sistema. La Fig. 5 muestra cinco de las mediciones de
ruido obtenidas, digitalizadas por el osciloscopio, junto con
el espectro en frecuencia de cada una de esas se
˜
nales. Para el
espectro, se realiz
´
o un acercamiento al rango de 0 a 5 MHz,
para visualizar claramente las componentes espectrales con
mayor aporte.
Figura 5. (a) Ejemplo de se
˜
nales de ruido medidas en ausencia de objeto.
(b) Espectro en frecuencia de las se
˜
nales medidas, con un acercamiento a
un ancho de banda de 10MHz.
El ruido adquiere mayor relevancia para objetos con
´
ındice de refracci
´
on similares al agua o para determinados
´
angulos de medici
´
on donde la relaci
´
on se
˜
nal a ruido (SNR)
es baja.
III. REDES NEURONALES PROFUNDAS
III-A. Redes convolucionales densas
Las redes convolucionales densas (DCN) son redes neu-
ronales convolucionales caracterizadas por tener una conec-
tividad densa, a modo de aumentar el flujo de informaci
´
on
entre capas. Esta red introduce conexiones directas desde
cada capa a todas las capas posteriores, por lo que cada
instancia recibe como entrada la concatenaci
´
on de las salidas
de todas las capas previas. La salida x de la capa puede
expresarse por la siguiente ecuaci
´
on:
x
= H
([x
0
, x
1
, ..., x
1
]) (1)
donde [x
0
, x
1
, ..., x
1
] representa la concatenaci
´
on de las
salidas producidas por las capas anteriores, y H
(·) es una
transformaci
´
on no lineal. Esta transformaci
´
on consiste en
una serie de operaciones convolucionales que pueden estar
acompa
˜
nadas por etapas de normalizaci
´
on, funciones de
activaci
´
on no lineales como ReLU y operaciones de agrupa-
miento (pooling), dependiendo del dise
˜
no de la arquitectura.
Dado que la concatenaci
´
on de (1) no es viable cuando
el tama
˜
no de los mapas de caracter
´
ısticas cambia, la red es
dividida en varios bloques densamente conectados, definidos
por la transformaci
´
on H
. Entre ellos, se definen capas de
transici
´
on, que incluyen normalizaciones, convoluciones y
agrupamientos para reducir la dimensi
´
on de los datos. En la
Fig. 6 se muestra un diagrama en bloques de una red de tipo
DCN, utilizada para la clasificaci
´
on de im
´
agenes. Se observa
que la misma cuenta con tres bloques densos y dos capas de
transici
´
on entre los mismos, las cuales est
´
an compuestas por
una operaci
´
on de convoluci
´
on (C) para reducir la cantidad
de canales, seguida de una capa de agrupamiento (P) para
reducir la resoluci
´
on espacial de cada canal. Adem
´
as, a la
entrada de la red se encuentra una capa de convoluci
´
on
para extraer las caracter
´
ısticas b
´
asicas de la imagen y, a
la salida, una capa de agrupamiento seguida de una capa
completamente conectada (L) para obtener la clasificaci
´
on
esperada de la imagen de entrada.
Figura 6. Diagrama de una red DCN.
Por otro lado, en los bloques densamente conectados, cada
operaci
´
on H
produce k mapas de caracter
´
ısticas, lo que
implica que la capa tiene k
0
+ k · ( 1) entradas, donde
k
0
es el n
´
umero de canales de entrada. A este hiperpar
´
ametro
k se lo denomina tasa de crecimiento, y su funci
´
on principal
es controlar el incremento progresivo de la informaci
´
on
extra
´
ıda en la red a medida que se agregan capas [13].
III-B. U-Net
En la Fig. 7 se muestra la otra red usada en este trabajo,
que tiene una arquitectura tipo U-Net [14]. Estas redes
reciben su nombre por la forma de su estructura, ya que
cuentan con un camino descendente, uno ascendente y uno
de conexi
´
on entre ambos, resultando en una estructura con
forma de U (ver Fig. 7). El primer camino se denomina
ruta de contracci
´
on (codificador) y est
´
a compuesto por
distintas capas convolucionales, junto con operaciones de
submuestreo, que buscan reducir la resoluci
´
on de la entrada,
aumentando la cantidad de canales. De esta manera se
extraen las caracter
´
ısticas m
´
as relevantes de la imagen de
entrada para cada resoluci
´
on, codificando los datos. Cada
capa de submuestreo reduce la resoluci
´
on de la imagen
y aumenta la profundidad o n
´
umero de canales. El otro
camino se denomina ruta de expansi
´
on (decodificador) y
est
´
a compuesto por capas convolucionales transpuestas, las
necesarias para decodificar los datos hasta su resoluci
´
on ori-
ginal. El punto medio entre estos dos caminos se denomina
cuello de botella y es la capa que representa el mayor punto
de abstracci
´
on respecto a la entrada original, ya que los
datos se encuentran en su m
´
axima compresi
´
on. Por
´
ultimo,
existen las conexiones de atajo, que son conexiones entre las
distintas rutas que buscan acelerar el entrenamiento y ali-
vianar el problema del desvanecimiento del gradiente [14].
Este problema se presenta cuando los gradientes se vuelven
demasiado peque
˜
nos, ya que contin
´
uan disminuyendo y
Revista elektron, Vol. 9, No. 2, pp. 47-55 (2025)
ISSN 2525-0159
49
http://elektron.fi.uba.ar
Figura 7. Diagrama de una U-Net.
actualizando pesos de las capas, hasta que se vuelven tan
cercanos a 0 que la red pr
´
acticamente no se actualiza.
En la Fig. 7, adem
´
as, se presentan los valores de los
par
´
ametros que caracterizan a esta red utilizados en este
trabajo. Se observa que la entrada posee un
´
unico canal,
que es transformado a 16 canales mediante una doble
convoluci
´
on. A partir de all
´
ı, el n
´
umero de canales se
duplica en cada etapa del codificador, pasando de 16 a
32, luego a 64, 128 y finalmente 256 en el cuello de
la red. Cada una de estas etapas reduce la dimensi
´
on
espacial mediante operaciones de max-pooling. En el camino
del decodificador, las dimensiones espaciales se recuperan
mediante operaciones de sobremuestreo, mientras que el
n
´
umero de canales se reduce progresivamente a la mitad. En
cada nivel del decodificador, las caracter
´
ısticas recuperadas
se concatenan con aquellas provenientes del codificador en
la misma escala, permitiendo preservar tanto la informaci
´
on
local como la global. Finalmente, una
´
ultima convoluci
´
on
proyecta los 16 canales a la cantidad deseada de canales de
salida.
III-C. Autoencoders variacionales
Los autoencoders son redes neuronales dise
˜
nadas para
aprender una representaci
´
on comprimida de los datos de
entrada y, posteriormente, reconstruirlos. Est
´
an compuestos
por un codificador, que extrae las variables latentes rele-
vantes; un cuello de botella, que contiene la representaci
´
on
comprimida; y un decodificador, que reconstruye la entrada
original a partir de dichas variables.
A diferencia de los autoencoders determin
´
ısticos, los
autoencoders variacionales (VAE) aprenden una distribuci
´
on
probabil
´
ıstica continua del espacio latente, en lugar de
una representaci
´
on fija. Mediante una reparametrizaci
´
on, la
variable latente se define como
z = µ
x
+ σ
x
ϵ, ϵ N (0, I), (2)
donde denota la multiplicaci
´
on elemento a elemento,
N (0, I) la distribuci
´
on normal est
´
andar y µ
x
y σ
x
la
media y desviaci
´
on est
´
andar de la distribuci
´
on del espacio
latente, respectivamente. Esta formulaci
´
on permite separar
los componentes determin
´
ısticos y estoc
´
asticos, facilitando
el entrenamiento y la generaci
´
on de nuevas se
˜
nales [15],
[16].
La Fig. 8 ilustra un esquema general de un VAE: el
codificador produce los par
´
ametros µ
x
y σ
x
, a partir de
Figura 8. Esquema de un autoencoder variacional.
los cuales se obtiene la variable latente z, que luego el
decodificador utiliza para reconstruir la salida ˆx.
IV. GENERACI
´
ON DEL CONJUNTO DE DATOS
IV-A. Im
´
agenes verdaderas
La generaci
´
on de este conjunto de datos sint
´
etico se
abord
´
o inicialmente creando un conjunto de im
´
agenes en
blanco y negro, con una resoluci
´
on de 200 × 200 p
´
ıxeles.
Para la representaci
´
on de los objetos bajo estudio, se utili-
zaron figuras geom
´
etricas b
´
asicas, espec
´
ıficamente c
´
ırculos
y pol
´
ıgonos regulares con una cantidad de lados entre 3
y 6 (tri
´
angulos, cuadrados, pent
´
agonos y hex
´
agonos). Para
cada figura se utilizaron diferentes escalas y
´
angulos de
rotaci
´
on aleatorios. Existen tres configuraciones principales
en la generaci
´
on de estas figuras:
1. Figuras s
´
olidas: figuras geom
´
etricas sin modificacio-
nes internas y posicionadas en el centro de la imagen,
v
´
ease Fig. 9(a).
2. Figuras s
´
olidas con sustracci
´
on interna: Se parte de
una figura geom
´
etrica maciza y luego se sustraen entre
1 y 3 figuras m
´
as peque
˜
nas de su interior; estas pueden
ser de cualquiera de los tipos de figuras mencionadas.
La sustracci
´
on se realiza en distintas posiciones dentro
de la figura principal, generando patrones huecos o
perforados, v
´
ease Fig. 9(b).
3. Figuras espejadas: Para cada imagen, se generan
dos figuras del mismo tipo, con diferentes tama
˜
nos,
ambas ubicadas alrededor del centro de la imagen y
en cuadrantes opuestos, v
´
ease Fig. 9(c).
En total, se generaron 1000 im
´
agenes destinadas a con-
formar el conjunto de datos de entrenamiento y otras 100
im
´
agenes para el de testeo.
IV-B. Simulaci
´
on de sinogramas
Las im
´
agenes generadas se emplearon para simular sino-
gramas representativos del banco experimental. El algoritmo
desarrollado rota cada imagen y emite un pulso ultras
´
onico,
registrando las se
˜
nales reflejadas. Para la simulaci
´
on ac
´
usti-
ca se utiliz
´
o el programa j-Wave, un simulador num
´
erico
basado en JAX, que permite diferenciaci
´
on autom
´
atica, pa-
ralelizaci
´
on en GPU y resoluci
´
on eficiente de ecuaciones de
onda mediante discretizaciones espectrales o de diferencias
finitas [17], [18].
El dominio de simulaci
´
on fue discretizado en una grilla
finita, aplicando condiciones de contorno de Perfectly Mat-
ched Layer (PML) para evitar reflexiones causadas por los
l
´
ımites del recinto de simulaci
´
on. El transductor se model
´
o
como una l
´
ınea de fuentes puntuales sincronizadas, cuya
Revista elektron, Vol. 9, No. 2, pp. 47-55 (2025)
ISSN 2525-0159
50
http://elektron.fi.uba.ar
Figura 9. (a) Figura maciza generada (caso 1). (b) Figura generada con
sustracci
´
on interna (caso 2). (c) Figuras espejadas generadas (caso 3)
.
aproximaci
´
on es v
´
alida siempre que las dimensiones f
´
ısicas
del sensor en la configuraci
´
on experimental sean peque
˜
nas
en comparaci
´
on con la longitud de onda de las se
˜
nales
ac
´
usticas. En la Fig. 10 se expone una comparaci
´
on del
pulso emitido por el transductor y el simulado, utilizado
en la generaci
´
on de sinogramas. Esta
´
ultima fue generada
aplicando una rampa decreciente junto con una ventana
gaussiana a la amplitud de una se
˜
nal senoidal de 2.25 MHz,
a modo de aproximar la se
˜
nal utilizada al pulso emitido por
el transductor.
Figura 10. Comparaci
´
on entre la se
˜
nal medida emitida por el transductor
y la simulada.
La velocidad del sonido del medio (v
s
) y del objeto (v
r
)
se asign
´
o a partir de distribuciones uniformes y teniendo
en cuenta las condiciones que se tienen en la configuraci
´
on
experimental:
v
s
U(1480, 1500) m/s (agua)
v
r
U(1600, 1620) m/s (goma)
resultando en
´
ındices de refracci
´
on n
r
[1.067, 1.095]. Para
cada imagen, se generaron tres sinogramas con distintas
combinaciones de velocidades, obteniendo un total de 3000
im
´
agenes para el conjunto de entrenamiento y 300 para el
de evaluaci
´
on.
Cada simulaci
´
on consisti
´
o en N
a
= 90
´
angulos de
rotaci
´
on y se
˜
nales temporales de N
t
= 2500 muestras. El
pulso ultras
´
onico utilizado replica la se
˜
nal medida experi-
mentalmente. El mismo fue generado a partir de aplicar
una rampa decreciente junto con una ventana gaussiana a
la amplitud de una se
˜
nal senoidal. Las se
˜
nales reflejadas
obtenidas para cada
´
angulo conforman los sinogramas.
IV-C. Generaci
´
on de ruido coloreado
Para reproducir las condiciones experimentales, se gener
´
o
ruido coloreado mediante un VAE entrenado con 270 se
˜
nales
de ruido medidas sin objeto. El modelo aprendi
´
o la distri-
buci
´
on estad
´
ıstica del ruido real y permiti
´
o sintetizar nuevas
instancias a partir de ruido blanco gaussiano. En la Fig. 11 se
muestran cinco se
˜
nales de ruido generadas por la red, tanto
en el dominio temporal como en el de la frecuencia. Estas
se
˜
nales fueron adicionadas a los sinogramas simulados,
obteniendo un conjunto de datos m
´
as representativo del
sistema experimental.
Figura 11. (a) Ejemplos de se
˜
nales de ruido generadas por la red VAE
implementada en este trabajo. (b) Espectro en frecuencia de las se
˜
nales
generadas.
IV-D. Algoritmo de reconstrucci
´
on cl
´
asico
Se analiz
´
o la respuesta de las redes implementadas ante
entradas que contienen informaci
´
on espacial, compar
´
andolas
con reconstrucciones obtenidas mediante un enfoque cl
´
asico.
Para ello, los sinogramas se reconstruyeron utilizando el
algoritmo descrito en [10], el cual modela la propagaci
´
on
y detecci
´
on de ondas ac
´
usticas en un medio homog
´
eneo,
adaptado a la geometr
´
ıa circular del sistema. El algoritmo
requiere definir par
´
ametros experimentales, entre ellos el
desv
´
ıo est
´
andar del ruido temporal S
noise
. La estimaci
´
on
espectral de la se
˜
nal reflejada se obtiene seg
´
un:
S
w
(f) =
P
r
(f)P
t
(f)
|P
t
(f)|
2
+ S
2
noise
, (3)
donde P
r
(f) y P
t
(f) representan las transformadas de
Fourier de las se
˜
nales reflejada y emitida, respectivamente.
El t
´
ermino S
2
noise
estabiliza el filtro ante frecuencias con muy
baja amplitud, maximizando la respuesta a ecos coherentes
Revista elektron, Vol. 9, No. 2, pp. 47-55 (2025)
ISSN 2525-0159
51
http://elektron.fi.uba.ar
con el pulso transmitido, debido al numerador que calcula la
correlaci
´
on cruzada entre la se
˜
nal medida y la transmitida.
Cada sinograma es proyectado sobre una grilla bidimen-
sional centrada en el eje de rotaci
´
on. Para cada
´
angulo θ
j
,
el tiempo de ida y vuelta al p
´
ıxel (x
i
, y
i
) se calcula como:
t
a
(i, θ
j
) =
2
v
s
h
(R
s
cos θ
j
x
i
) cos θ
j
+(R
s
sin θ
j
y
i
) sin θ
j
i
,
(4)
siendo θ el
´
angulo de rotaci
´
on y R
s
el radio del transductor.
La contribuci
´
on de cada
´
angulo es acumulada seg
´
un:
F
i
=
N
a
X
j=1
˜
Ψ
θ
(t
a
(i, θ
j
)) θ, (5)
obteni
´
endose la imagen reconstruida F
i
. A partir de ahora,
este algoritmo se denominar
´
a USRT.
Se evaluaron distintos tama
˜
nos de im
´
agenes, registrando
la PSNR y el tiempo de c
´
omputo. Se encontr
´
o que im
´
agenes
mayores a 256×256 la PSNR no mejora significativamente,
mientras que el tiempo de reconstrucci
´
on aumenta de forma
considerable. Por este motivo, se adopt
´
o 256 × 256 para
generar el conjunto de datos sint
´
eticos de entrenamiento.
La tomograf
´
ıa por reflexi
´
on presenta como limitaci
´
on la
p
´
erdida de informaci
´
on en bajas frecuencias [10]. Por lo
tanto, para emular este efecto, se aplic
´
o un filtro pasa-
altos sobre las im
´
agenes originales, enfatizando los bordes
y eliminando componentes de baja frecuencia. El filtro se
implement
´
o mediante la convoluci
´
on con el kernel de 5 ×5:
1 1 1 1 1
1 1 2 1 1
1 2 4 2 1
1 1 2 1 1
1 1 1 1 1
.
Las im
´
agenes filtradas conforman las im
´
agenes objetivo
del conjunto de datos.
V. REDES IMPLEMENTADAS
Se utilizaron dos topolog
´
ıas para abordar el problema de
reconstrucci
´
on de im
´
agenes tomogr
´
aficas. La primera consta
de una arquitectura h
´
ıbrida, donde se utiliza una red DCN,
cuya salida se encuentra conectada a una U-Net. Esta red
toma como entrada los sinogramas generados y devuelve una
imagen reconstruida con la informaci
´
on sobre los contornos
internos y externos del objeto.
Otro enfoque utilizado fue el uso de una red U-Net
para el filtrado de los artefactos presentes en m
´
etodos de
reconstrucci
´
on cl
´
asicos. De esta forma, se busc
´
o que la
red funcione como un filtro que logre discernir entre la
informaci
´
on de alta frecuencia correspondiente al objeto y la
correspondiente a los artefactos que introduce el algoritmo.
Las redes se entrenaron utilizando el conjunto de datos
generado y se validaron adicionalmente con mediciones ex-
perimentales. Como funciones de error se emplearon la ra
´
ız
cuadr
´
atica media (RMSE) y el
´
ındice de similitud estructural
para datos de punto flotante (DSSIM) [19] combinadas de
la siguiente forma:
Φ = α RMSE + β DSSIM, α = β = 0.5, (6)
Para evaluar el desempe
˜
no del modelo en mediciones
reales, se utilizaron sinogramas obtenidos a partir de la
configuraci
´
on experimental. Las reconstrucciones de estos
sinogramas se exponen en la Fig. 12. Los mismos se
corresponden con mediciones de 90
´
angulos de una goma
rectangular de tama
˜
no 18,5 mm × 11,6 mm (izquierda) y de
un cilindro de aluminio de 12,7 mm de di
´
ametro (derecha).
Figura 12. Reconstrucciones de sinogramas obtenidos mediante la
configuraci
´
on experimental.
Todos los entrenamientos se realizaron con una compu-
tadora con una CPU Intel i9-10900F, 128 GB de RAM y
dos GPU NVIDIA RTX-3090 de 24 GB cada una.
V-A. DCN + U-Net con informaci
´
on USRT
Se evalu
´
o el desempe
˜
no de la red seg
´
un dos variantes.
En primer lugar, se prob
´
o introducir el mapa de velocidades
estimado por el algoritmo USRT a la U-Net, como canal
adicional, y luego estimar los mapas de velocidad sin esta
informaci
´
on.
A su vez, se evaluaron dos estrategias de entrenamiento:
Entrenamiento conjunto en un paso (E1P): actuali-
zar todos los par
´
ametros de a red simult
´
aneamente.
Entrenamiento en dos pasos (E2P): pre-entrenar la
DCN, fijar sus pesos y entrenar la U-Net.
El entrenamiento se realiz
´
o en 200
´
epocas para E1P; en
E2P se emplearon fases separadas para DCN y U-Net, ambas
de 200
´
epocas cada una. Adem
´
as, se utiliz
´
o el optimizador
de Adam para llevar a cabo el aprendizaje de la red.
Dos ejemplos de testeo con datos sint
´
eticos se presentan
en la Fig. 13(a) donde se muestra que la red reduce los
artefactos presentes en la reconstrucci
´
on USRT pero con
marcadas irregularidades en los contornos.
Figura 13. Comparaci
´
on (objetivo / predicci
´
on / USRT) para DCN + U-
Net con informaci
´
on USRT, con datos sint
´
eticos. (a) Caso E1P. (b) Caso
E2P.
En la Fig. 14(a) se puede ver que s
´
olo el cilindro met
´
alico
fue correctamente identificado cuando la red fue aplicada a
mediciones reales.
Revista elektron, Vol. 9, No. 2, pp. 47-55 (2025)
ISSN 2525-0159
52
http://elektron.fi.uba.ar
Figura 14. Predicciones (DCN + U-Net con USRT) a partir de sinogramas
experimentales. (a) Caso E1P. (b) Caso E2P.
En las Figs. 13(b) y 14(b) se puede apreciar de forma
cualitativa que las predicciones mejoran considerablemente
al modificar el m
´
etodo de entrenamiento a un enfoque E2P,
y que es posible identificar la forma original del objeto
en las mediciones reales, aunque los contornos presenten
irregularidades con respecto al objeto original.
V-B. DCN + U-Net sin informaci
´
on USRT
Se entren
´
o nuevamente la red pero esta vez sin incluir la
reconstrucci
´
on por USRT como segundo canal a la entrada
de la U-Net. El objetivo fue evaluar si el modelo pod
´
ıa
reconstruir los mapas de velocidad utilizando
´
unicamente
la informaci
´
on proveniente de los sinogramas.
Las predicciones con datos sint
´
eticos (ver Fig. 15(a))
muestran que, si bien se preservan las estructuras generales,
la red no logra definir contornos n
´
ıtidos.
Con las mediciones experimentales (ver Fig. 16(a)) las
predicciones no presentan mejoras respecto al caso de la
subsecci
´
on V-A, mostrando formas indefinidas y ruidosas.
Figura 15. Comparaci
´
on (objetivo / predicci
´
on E2P / USRT) para DCN +
U-Net sin informaci
´
on USRT, con datos sint
´
eticos. (a) Caso E1P. (b) Caso
E2P.
En el E2P, la funci
´
on de error mostr
´
o grandes saltos
en el error de validaci
´
on (ver Fig. 17), lo que evidencia
la dificultad del modelo para generalizar sin informaci
´
on
auxiliar de la reconstrucci
´
on.
Los resultados obtenidos a partir del conjunto de testeo
(Fig. 15(b)) y de las mediciones reales (Fig. 16(b)) con-
Figura 16. Predicciones (DCN + U-Net sin USRT) a partir de sinogramas
experimentales. (a) Caso E1P. (b) Caso E2P.
Figura 17. Funci
´
on de error durante el entrenamiento de la U-Net en el
E2P para DCN + U-Net sin informaci
´
on USRT.
firman que la red no logra reconstruir adecuadamente los
contornos, ni es posible distinguir las formas de los objetos
reales.
En este enfoque, la red recibe como entrada las recons-
trucciones obtenidas por el m
´
etodo cl
´
asico, y aprende a
filtrar los artefactos y transformar las im
´
agenes para que
sean m
´
as cercanas a las verdaderas.
En la Fig. 18 se presentan los resultados en base al con-
junto de datos de testeo. La red logra ajustar sus par
´
ametros
de forma tal que la predicci
´
on se aproxima notablemente a
la imagen verdadera, eliminando los artefactos presentes en
la reconstrucci
´
on obtenida con USRT.
Figura 18. Comparaci
´
on entre la imagen verdadera, la salida de la U-Net
y la reconstrucci
´
on USRT.
Posteriormente, se evalu
´
o la red sobre reconstrucciones
provenientes de mediciones reales. Como se muestra en la
Fig. 19(a), la U-Net logra preservar las formas geom
´
etricas
de los objetos, aunque no consigue eliminar completamente
los artefactos asociados al algoritmo USRT aplicado a
mediciones.
Finalmente, se intent
´
o entrenar la red para que la mis-
ma conserve las componentes de baja frecuencia en las
Revista elektron, Vol. 9, No. 2, pp. 47-55 (2025)
ISSN 2525-0159
53
http://elektron.fi.uba.ar
Figura 19. Aplicaci
´
on de la red U-Net sobre reconstrucciones de
mediciones reales. (a) Sin mantener las componentes de baja frecuencia.
(b) Manteniendo las componentes de baja frecuencia.
im
´
agenes de salida. Para este caso, la red fue entrenada con
im
´
agenes objetivo sin filtrado previo. En las predicciones
presentadas en la Fig. 19(b) se observan regiones con textura
no uniforme dentro de los objetos macizos, por lo que la red
no logra conservar de forma precisa las componentes de baja
frecuencia.
VI. COMPARACI
´
ON DE RESULTADOS
En la Fig. 20 se muestra la imagen de referencia utilizada
para evaluar las distintas arquitecturas. La Fig. 21 presenta
las reconstrucciones obtenidas a partir de un mismo sinogra-
ma, incluyendo los resultados de la U-Net, de la red h
´
ıbrida
DCN + U-Net con y sin informaci
´
on USRT y de USRT. A
simple vista, las salidas de la U-Net y de la red h
´
ıbrida con
informaci
´
on USRT y E2P son las que m
´
as se aproximan a
la imagen verdadera.
Figura 20. Imagen verdadera de referencia.
La Tabla I resume los valores promedio de las m
´
etricas
de evaluaci
´
on, junto con el correspondiente desv
´
ıo est
´
andar:
SSIM, PC, RMSE y PSNR. En todas las m
´
etricas, los
mejores valores se obtienen para la red h
´
ıbrida (DCN +
U-Net) con informaci
´
on USRT y E2P, seguida de la U-Net,
lo que concuerda con los resultados simulados cualitativos
presentados en la secci
´
on anterior.
Por lo tanto, se tiene que tanto la U-Net como la red
h
´
ıbrida con informaci
´
on USRT y E2P lograron brindar
reconstrucciones que superan al m
´
etodo USRT en todas las
m
´
etricas cuantitativas. Sin embargo, desde una perspectiva
puramente visual, cabe mencionar que un observador podr
´
ıa
reconocer con mayor facilidad la forma original del objeto
en las reconstrucciones obtenidas mediante el m
´
etodo USRT
Figura 21. Comparaci
´
on de las reconstrucciones obtenidas mediante U-
Net, DCN + U-Net (con y sin informaci
´
on USRT) y USRT.
Topolog
´
ıa USRT E2P SSIM PC RMSE PSNR [dB]
DCN
+
U-Net
S
´
ı No
0.82 0.39 0.089 21.3
±0.06 ±0.17 ±0.02 ±2.1
S
´
ı S
´
ı
0.97 0.90 0.039 28
±0.02 ±0.08 ±0.01 ±3
No No
0.83 0.40 0.088 21.3
±0.06 ±0.17 ±0.02 ±2.1
No S
´
ı
0.51 0.36 0.109 19.4
±0.09 ±0.14 ±0.02 ±1.6
U-Net
- -
0.96 0.89 0.041 28
±0.03 ±0.08 ±0.01 ±3
USRT
- -
0.06 0.16 0.124 18.3
±0.06 ±0.07 ±0.02 ±2
Tabla I
M
´
ETRICAS DE EVALUACI
´
ON Y SU DESV
´
IO EST
´
ANDAR PARA LAS
DISTINTAS REDES CON EL CONJUNTO DE DATOS DE TESTEO.
que en las generadas por las redes h
´
ıbridas. Si bien este
algoritmo presenta m
´
etricas cuantitativas significativamente
inferiores, sus artefactos son sistem
´
aticos y predecibles,
lo que facilita su identificaci
´
on visual. En cambio, las
redes pueden introducir distorsiones menos familiares, que
dificultan la interpretaci
´
on de la imagen.
VII. CONCLUSIONES
En este trabajo, se implementaron y compararon los
siguientes enfoques de aprendizaje profundo para la recons-
trucci
´
on de im
´
agenes: (i) una red DCN seguida por una
U-Net y (ii) una U-Net aplicada como post-procesamiento
sobre reconstrucciones USRT.
Revista elektron, Vol. 9, No. 2, pp. 47-55 (2025)
ISSN 2525-0159
54
http://elektron.fi.uba.ar
La arquitectura DCN + U-Net que incorpor
´
o informaci
´
on
USRT y E2P alcanz
´
o las mejores m
´
etricas cuantitativas. El
E2P permiti
´
o que esta arquitectura aprendiera de manera
m
´
as efectiva las im
´
agenes objetivo, aprovechando la infor-
maci
´
on espacial ya contenida en la reconstrucci
´
on USRT.
En segundo lugar se ubic
´
o la U-Net. Al recibir como
entrada una reconstrucci
´
on que ya contiene la mayor
´
ıa de
los datos relevantes, la red fue capaz de preservar los
contornos, aunque no logr
´
o erradicar en su totalidad los
artefactos presentes. Por el contrario, las variantes que
partieron directamente del sinograma mostraron p
´
erdidas de
detalle y contornos imprecisos, reflejando la dificultad de
predecir los mapas de velocidad sin informaci
´
on espacial
adicional. Aun as
´
ı, las redes h
´
ıbridas superaron al m
´
etodo
USRT en las m
´
etricas evaluadas, mostrando el potencial del
aprendizaje profundo para mejorar la calidad y velocidad de
la reconstrucci
´
on.
Entre las posibles mejoras se destaca la ampliaci
´
on y
diversificaci
´
on del conjunto de datos, incorporando simula-
ciones m
´
as realistas para aumentar la robustez del modelo.
En particular, las simulaciones generadas en este trabajo
consideran el modelado de la velocidad del sonido, con
geometr
´
ıas bien definidas y transiciones abruptas entre mate-
riales, mientras que las mediciones reales, presentan hetero-
geneidades internas, bordes irregulares, atenuaci
´
on ac
´
ustica
o fen
´
omenos de dispersi
´
on, que no se encuentran modelados
en los datos sint
´
eticos generados. Si bien se incorpor
´
o ruido
experimental en el dominio temporal para reducir parcial-
mente esta brecha, la ausencia de un modelado expl
´
ıcito
de atenuaci
´
on y de texturas internas constituye una limita-
ci
´
on del conjunto sint
´
etico utilizado. La incorporaci
´
on de
simulaciones que contemplen estas propiedades f
´
ısicas m
´
as
realistas permitir
´
ıa reducir el desajuste entre datos sint
´
eticos
y experimentales, favoreciendo as
´
ı una mejor generalizaci
´
on
del modelo.
Tambi
´
en es posible mejorar la sensibilidad del sistema
mediante el uso de una etapa amplificadora sobre la se
˜
nal de
excitaci
´
on del transductor, lo que permitir
´
ıa obtener se
˜
nales
reflejadas de mayor amplitud y generar reconstrucciones
m
´
as definidas. Finalmente, futuras l
´
ıneas de trabajo podr
´
ıan
centrarse en la extensi
´
on a modelos de generaci
´
on de datos
sint
´
eticos con mallas tridimensionales y el an
´
alisis de su
impacto en la estabilidad y convergencia de la red.
AGRADECIMIENTOS
Este trabajo fue financiado por la Universidad de Bue-
nos Aires (UBACYT 20020190100032BA), CONICET (PIP
11220200101826CO) y la Agencia I+D+i (PICT 2020-
01336).
REFERENCIAS
[1] A. C. Kak and M. Slaney, Principles of Computerized Tomographic
Imaging. Philadelphia: Society for Industrial and Applied Mathe-
matics, 2001.
[2] C. Høilund, “The radon transform, Master’s thesis, Aalborg Univer-
sity, 2007.
[3] N. Duric, C. Li, O. Roy, and S. Schmidt, Acoustic tomography:
Promise versus reality, in AIP Conference Proceedings, vol. 1335,
no. 1, 2011, pp. 25–31.
[4] X. Lin, H. Shi, Z. Fu, H. Lin, S. Chen, X. Chen, and M. Chen,
“Dynamic speed of sound adaptive transmission/reflection ultrasound
computed tomography, Sensors, vol. 23, no. 7, p. 3694, 2023.
[5] F. A. Duck, Physical Properties of Tissues: A Comprehensive Refe-
rence Book. London: Academic Press, 1990.
[6] D. Carroll, L. McKay, C. Hacking et al. (2024) Attenuation
(ultrasound). Radiopaedia.org. Accessed: 2025-10-31. [Online].
Available: https://radiopaedia.org/articles/attenuation-ultrasound
[7] J. Virieux and S. Operto, An overview of full-waveform inversion
in exploration geophysics, Geophysics, vol. 74, no. 6, pp. WCC1–
WCC26, 2009.
[8] T. C. Robins, C. Cueto, J. Cudeiro, O. Bates, O. C. Agudo, G. Strong,
L. Guasch, M. Warner, and M.-X. Tang, “Dual-probe transcranial full-
waveform inversion: A brain phantom feasibility study, Ultrasound
in Medicine and Biology, vol. 49, no. 1, pp. 283–298, 2023.
[9] W. Han, D. N. Sinha, K. N. Springer, and D. C. Lizon, “Noninvasive
measurement of acoustic properties of fluids using an ultrasonic
interferometry technique, The Journal of the Acoustical Society of
America, vol. 104, no. 3, pp. 1404–1411, 1998.
[10] M. Reigada, M. G. Gonz
´
alez, and L. R. Vega, “Estudio y desarrollo
de un sistema para tomograf
´
ıa ultras
´
onica bidimensional, Elektron,
vol. 7, no. 2, pp. 40–47, 2023.
[11] Olympus NDT, Introduction to Ultrasonic Transducers, Olympus
Corporation, 2010, accessed: 2025-10-31. [Online]. Available:
https://www.olympus-ims.com/en/ndt-tutorials/transducers/
[12] Evident. Immersion transducers: Thickness and flaw ins-
pection solutions. Accessed: 2025-10-31. [Online]. Avai-
lable: https://ims.evidentscientific.com/en/probes/single-and-dual-
element/immersion-transducers
[13] G. Huang, Z. Liu, L. van der Maaten, and K. Q. Weinberger, “Densely
connected convolutional networks, in Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition (CVPR),
2017, pp. 4700–4708.
[14] O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional
networks for biomedical image segmentation, in Medical Image
Computing and Computer-Assisted Intervention (MICCAI), ser. Lec-
ture Notes in Computer Science, vol. 9351. Springer, 2015, pp.
234–241, available at https://arxiv.org/abs/1505.04597.
[15] D. P. Kingma and M. Welling, Auto-encoding variational
bayes, arXiv preprint arXiv:1312.6114, 2013, available at
https://arxiv.org/abs/1312.6114.
[16] D. Bergmann and C. Stryker, “What is a variational
autoencoder?” IBM Research Blog, 2021, available at
https://research.ibm.com/blog/what-is-variational-autoencoder,
Accessed: 2025-10-31.
[17] A. Stanziola, S. R. Arridge, B. T. Cox, and B. E. Treeby, “j-
wave: An open-source differentiable wave simulator, arXiv preprint
arXiv:2202.04633, 2022.
[18] R. Frostig, M. J. Johnson, and C. Leary, “Compiling machine lear-
ning programs via high-level tracing, in SysML Conference, 2018,
available at https://github.com/google/jax.
[19] A. Baker, A. Pinard, and D. Hammerling, “DSSIM: a structural simi-
larity index for floating-point data, arXiv preprint arXiv:2202.02616,
2022.
Revista elektron, Vol. 9, No. 2, pp. 47-55 (2025)
ISSN 2525-0159
55
http://elektron.fi.uba.ar