Red adversaria generativa aplicada a la
eliminaci
´
on de ruido y artefactos en sinogramas
de tomograf
´
ıa optoac
´
ustica
Generative Adversarial Network Applied to the Elimination of Noise and Artifacts in Optoacoustic
Tomography Sinograms
Delfina Montilla
1
, Mart
´
ın G. Gonz
´
alez
, Leonardo Rey Vega
Facultad de Ingenier
´
ıa, Universidad de Buenos Aires
Paseo Col
´
on 850, C1063ACV, Buenos Aires, Argentina
Consejo Nacional de Investigaciones Cient
´
ıficas y T
´
ecnicas, (CONICET)
Godoy Cruz 2290, C1425FQB, Buenos Aires, Argentina
1
dmontilla@fi.uba.ar
Resumen— El objetivo de este trabajo es el estudio de
un m
´
etodo de pre-procesamiento de los datos medidos
por un tom
´
ografo optoac
´
ustico bidimensional para
reducir o eliminar los artefactos introducidos por la
escasa cantidad de detectores en el sistema experimental
y el acotado ancho de banda de estos. Para esta tarea, se
utiliz
´
o una red neuronal profunda generativa adversaria
y se compar
´
o su rendimiento con una red neuronal de
referencia U-Net. En la mayor
´
ıa de los casos de testeo
realizados, se encontr
´
o una leve mejora aplicando la
red propuesta al medir la correlaci
´
on de Pearson y la
relaci
´
on se
˜
nal a ruido piso entre la imagen reconstruida
producto de los datos procesados por el modelo y la
imagen de alta resoluci
´
on de referencia.
Palabras clave: tomograf
´
ıa optoac
´
ustica; aprendizaje
profundo; GAN.
Abstract— The goal of this work is to study a
preprocessing method for the data measured by a
two-dimensional optoacoustic tomograph in order to
reduce or eliminate artifacts introduced by the low
number of detectors in the experimental setup and
their limited bandwidth. A generative adversarial deep
neural network was used to accomplish this task and
its performance was compared with a reference U-Net
neural network. In most of the test cases carried out, a
slight improvement was found by applying the proposed
network when measuring the Pearson correlation and
the peak signal noise ratio between the reconstructed
image product of the data processed by the model and
the high-resolution reference image.
Keywords: optoacustic tomography; machine learning;
GAN.
I. INTRODUCCI
´
ON
Un enfoque muy prometedor para la obtenci
´
on de
im
´
agenes biol
´
ogicas es la tomograf
´
ıa optoac
´
ustica (TOA),
tambi
´
en conocida como tomograf
´
ıa fotoac
´
ustica o PAT por
sus siglas en ingl
´
es [1]–[3]. Es una t
´
ecnica no invasiva,
segura y de elevada resoluci
´
on que puede utilizarse para
una variedad de aplicaciones en la investigaci
´
on cl
´
ınica
y precl
´
ınica [4], [5], incluyendo la detecci
´
on de tumores
[6], [7]. Combina la excitaci
´
on
´
optica con la detecci
´
on
ultras
´
onica, lo que ofrece varias ventajas para la obtenci
´
on
de im
´
agenes biol
´
ogicas [8], como permitir la diferenciaci
´
on
de estructuras espec
´
ıficas en el tejido, dependiendo de la
longitud de onda utilizada. La luz incidente s
´
olo necesita
ser absorbida por el objeto que se pretende estudiar para
generar una se
˜
nal ac
´
ustica que pueda ser detectada de
manera confiable en lo profundo del tejido. Otra ventaja
es que, comparado con la microscop
´
ıa
´
optica, proporciona
una penetraci
´
on mucho mayor con una resoluci
´
on espacial
escalable al ser aplicada a tejido biol
´
ogico [9], [10]. Adem
´
as,
es una t
´
ecnica de imagen que no se basa en el uso de la
radiaci
´
on ionizante, como la tomograf
´
ıa computada (TC),
o de la fluorescencia; sino en la relajaci
´
on no radiativa de
las mol
´
eculas. Por lo tanto, sirve para visualizar cualquier
mol
´
ecula siempre y cuando se produzca esta relajaci
´
on no
radiativa. Incluso ser
´
ıa posible el desarrollo de un equipo
port
´
atil de TOA, a diferencia del caso de la TC donde existen
limitaciones de seguridad por la utilizaci
´
on de radiaci
´
on
ionizante, o la resonancia magn
´
etica donde se requiere
de superconductores para la generaci
´
on de los campos
magn
´
eticos.
El mayor desaf
´
ıo en lo que concierne a la TOA es
la adquisici
´
on de datos a velocidad elevada con una ma-
triz de transductores ultras
´
onicos de elementos m
´
ultiples.
Si bien los sistemas de adquisici
´
on de datos multicanal
( 128 canales) est
´
an disponibles comercialmente, estos
son todav
´
ıa costosos [11]. La calidad de la imagen OA
reconstruida depende en gran medida de la cantidad de datos
disponibles, que a su vez es proporcional al n
´
umero de
detectores empleados. En caso de datos limitados (debido
a la menor cantidad de detectores causado por restricciones
de costo/instrumentaci
´
on), las im
´
agenes reconstruidas sufren
de artefactos y, a menudo, son ruidosas. Asimismo, otra
desventaja para adquirir grandes cantidades de datos es un
mayor tiempo de escaneo de la muestra bajo estudio [12],
Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)
ISSN 2525-0159
7
Recibido: 30/05/23; Aceptado: 13/06/23
Creative Commons License - Attribution-NonCommercial-
NoDerivatives 4.0 International (CC BY-NC-ND 4.0)
https://doi.org/10.37537/rev.elektron.7.1.180.2023
Original Article
[13]. Adem
´
as, los detectores utilizados para las mediciones
tomogr
´
aficas tienen un ancho de banda limitado y s
´
olo
pueden cubrir un rango de apertura, por lo cual es posible
que no cubran todo el objeto, resultando en datos limitados
en cantidad y calidad [14]. Por otro lado, el sinograma es la
representaci
´
on gr
´
afica de las se
˜
nales ac
´
usticas en funci
´
on del
tiempo medidas por los detectores de ultrasonido (se
˜
nales
OA). Contiene la informaci
´
on sobre la distribuci
´
on espacial
y la amplitud de las se
˜
nales OA capturadas por los detectores
durante el escaneo.
En este trabajo se estudia el uso de una red adversaria
generativa (GAN) [15] para la super-resoluci
´
on (aumento
de la calidad de reconstrucci
´
on con un n
´
umero limitado
de datos), la mejora del ancho de banda, y la remoci
´
on
de artefactos y ruido en se
˜
nales ac
´
usticas provenientes de
mediciones de un sistema para TOA bidimensional. Se tiene
como antecedente el trabajo de investigaci
´
on [16], donde
se propuso el primer uso de una red neuronal profunda
aplicada exclusivamente al pre-procesamiento de las se
˜
nales
OA medidas, en vez de hacerlo sobre la imagen reconstruida.
Es interesante destacar que uno de los atributos m
´
as impor-
tantes de un esquema basado en una red neuronal profunda
es la velocidad con la que pueden procesar los datos de
entrada. Para redes peque
˜
nas, esto puede ser
´
util en entornos
donde se requiere la obtenci
´
on de im
´
agenes din
´
amicas o
en tiempo real [17]. Otra motivaci
´
on adicional para usar
modelos de aprendizaje profundo en la reconstrucci
´
on de
im
´
agenes OA, es la disponibilidad de herramientas como
TensorFlow [18] y PyTorch [19], que hacen que el empleo
de estos nuevos m
´
etodos presente una curva de aprendizaje
suave al proveer una documentaci
´
on completa y tutoriales
para los nuevos usuarios. El c
´
odigo correspondiente a este
trabajo se encuentra disponible en un repositorio de GitHub,
https://github.com/delfimontilla/PATGAN.
II. M
´
ETODOS
A. Generaci
´
on de los datos de entrenamiento, validaci
´
on y
testeo
Los componentes principales del sistema experimental
TOA incluyen un l
´
aser de pulsos cortos para la generaci
´
on
eficiente de se
˜
nales de banda ancha (BW), un transductor
ultras
´
onico de banda ancha o una matriz de transductores
para la detecci
´
on de se
˜
nales, un sistema de adquisici
´
on de
datos para amplificaci
´
on y digitalizaci
´
on de se
˜
nales y una
computadora para la sincronizaci
´
on del sistema, recolecci
´
on
de datos y reconstrucci
´
on de las im
´
agenes [8]. El modelo
directo para la generaci
´
on de im
´
agenes de TOA se expresa
mediante la siguiente ecuaci
´
on:
Ax = b (1)
donde A es la matriz del sistema que contiene las respuestas
al impulso de todos los p
´
ıxeles en la regi
´
on de la imagen,
x es el vector que representa el aumento de presi
´
on inicial
y b es el sinograma [20]. En este contexto, las respuestas
al impulso representan el comportamiento de los p
´
ıxeles
individuales dentro de la regi
´
on correspondiente a la imagen
cuando se aplica un pulso. Cada p
´
ıxel tiene su propia
respuesta, la cual captura c
´
omo reacciona este a la se
˜
nal,
incluyendo factores como la absorci
´
on, la dispersi
´
on y otras
propiedades f
´
ısicas. El n
´
umero de columnas en la matriz (A)
es igual al n
´
umero de p
´
ıxeles en el dominio de im
´
agenes;
y el n
´
umero de filas es equivalente a la cantidad de p
´
ıxeles
en el dominio del sinograma. En consecuencia, construir la
matriz del sistema es una tarea costosa desde el punto de
vista computacional cuando se desea una resoluci
´
on elevada.
Existen varios algoritmos para obtener una imagen a partir
del sinograma; se pueden clasificar como m
´
etodos anal
´
ıticos
o m
´
etodos iterativos basados en modelos. Dentro del primer
grupo mencionado, uno de los m
´
etodos matem
´
aticamente
m
´
as simples es el denominado retroproyecci
´
on lineal (LBP,
por sus siglas en ingl
´
es). En este enfoque, la reconstrucci
´
on
aproximada de la imagen x
bp
se puede obtener a trav
´
es de
la siguiente ecuaci
´
on:
x
bp
= A
T
b (2)
donde A
T
representa la transpuesta de la matriz que modela
el sistema experimental y b es el sinograma en forma
vectorial unidimensional [21]. Este m
´
etodo fue elegido para
este trabajo ya que tiene bajo tiempo de procesamiento
(sin tener en cuenta el tiempo que conlleva generar A
T
)
y no posee ning
´
un par
´
ametro de ajuste. Aunque es posible
utilizar esquemas basados en modelos para lograr una mayor
calidad de imagen se decidi
´
o utilizar LBP para reforzar que
la mejora en la calidad de la imagen reconstruida se debe
exclusivamente a la mejora en los datos del sinograma [16].
En este trabajo, los sinogramas se obtuvieron a partir de
una base de datos de 59 mil fantomas mamarios computa-
cionales generados a partir del procesamiento de resonancias
magn
´
eticas de alta resoluci
´
on adquiridas de pacientes, en
las cuales se clasific
´
o cada p
´
ıxel seg
´
un el tipo de material
al que correspond
´
ıa (aire, tejido adiposo, tejido glandular
y tejido cut
´
aneo) [22]. En primer lugar, de este conjunto
de datos se seleccion
´
o cuidadosamente un subconjunto de
2126 im
´
agenes de forma tal de evitar redundancia y sesgos
innecesarios. A su vez fue dividido de forma azarosa en
tres grupos: 70 % para el entrenamiento (1500 im
´
agenes),
19% para la validaci
´
on (400 im
´
agenes) y 11% para el testeo
(226 im
´
agenes). Los primeros dos grupos fueron utilizados
en la etapa de entrenamiento de las redes neuronales y el
´
ultimo grupo se reserv
´
o para testear el modelo resultante. En
segundo lugar, se generaron los sinogramas multiplicando
los fantomas mamarios, en forma de vector unidimensional,
por la matriz del sistema experimental. Utilizando Python, se
construy
´
o la matriz del sistema con los mismos par
´
ametros
experimentales que en [16]. Como se puede ver en la
Fig. 1, se emple
´
o una cuadr
´
ıcula computacional de n × n
p
´
ıxeles. Para la generaci
´
on de datos, se utiliz
´
o una grilla
de alta dimensi
´
on de nx
g en
× nx
g en
p
´
ıxeles; en cam-
bio, para la reconstrucci
´
on de los datos, la grilla era de
nx
recon
× nx
recon
p
´
ıxeles. Se colocaron transductores en
el l
´
ımite del tejido de manera circularmente equidistante
en un radio dsa; estos muestrearon observaciones con una
frecuencia F . En total, se tomaron N t muestras temporales.
Se supuso que la velocidad del sonido en el medio, el tejido
bajo investigaci
´
on, era uniforme sin absorci
´
on ni dispersi
´
on
e igual a 1500 m/s.
Para la generaci
´
on de sinogramas de alta calidad se
simularon N s
hq
detectores de ultrasonido sin limitaci
´
on de
Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)
ISSN 2525-0159
8
http://elektron.fi.uba.ar
ancho de banda, resultando en sinogramas de dimensiones
Ns
hq
× Nt. Mientras que para la generaci
´
on de sinogramas
de baja calidad, se colocaron la mitad detectores N s
lq
con
ancho de banda limitado, se agreg
´
o ruido gaussiano con una
relaci
´
on se
˜
nal-ruido de entre 10 y 70dB y se interpol
´
o de
Ns
lq
× Nt a Ns
hq
× Nt utilizando el m
´
etodo de vecinos
cercanos (nearest neighbour). Estos sinogramas de menor
resoluci
´
on, ancho de banda limitado y con ruido ser
´
an
procesados por los modelos de aprendizaje profundo con el
objetivo de que se asemejen a los sinogramas de alta calidad
anteriormente mencionados. En el caso de la construcci
´
on
de la matriz para la reconstrucci
´
on de los sinogramas, se
simularon N s
hq
detectores de ultrasonido sin limitaci
´
on de
ancho de banda.
A continuaci
´
on, se especificar
´
an los valores de los
par
´
ametros para generar la matriz del sistema experimental.
Primero, la grilla computacional es de 501 × 501 p
´
ıxeles
con 0, 1 mm/p
´
ıxel, lo que la convierte en un tama
˜
no de
cuadr
´
ıcula de im
´
agenes de 50 mm por 50 mm. El largo
del lado de la grilla de generaci
´
on de datos, nx
g en
, es de
401 p
´
ıxeles; y el lado de un p
´
ıxel cuadrado es de 50µm.
En cambio, para la reconstrucci
´
on de los datos, el largo del
lado de la grilla nx
recon
es igual a 201 p
´
ıxeles, donde el
valor del largo del p
´
ıxel es 100µm. La cantidad de sensores
para la generaci
´
on de sinogramas de baja calidad, N s
hq
, es
de 128; mientras que para los sinogramas de alta calidad
y la matriz de reconstrucci
´
on con LBP, N s
lq
= 256. Los
sensores se encuentran a 22, 5 mm del centro de la grilla
computacional, la mencionada distancia dsa. La cantidad
de muestras temporales, Nt, fueron 512; y la frecuencia de
muestreo, llamada F , era de 20 Mhz.
Para la generaci
´
on de sinograma se realizaron los siguien-
tes pasos:
Re-escalar el fantoma a las dimensiones de la grilla de
la muestra nx
g en
× nx
g en
Convertirlo en un vector unidimensional
Generar la matriz A del sistema con los valores indi-
cados para la generaci
´
on de dato, eligiendo la cantidad
de detectores requeridos dependiendo del tipo de sino-
grama deseado
Multiplicar A por el fantoma vectorizado
Convertir el sinograma unidimensional resultante en la
matriz correspondiente
Para un sinograma de alta calidad N s
hq
× N t
Para un sinograma de baja calidad N s
lq
× N t
Para el caso de un sinograma de baja calidad:
Agregar filtro pasabanda
Agregar ruido gaussiano con una relaci
´
on se
˜
nal-
ruido de entre 10 y 70 dB
Interpolar a N s
hq
× N t
Para la reconstrucci
´
on de las im
´
agenes se realizaron los
siguientes pasos:
Convertir el sinograma de dimensiones Ns
hq
× N t en
un vector unidimensional
Generar la matriz A del sistema con los valores indi-
cados para la reconstrucci
´
on de datos
Trasponer A, obteniendo A
T
Multiplicar A
T
por el sinograma vectorizado
Convertir la imagen vectorizada resultante en la matriz
Fig. 1: Representaci
´
on gr
´
afica de la configuraci
´
on para la
recopilaci
´
on de datos.
Fig. 2: Ejemplo de un fantoma mamario original (arriba a
la izquierda) y la reconstrucci
´
on utilizando LBP (arriba a la
derecha) del sinograma de alta calidad (abajo).
correspondiente de dimensiones nx
recon
× nx
recon
En
´
ultimo lugar, para la preparaci
´
on de los datos para
el entrenamiento se generaron 105 parches de dimensiones
64 × 64, utilizando un paso de 32 muestras, para todos los
sinogramas de los dos grupos. Este procedimiento, al igual
que en [16], se realiza para que la red pueda aprender a
corregir detalles locales de los sinogramas.
En la Fig. 2 se puede ver un ejemplo de un fantoma ma-
mario y su reconstrucci
´
on utilizando este m
´
etodo partiendo
del sinograma de alta calidad. Este tipo de reconstrucci
´
on
es la imagen de mejor calidad que podr
´
a ser obtenida con
LBP y por lo tanto ser
´
a utilizada como referencia para la
comparaci
´
on de las im
´
agenes obtenidas con los modelos
basados en redes neuronales profundas. Con el fin de testear
diferentes aspectos del modelo resultante, se utilizaron cua-
tro im
´
agenes distintas que no formaron parte de los datos de
entrenamiento [23] y se muestran en la primera columna de
la Fig. 3. La imagen con la letras PAT ayuda a determinar la
Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)
ISSN 2525-0159
9
http://elektron.fi.uba.ar
Fig. 3: Im
´
agenes originales (izquierda) y la reconstrucci
´
on
utilizando LBP de los sinogramas de alta calidad (derecha).
eficacia para recuperar objetos n
´
ıtidos. La segunda imagen
se denomina Derenzo y est
´
a compuesta por grupos de
objetos circulares con diferentes radios que ayudan a evaluar
el poder de reconstrucci
´
on de objeto peque
˜
nos y grandes.
La tercera imagen que se asemeja a vasos sangu
´
ıneos se
utiliza para analizar el poder de reconstrucci
´
on de estructuras
amorfas complicadas. Estas tres im
´
agenes mencionadas son
binarias, con ’1’ para el objeto de inter
´
es y ’0’ para el
fondo. Por otro lado, la cuarta imagen corresponde a un
fantoma mamario y sirve para testear el caso de una imagen
OA compleja que presenta un contraste variable y ruido. A
continuaci
´
on, se generaron los sinogramas de alta calidad de
estas im
´
agenes utilizando el mismo procedimiento explicado
anteriormente. En la segunda columna de la Fig. 3 se
presentan sus reconstrucciones usando LBP. Por
´
ultimo, se
generaron los sinogramas de baja calidad; para el caso de
estas cuatro im
´
agenes, el ruido gaussiano agregado ten
´
ıa una
relaci
´
on se
˜
nal-ruido de 60 dB.
B. U-Net: red neuronal de referencia
1) Arquitectura: La U-Net es una red neuronal convolu-
cional cuya estructura es sim
´
etrica y tiene forma de “U”. La
Fig. 4: Estructura de la U-Net implementada por [16]. Cada
rect
´
angulo azul corresponde a un mapa de caracter
´
ısticas
multi-canal (multi-channel feature map) donde en la parte
superior se indica el n
´
umero de canales, y en el borde
inferior izquierdo, el ancho y alto de las im
´
agenes.
primera parte de la red, denominada “ruta de contracci
´
on”,
consiste en una sucesi
´
on de capas convolucionales, de
activaci
´
on y de agrupaci
´
on. Mientras que la segunda parte
de la red, denominada “ruta de expansi
´
on”, es una secuencia
de capas convolucionales, convolucionales transpuestas y de
activaci
´
on. Asimismo, esta estructura cuenta con conexiones
residuales entre las dos “rutas” para mantener la estructura
general de la entrada en la salida cumpliendo adem
´
as fun-
ciones de estabilidad durante el entrenamiento, minimizando
los efectos del gradiente desvanesciente [24]. La entrada y
salida de la U-Net tienen dimensiones id
´
enticas debido a
la simetr
´
ıa de las operaciones. La arquitectura original fue
presentada por Ronneberger et al. [25] en 2015 y Awasthi et
al. [16] eligieron esta red neuronal para llevar a cabo la tarea
de superresoluci
´
on, remoci
´
on de ruido y mejora de ancho de
banda en sinogramas obtenidos de una sistema para TOA.
En la Fig. 4 se ilustra la estructura implementada en [16].
2) Estrategia de entrenamiento: El entrenamiento de un
modelo implica determinar valores
´
optimos para todos los
pesos. En el aprendizaje supervisado, un algoritmo construye
un modelo examinando muchos ejemplos e intentando en-
contrar aquellos pesos que minimicen una funci
´
on de error
o p
´
erdida. Este proceso se denomina minimizaci
´
on emp
´
ırica
del riesgo. Entonces, se puede pensar en la funci
´
on de
p
´
erdida como la forma de evaluar la calidad de la predicci
´
on
realizada por el modelo. Si la predicci
´
on del modelo es
perfecta, el valor de la funci
´
on de p
´
erdida es cero. El
objetivo de entrenar un modelo es encontrar un conjunto
de pesos que tengan una p
´
erdida promedio baja para todos
los ejemplos de prueba [26].
Se reprodujo la misma estrategia de entrenamiento que la
presentada en [16] donde los hiper-par
´
ametros ya se encuen-
tran optimizados. La entrada al modelo corresponde a los
parches de 64 ×64 p
´
ıxeles de baja calidad que, luego de ser
procesados por la red con 32 filtros de entrada, se comparan
con los datos target (o sea, los parches de 64 × 64 p
´
ıxeles
de los sinogramas de alta calidad). La funci
´
on de p
´
erdida
elegida fue la ra
´
ız del error cuadr
´
atico medio escalada. Este
escalado se implementa para minimizar el problema del
desvanecimiento del gradiente al aplicar backpropagation
en el entrenamiento con sinogramas que contienen valores
Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)
ISSN 2525-0159
10
http://elektron.fi.uba.ar
Fig. 5: Generador del modelo Real-ESRGAN [27]
del orden de magnitud alrededor de 1 · 10
4
. En [16] se
determin
´
o emp
´
ıricamente que el factor de multiplicaci
´
on
para esta aplicaci
´
on es 10000:
L =
1
N
N
X
i=1
ˆx
i
ϕ (x
i
)
2
× τ (3)
donde ϕ (x
i
) es la salida predicha por la red; ˆx, el parche
target; y τ, el factor multiplicador. Por otro lado, se utiliz
´
o
el optimizador de Adam para entrenar la red con una tasa
de aprendizaje de 1 · 10
3
. y una tasa de decaimiento de
0, 98 con un tama
˜
no de paso de 2. Por
´
ultimo, el n
´
umero de
epochs de entrenamiento y el batch size o tama
˜
no de grupo
de entrenamiento fueron de 250 y 128, respectivamente.
3) Estrategia de testeo: Los sinogramas de testeo de
baja calidad, 256 × 512 p
´
ıxeles, se rellenaron (padding)
utilizando el modo reflejo con el objetivo de llevar el tama
˜
no
a 512 × 512 p
´
ıxeles. Luego, fueron introducidos en la
U-Net entrenada para obtener una versi
´
on mejorada. Los
sinogramas devueltos por la red se reconstruyeron usando el
m
´
etodo LBP. Finalmente, se realiz
´
o el mismo procedimiento
de testeo con los sinogramas de baja calidad obtenidos a
partir de las im
´
agenes de la Fig. 3.
C. Real-Enhanced Super Resolution Generative Adversarial
Network - Real-ESRGAN
1) Arquitectura: La Real-ESRGAN es una red neuronal
puramente convolucional para realizar super-resoluci
´
on en
im
´
agenes [27]. La arquitectura de esta red fue dise
˜
nada para
lograr un buen equilibrio entre la mejora de detalles locales
y la eliminaci
´
on de artefactos. En este trabajo se estudia su
aplicaci
´
on en el pre-procesamiento de sinogramas OA de
baja calidad. El generador es una red neuronal profunda
denominada ESRGAN [28] que est
´
a compuesta por ca-
pas convolucionales, 16 bloques convolucionales residuales
(RRDB, por sus siglas en ingl
´
es) y capas de sobremuestreo.
En la Fig. 5 se muestra su arquitectura.
En particular, un bloque RRDB (Fig. 6) consiste en
tres conjuntos id
´
enticos sucesivos de cinco capas convolu-
cionales intercaladas con capas de activaci
´
on Leaky ReLU:
LeakyReLU(x) =
(
x, si x 0
αx, si x < 0
donde α es igual a 0, 2. Las conexiones residuales son para
prevenir inestabilidades en el entrenamiento. Asimismo, el
escalado residual puede interpretarse como una herramienta
para corregir una inicializaci
´
on incorrecta, evitando as
´
ı au-
mentar la magnitud de los valores de las se
˜
nales de entrada
[28]. Con la arquitectura Real-ESRGAN se puede a realizar
super-resoluci
´
on con un factor de escala de ×1, ×2 y ×4. En
este trabajo se eligi
´
o la opci
´
on ×2. Para ese caso, los datos
de entrada pasan por un proceso llamado Pixel Unshuffle
Fig. 6: RRDB (Residual-in-Residual Dense Blocks)
Fig. 7: Pixel Unshuffle
donde la matriz de entrada de un s
´
olo canal se descompone
en 4 canales, tal como se puede ver en la Fig. 7. El objetivo
es reducir el tama
˜
no espacial para que los c
´
alculos realizados
por la red se realicen en un espacio de resoluci
´
on m
´
as chico,
y as
´
ı disminuir la utilizaci
´
on de la memoria de la GPU y el
consumo de recursos computacionales.
Por otro lado, el discriminador de la Real-ESRGAN es
una red neuronal convolucional U-Net, Fig. 8, pero a dife-
rencia a la U-Net mencionada en la secci
´
on anterior, esta red
utiliza capas de activaci
´
on Leaky ReLU (con pendiente 0, 2)
y normalizaci
´
on espectral [29] excepto la primera y
´
ultima
capa convolucional. La normalizaci
´
on espectral consiste en
re-escalar los pesos de la siguiente forma:
W
SN
=
W
σ(W)
, σ(W) = max
xx=0
Wx
2
x
2
(4)
donde σ(W) es el m
´
aximo valor singular de W. Este
discriminador en particular fue elegido para que haga foco
en degradaciones locales y para estabilizar el entrenamiento
[27]. Asimismo, la U-Net genera un valor para cada p
´
ıxel
que indica el nivel de realismo y as
´
ı puede proporcionar
informaci
´
on detallada por p
´
ıxel al generador.
2) Estrategia de entrenamiento: Los datos de entrada
de la red generadora fueron los sinogramas sin pre-
procesamiento; y, a partir de ellos, el objetivo era estimar
sinogramas de elevada calidad. En consecuencia, se entren
´
o
Fig. 8: Discriminador de la Real-ESRGAN: U-Net con
normalizaci
´
on espectral [27]
Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)
ISSN 2525-0159
11
http://elektron.fi.uba.ar
la red Real-ESRGAN optimizando una combinaci
´
on pesada
entre la p
´
erdida L
1
o error absoluto medio, la p
´
erdida
perceptual [30] y la p
´
erdida adversaria [15], [26], [31]. En
primer lugar, el error absoluto medio se define como el
promedio de las diferencias absolutas entre el valor real y
el predicho:
L
1
=
Σ
n
i=1
|y
i
gt
i
|
n
(5)
donde y
i
y gt
i
son los valores predichos y los reales,
correspondientemente, y n refiere a la cantidad total de
valores. Mide la magnitud promedio de los errores en un
conjunto de predicciones, sin considerar sus direcciones.
L
1
es m
´
as resistente a los valores at
´
ıpicos o outliers en
comparaci
´
on con el error cuadr
´
atico medio. En segundo
lugar, la p
´
erdida perceptual analiza las diferencias entre
las representaciones intermedias que son extra
´
ıdas por las
redes neuronales convolucionales previamente entrenadas y
capturan caracter
´
ısticas visuales importantes. De esta forma,
se logra medir la similitud entre las caracter
´
ısticas visuales
extra
´
ıdas del sinograma generado y del de referencia de
forma m
´
as robusta que la p
´
erdida L
1
. Esta funci
´
on de
p
´
erdida est
´
a compuesta por dos t
´
erminos que se suman: la
p
´
erdida de reconstrucci
´
on de caracter
´
ısticas y la p
´
erdida de
reconstrucci
´
on de estilo. La primera transfiere conocimiento
sem
´
antico a la Real-ESRGAN conservando el contenido y
la estructura espacial general del sinograma; y se calcula
como:
L
p
= ω
p
n
X
k=1
w
k
· L
c
(f
k
(x), f
k
(gt)) (6)
donde ω
p
representa el peso de la p
´
erdida de caracter
´
ısticas,
n es el n
´
umero de capas de caracter
´
ısticas de la red pre-
entrenada utilizadas, w
k
es el peso asignado a la k-
´
esima
capa, f
k
es la funci
´
on de la caracter
´
ıstica de la k-
´
esima
capa y x y gt son el sinograma de entrada y el de referencia
respectivamente. L
c
es una funci
´
on de p
´
erdida que mide la
diferencia entre las caracter
´
ısticas de entrada y de referencia
(en este caso, la funci
´
on elegida es la L
1
). La red pre-
entrenada utilizada es la VGG19 [30]. Con respecto al otro
t
´
ermino, la p
´
erdida de estilo analiza las diferencias en color,
textura y patrones comunes y se calcula como:
L
s
= ω
s
n
X
k=1
w
k
· L
c
(Gram(f
k
(x)), Gram(f
k
(gt))) (7)
donde ω
s
representa el peso de la p
´
erdida de estilo, n es el
n
´
umero de capas de caracter
´
ısticas de VGG utilizadas, w
k
es el peso asignado a la k-
´
esima capa, L
c
es la funci
´
on de
p
´
erdida que mide la diferencia entre las matrices Gram de las
caracter
´
ısticas de la k-
´
esima capa, Gram(f
k
); y x y gt son
el sinograma de entrada y el de referencia, respectivamente.
La matriz de Gram informa sobre qu
´
e caracter
´
ısticas tienden
a activarse juntas y se define como
G
f
k
(x)
c,c
T
=
1
C
k
H
k
W
k
H
k
X
h=1
W
k
X
w=1
f
k
(x)
h,w,c
f
k
(x)
h,w,c
T
(8)
donde C
k
, H
k
y W
k
son las dimensiones de los canales,
altura y ancho del mapa de caracter
´
ısticas, respectivamente.
Por
´
ultimo, la p
´
erdida adversaria, que es espec
´
ıfica de las
redes GAN, mide la capacidad del generador para pro-
ducir datos que sean indistinguibles de los datos reales,
es decir, ayuda al generador a producir sinogramas con
las caracter
´
ısticas de los sinogramas de elevada calidad
originales. El generador trata de maximizar la probabilidad
de que el discriminador clasifique una muestra generada
como real, mientras que el discriminador trata de minimizar
la probabilidad de que clasifique una muestra generada como
real. La ecuaci
´
on de la p
´
erdida adversaria usada en este
trabajo se muestra a continuaci
´
on [15]:
L
GAN
(G, D)=E
g t
[log D(gt)]+E
x
[log(1D (G(x))] (9)
la cual se debe mimimizar sobre G y maximizar sobre D,
siendo G el generador, D el discriminador, D(gt) es la
estimaci
´
on del discriminador de la probabilidad de que el
dato de entrada de elevada resoluci
´
on pertenezca a los datos
target, y D(G(x)) es la estimaci
´
on del discriminador de la
probabilidad de que el dato de entrada de baja resoluci
´
on
que pas
´
o por el generador pertenezca a los datos target. La
funci
´
on para estimar las probabilidades depende del tipo de
GAN que se est
´
e utilizando. En el c
´
odigo proporcionado
en [27], se implementan varios tipos de GAN. Para el tipo
Vanilla GAN [15], se utiliza entrop
´
ıa cruzada binaria (BCE
With Logits Loss) [19]):
L(x, k) =
1
n
n
X
i=1
[k
i
· log σ(x
i
) + (1 k
i
) · log(1 σ(x
i
))]
(10)
donde x es el sinograma de entrada de la red neuronal, k es
el valor asignado seg
´
un el tipo de sinograma que sea (baja
o elevada calidad), n es el tama
˜
no del batch size, y σ es la
funci
´
on sigmoida.
El entrenamiento de la red GAN se dividi
´
o en dos eta-
pas: el pre-entrenamiento del generador y el entrenamiento
conjunto del generador y discriminador. Se realiza un pre-
entrenamiento del generador ya que se ha demostrado que
ayuda a evitar m
´
ınimos locales no deseados para el ge-
nerador y ayuda al discriminador a enfocarse m
´
as en las
texturas en el siguiente entrenamiento en conjunto, debido
a que recibe datos relativamente buenos de un generador
pre-entrenado en lugar de datos m
´
as aleatorios [28]. En
la siguiente etapa, durante el entrenamiento de G y D, el
discriminador busca distinguir los sinogramas de elevada
calidad de los sinogramas producidos por el generador,
mientras que el generador optimiza sus sinogramas de salida
para enga
˜
nar al discriminador. Con respecto a la conver-
gencia, a medida que el generador mejora a lo largo del
entrenamiento, el rendimiento del discriminador empeora
porque este no puede distinguir f
´
acilmente la diferencia
entre los sinogramas de elevada resoluci
´
on originales y los
producidos por el generador. Idealmente si la red genera-
dora funcionase perfectamente, el discriminador tendr
´
ıa una
precisi
´
on del 50%. Otro punto para considerar es que la
retroalimentaci
´
on del discriminador hacia el generador se
vuelve menos significativa con el tiempo, lo que dificulta la
convergencia de la GAN. Si la GAN contin
´
ua entrenando
m
´
as all
´
a del punto en que el discriminador est
´
a dando
Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)
ISSN 2525-0159
12
http://elektron.fi.uba.ar
valores completamente aleatorios en las p
´
erdidas, entonces
el generador se ve afectado y su propia calidad puede
deteriorarse gravemente.
Se llevaron a cabo diversos entrenamientos, con varia-
ciones en los hiperpar
´
ametros, que se resumen en la Tabla
I. Sin embargo, debido a la limitaci
´
on de tiempo y recursos
computacionales, no se realiz
´
o una exploraci
´
on exhaustiva
de todas las posibilidades. Para el primer entrenamiento de
la Real-ESRGAN, denominado de ac
´
a en adelante Real-
ESRGAN M1, se utiliz
´
o de base la configuraci
´
on de hiper-
par
´
ametros descripta en [27]. El pre-entrenamiento se realiza
durante un total de 1 · 10
6
iteraciones, con un optimizador
Adam, cuya tasa de aprendizaje se estableci
´
o en 2·10
4
con
decaimiento de 0, 5 a las 3·10
5
iteraciones. En esta instancia,
se utiliz
´
o
´
unicamente la p
´
erdida L
1
; de esta forma, seg
´
un
[27], el generador pre-entrenado se encuentra orientado a
optimizar el valor pico de la relaci
´
on se
˜
nal-ruido (PSNR).
La siguiente etapa fue el entrenamiento en conjunto por
4 · 10
5
iteraciones del discriminador con el generador pre-
entrenado, utilizando en ambos casos un optimizador Adam
con tasa de aprendizaje 1 · 10
4
y decaimiento de 0, 5 a
las 2 · 10
5
iteraciones. Aqu
´
ı se utiliz
´
o una combinaci
´
on
de p
´
erdida L
1
, p
´
erdida perceptual y p
´
erdida adversaria. El
segundo entrenamiento se llamar
´
a de ac
´
a en adelante Real-
ESRGAN M2. Para el pre-entrenamiento del generador, se
utilizaron los mismos hiperpar
´
ametros que Real-ESRGAN
M1, pero se opt
´
o por combinar la perdida L
1
con la
p
´
erdida perceptual. El entrenamiento del discriminador y
generador fue realizado conservando la configuraci
´
on de
Real-ESRGAN M1. En el tercer entrenamiento se salte
´
o
el pre-entrenamiento del generador, es decir, el modelo
Real-ESRGAN M3 const
´
o solamente del entrenamiento en
conjunto del generador y discriminador y utilizando los
mismos hiperpar
´
ametros que los usados en Real-ESRGAN
M1. Es importante destacar que los parches de entradas a la
red de 64 × 64 son submuestrados a 32 × 32 ya que, como
se mencion
´
o anteriormente, la Real-ESRGAN usada en este
trabajo tiene un factor de escala de ×2.
3) Estrategia de testeo: Al ser el generador una red
completamente convolucional, las dimensiones de los sino-
gramas de entradas no se encuentran fijas y las dimensiones
de la salida son proporcionales a las de la entrada. Por esta
raz
´
on, se dise
˜
naron dos estrategias de testeo para las cuales
no se debi
´
o realizar ning
´
un cambio en la Real-ESRGAN.
Por un lado, los sinogramas de testeo de 256 × 512 p
´
ıxeles
de baja calidad se submuestrearon a 128 × 256 p
´
ıxeles para
ser ingresados en la Real-ESRGAN entrenada y as
´
ı obtener
una versi
´
on mejorada. Por otro lado, al igual que en el
entrenamiento, los 105 parches de cada sinograma de testeo
de 64 × 64 p
´
ıxeles de baja calidad, se submuestrearon a
32 × 32 p
´
ıxeles para ser ingresados en la Real-ESRGAN
entrenada y as
´
ı obtener una versi
´
on mejorada. Luego, en
este
´
ultimo caso, se rearmaron los parches de los sinogramas
para formar sinogramas de tama
˜
no completo 256 × 512
p
´
ıxeles. Los sinogramas de salida de ambas estrategias se
reconstruyeron siguiendo el procedimiento explicado an-
teriormente, cuyo resultado fueron im
´
agenes reconstruidas
usando LBP.
D. Figuras de m
´
erito
Para evaluar los resultados de los modelos se utilizaron
la correlaci
´
on de Pearson (PC) y la relaci
´
on se
˜
nal a ruido
pico (PSNR). La correlaci
´
on de Pearson es una medida de
correlaci
´
on lineal, entre dos im
´
agenes y se define de la
siguiente manera:
P C(x, y) =
cov(x, y)
σ
x
σ
y
(11)
donde x e y son las im
´
agenes de referencia y reconstruida,
respectivamnte, σ denota la desviaci
´
on est
´
andar y cov es
la covarianza. El resultado de la correlaci
´
on Pearson se
encuentra acotado entre 1 (correlaci
´
on lineal negativa) y 1
(correlaci
´
on lineal positiva), y un resultado nulo implica que
no hay dependencia lineal entre las variables [32]. La PSNR
es una medida cuantitativa que eval
´
ua la intensidad de la
se
˜
nal deseada en comparaci
´
on con el ruido de fondo [33].
En este caso, la se
˜
nal deseada es la mejor reconstrucci
´
on
posible de una imagen, y el ruido es el error entre la imagen
mencionada y las reconstrucciones producto de los sinogra-
mas de salida de los diferentes modelos. Se puede considerar
como una estimaci
´
on aproximada de la percepci
´
on humana
de la calidad de la reconstrucci
´
on [34]. La PSNR se define
como:
PSNR(x, y) = 10log
10
MAX
2
MSE(x, y)
(12)
donde MAX denota el m
´
aximo valor que puede tomar un
p
´
ıxel en la imagen y MSE es el error cuadr
´
atico medio
entre x e y. A diferencia del MSE, un elevado valor de la
PSNR (en dB) denota una imagen reconstruida con mejor
calidad.
III. RESULTADOS
Se realiz
´
o el an
´
alisis del rendimiento de los modelos
estudiados en este trabajo para mejorar el sinograma sin
pre-procesamiento utilizando las cuatro im
´
agenes de testeo
de la Fig. 3 y el grupo de fantomas mamarios que se hab
´
ıa
reservado para el testeo. Con este
´
ultimo grupo, se evalu
´
o y
compar
´
o el rendimiento de los modelos utilizando el prome-
dio y la desviaci
´
on est
´
andar de las m
´
etricas anteriormente
mencionadas, contrastando las im
´
agenes reconstruidas pro-
ducto de los sinogramas procesados por las redes neuronales
contra la reconstrucci
´
on utilizando LBP del sinograma de
calidad alta. Esto se realiz
´
o con el fin de s
´
olo estar com-
parando la mejora en los sinogramas sin que influyan las
limitaciones del m
´
etodo de reconstrucci
´
on en los resultados.
Los resultados num
´
ericos se encuentran en la Tabla II. En
general, los resultados de todos los modelos se encuentran
en la misma franja de valores delimitada por sus desv
´
ıos
est
´
andar y son ampliamente superiores al resultado obtenido
sin pre-procesamiento. Los valores por encima de 0, 95 para
la correlaci
´
on de Pearson indican una fuerte relaci
´
on positiva
entre la imagen de referencia y las im
´
agenes reconstruidas
gracias a las distintas redes neuronales. En cuanto a las
m
´
etricas relacionadas con diferencias num
´
ericas locales, la
PSNR de los modelos es m
´
as elevada > 12 dB que el
caso sin procesar, es decir, debido al procesamiento los
valores individuales de los p
´
ıxeles se acercan m
´
as a los
Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)
ISSN 2525-0159
13
http://elektron.fi.uba.ar
Configuraci
´
on Pre-entrenamiento Entrenamiento
GAN M1 1 · 10
6
iteraciones 4 · 10
5
iteraciones
Optimizador Adam Optimizador Adam
Tasa de aprendizaje: 2 · 10
4
Tasa de aprendizaje: 1 · 10
4
Decaimiento: 0.5 a 3 · 10
5
iteraciones Decaimiento: 0.5 a 2 · 10
5
iteraciones
P
´
erdida utilizada: L
1
P
´
erdidas utilizadas: L
1
, p
´
erdida perceptual, p
´
erdida adversaria
GAN M2 1 · 10
6
iteraciones 4 · 10
5
iteraciones
Optimizador Adam Optimizador Adam
Tasa de aprendizaje: 2 · 10
4
Tasa de aprendizaje: 1 · 10
4
Decaimiento: 0.5 a 3 · 10
5
iteraciones Decaimiento: 0.5 a 2 · 10
5
iteraciones
P
´
erdida utilizada: L
1
y p
´
erdida perceptual P
´
erdidas utilizadas: L
1
, p
´
erdida perceptual y p
´
erdida adversaria
GAN M3 - 4 · 10
5
iteraciones
- Optimizador Adam
- Tasa de aprendizaje: 1 · 10
4
- Decaimiento: 0.5 a 2 · 10
5
iteraciones
- P
´
erdidas utilizadas: L
1
, p
´
erdida perceptual y p
´
erdida adversaria
TABLA I: Configuraci
´
on de los entrenamientos de Real-ESRGAN
de la mejor imagen posible. En particular, el modelo U-
Net muestra el mejor rendimiento en las dos m
´
etricas, obte-
niendo P C = 0, 984 y P SNR = 33.6 dB. Por otro lado, los
modelos Real-ESRGAN (M1, M2 y M3) tambi
´
en muestran
un rendimiento prometedor. Utilizando tanto parches de
imagen (P) como el sinograma completo (C), estos modelos
logran un muy buen desempe
˜
no. En la Fig. 9, se ejemplifica
un resultado cualitativo de todos los modelos junto con la
imagen original, la reconstrucci
´
on del sinograma de elevada
calidad utilizada y la del sinogramas sin pre-procesamiento.
A simple vista se nota la mejora producto de la U-Net y
de la Real-ESRGAN; los bordes de la muestra de tejido
se encuentran definidos m
´
as precisamente, al igual que los
detalles internos.
En lo que sigue, se analizan los resultados obtenidos para
las im
´
agenes de la Fig. 3; como son im
´
agenes individuales,
los resultados constan de un valor para cada m
´
etrica, sin
la desviaci
´
on est
´
andar. Con respecto a la imagen que se
asemeja a vasos sangu
´
ıneos, los resultados se muestran en
el Tabla III, donde se puede ver que el rendimiento m
´
as bajo
entre todos corresponde a los resultados obtenidos utilizando
datos sin pre-procesamiento, aunque la mejora no es tan
substancial como en el caso de fantomas de resonancia
mamaria. Adem
´
as, en la Fig. 10, con la comparaci
´
on se
aprecia esta diferencia entre los resultados de los modelos
con la peor reconstrucci
´
on como referencia en la primera
fila de im
´
agenes a la derecha. De esta forma, se valida el
poder de reconstrucci
´
on de estructuras complicadas amorfas
de todos los modelos, destacando el modelo Real-ESRGAN
M2 con la estrategia de testeo de sinograma completo que
arroja los mejores resultados en todas las categor
´
ıas. Acerca
del patr
´
on de tejido mamario, los resultados aparecen en el
Tabla III. Se observ
´
o que todos los modelos Real-ESRGAN
superaron el rendimiento de la reconstrucci
´
on con datos sin
pre-procesamiento en todas las m
´
etricas evaluadas. Para el
modelo Real-ESRGAN M2, los resultados indican que la
utilizaci
´
on del sinograma completo proporciona una mejora
en el rendimiento en comparaci
´
on con el uso de parches de
la imagen. En cuanto al modelo Real-ESRGAN M3, tanto
con parches del sinograma como con el sinograma completo,
mostr
´
o un rendimiento a
´
un mejor en comparaci
´
on con los
modelos anteriores. Por su parte, el modelo U-Net muestra
un buen rendimiento en la reconstrucci
´
on de im
´
agenes en
comparaci
´
on con los datos sin pre-procesamiento, pero no
supera el rendimiento de los modelos RealESRGAN eval-
uados. Esto indica que los modelos RealESRGAN pueden
ser m
´
as eficaces para la reconstrucci
´
on de im
´
agenes en este
contexto espec
´
ıfico.
En la Fig. 11, se puede apreciar como la U-Net y los
distintos modelos entrenados de la Real-ESRGAN mejoran
la reconstrucci
´
on del sinograma sin pre-procesamiento, vali-
dando su uso en im
´
agenes fotoac
´
usticas complejas con ruido
y contraste variable.
La Tabla III muestra los resultados num
´
ericos de las
m
´
etricas para cada modelo en el caso de la imagen Derenzo
que eval
´
ua la capacidad del modelo para recuperar objetos
circulares de diferentes tama
˜
nos.
En lo que respecta a los modelos de Real-ESRGAN, el
Real-ESRGAN M1 con parches y el Real-ESRGAN M1 con
sinograma completo presentan mejoras significativas en las
m
´
etricas evaluadas en comparaci
´
on con la reconstrucci
´
on
del sinograma sin pre-procesamiento. Prosiguiendo con el
an
´
alisis, Real-ESRGAN M2 presentan un desempe
˜
no mejo-
rado en comparaci
´
on con el modelo anterior; tanto Real-
ESRGAN M2 con parches como el Real-ESRGAN M2 con
sinograma completo muestran valores promedio m
´
as altos
en todas las m
´
etricas evaluadas. Por su parte, considerando
las dos t
´
ecnicas de testeo del modelo Real-ESRGAN M3,
se consiguieron los valores promedio m
´
as altos en todas las
m
´
etricas evaluadas de todos los modelos, incluida la U-Net.
Sin embargo, se debe destacar que aunque los resultados
obtenidos por los modelos sean mejores que los producidos
por los datos sin pre-procesamiento, la diferencia num
´
erica
no es tan grande. En la Fig. 12, se tiene una comparaci
´
on
con todas las reconstrucciones mencionadas.
En cuanto a las reconstrucciones de la imagen con las
letras PAT utilizando los diferentes modelos, el modelo
Real-ESRGAN M2 con la estrategia de testeo de parches
demostr
´
o el mejor desempe
˜
no. Estos resultados indican que
este modelo logra una mejor correlaci
´
on con la imagen
de alta calidad y una mayor relaci
´
on se
˜
nal-ruido pico en
comparaci
´
on con los otros modelos evaluados. Todos los
modelos de Real-ESRGAN tienen mejores resultados que
la U-Net. En la Fig. 13, se puede apreciar la capacidad de
los modelos para recuperar objetos con bordes afilados y
bien definidos.
Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)
ISSN 2525-0159
14
http://elektron.fi.uba.ar
Fig. 9: Imagen original, imagen de referencia producto de la reconstrucci
´
on del sinograma de alta calidad y del sinograma
sin pre-procesamiento, reconstrucciones de los modelos de la imagen de vasos sangu
´
ıneos. P: testeado utilizando los
parches del sinograma. C: testeado utilizando el sinograma completo.
Fig. 10: Im
´
agenes producto de la reconstrucci
´
on del sinograma sin pre-procesamiento y los sinogramas procesados por los
modelos, correspondiente a la imagen de vasos sangu
´
ıneos.
Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)
ISSN 2525-0159
15
http://elektron.fi.uba.ar
Fig. 11: Im
´
agenes producto de la reconstrucci
´
on del sinograma sin pre-procesamiento y los sinogramas procesados por los
modelos, correspondiente a la imagen de tejido mamario.
Fig. 12: Im
´
agenes producto de la reconstrucci
´
on del sinograma sin pre-procesamiento y los sinogramas procesados por los
modelos, correspondiente a la imagen Derenzo.
TABLA II: Resultados de la comparaci
´
on de las im
´
agenes
reconstruidas por los diferentes modelos y la mejor re-
construcci
´
on posible con los datos de alta calidad para
el conjunto de datos de testeo de fantomas num
´
ericos de
resonancias mamarias. P: estrategia de testeo con parches.
C: estrategia de testo con el sinograma completo.
PC ± std PSNR ± std
Sin procesamiento 0.730 ± 0.013 18.696 ± 0.676
GAN M1 - P 0.973 ± 0.007 31.163 ± 1.197
GAN M1 - C 0.975 ± 0.005 31.482 ± 1.158
GAN M2 - P 0.977 ± 0.006 31.975 ± 1.240
GAN M2 - C 0.979 ± 0.005 32.071 ± 1.268
GAN M3 - P 0.975 ± 0.006 31.501 ± 1.108
GAN M3 - C 0.977 ± 0.005 31.944 ± 1.178
U-Net 0.984 ± 0.006 33.559 ± 1.758
IV. DISCUSI
´
ON
El an
´
alisis de los resultados de la secci
´
on anterior revela
que los modelos Real-ESRGAN y U-Net superan significa-
tivamente el rendimiento de los datos sin pre-procesamiento
en las dos m
´
etricas evaluadas. Esto indica que los modelos
son capaces de mejorar la calidad de las im
´
agenes recons-
truidas en comparaci
´
on con la reconstrucci
´
on obtenida a par-
tir de los sinogramas sin pre-procesamiento. Sin embargo, se
encontr
´
o un caso de falla de estos modelos: la reconstrucci
´
on
de la imagen Derenzo. Esto indicar
´
ıa que los modelos no son
capaces de generalizar y reconstruir precisamente objetos
circulares peque
˜
nos y grandes. El resultado no es sorpren-
dente si se consideran las caracter
´
ısticas de las im
´
agenes
de entrenamiento de los modelos; estas eran resonancias
Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)
ISSN 2525-0159
16
http://elektron.fi.uba.ar
TABLA III: Resultados de la comparaci
´
on de las im
´
agenes reconstruidas por los diferentes modelos y la mejor
reconstrucci
´
on posible con los datos de alta calidad para la imagen de vasos sangu
´
ıneos, de tejido mamario, Derenzo
y con las letras PAT.
Vasos sangu
´
ıneos Tejido mamario Derenzo Letras PAT
PC PSNR PC PSNR PC PSNR PC PSNR
Sin procesamiento 0.650 14.311 0.672 16.937 0.619 17.649 0.488 15.548
GAN M1 - P 0.812 16.832 0.891 22.432 0.643 17.851 0.738 18.350
GAN M1 - C 0.821 16.857 0.898 22.700 0.649 18.008 0.773 18.786
GAN M2 - P 0.826 17.397 0.893 22.493 0.657 18.040 0.786 19.052
GAN M2 - C 0.847 17.975 0.902 22.822 0.685 18.410 0.749 18.541
GAN M3 - P 0.822 17.006 0.901 23.041 0.667 18.165 0.745 18.470
GAN M3 - C 0.832 16.909 0.909 23.334 0.684 18.417 0.782 18.872
U-Net 0.832 17.504 0.891 22.681 0.667 18.236 0.676 17.726
Fig. 13: Im
´
agenes producto de la reconstrucci
´
on del sinograma sin pre-procesamiento y los sinogramas procesados por los
modelos, correspondiente a la imagen de las letras PAT.
mamarias que no conten
´
ıan formas circulares tan definidas
como las de la imagen Derenzo.
En lo que concierne a las im
´
agenes reconstruidas, en
general se observa un desempe
˜
no similar comparando los
resultados obtenidos por la U-Net y por la Real-ESRGAN.
No obstante, cabe destacar que esta
´
ultima necesita menos
datos que la anterior para lograr esos resultados. El sino-
grama de baja calidad, al momento de ser generado, contiene
la informaci
´
on de 128 detectores y 512 muestras temporales;
se interpola esta matriz obteniendo un sinograma de 256
detectores y 512 muestras con el fin de ser ingresado a la
U-Net y obtener un sinograma con las dimensiones correctas
a la salida (256 × 512). En cambio, antes de ingresar en la
Real-ESRGAN, se submuestrea el sinograma degradado; de
esta forma, con un sinograma de entrada de 128 detectores
y 256 muestras temporales, la Real-ESRGAN genera un
sinograma de 256 detectores y 512 muestras temporales.
En otras palabras, la Real-ESRGAN s
´
olo necesita el 50%
de los datos reales de entrada (la interpolaci
´
on necesaria en
la U-Net estar
´
ıa agregando datos artificialmente), y s
´
olo el
25% de los datos totales que ingresan en la U-Net.
Los modelos basados en la familia Real-ESRGAN, espe-
cialmente el Real-ESRGAN M2 y M3, muestran el mejor
rendimiento en t
´
erminos de las im
´
agenes de prueba y las
figuras de m
´
erito usadas en este trabajo. Adem
´
as, se destaca
la utilidad de la estrategia de testeo con los sinogramas com-
pletos para obtener mejores resultados en la reconstrucci
´
on
de im
´
agenes.
En cuanto a los diferentes modelos entrenados de Real-
ESRGAN, se ve una leve mejora en el modelo Real-
ESRGAN M2 con el generador preentrenado utilizando la
p
´
erdida L
1
en conjunto con la p
´
erdida perceptual, en vez
de s
´
olo la L
1
como en el caso de Real-ESRGAN M1.
Esto se puede deber a que este
´
ultimo modelo no logra
capturar la incertidumbre en la recuperaci
´
on de detalles
de alta frecuencia perdidos, como la textura; ya que al
minimizar el error absoluto medio esta p
´
erdida se queda
con los promedios de los valores de p
´
ıxeles de soluciones
posibles, que generalmente son demasiado suaves, y por lo
tanto tienen una calidad de percepci
´
on deficiente [31].
V. CONCLUSIONES
En general, se puede concluir que tanto el modelo U-Net
como los modelos Real-ESRGAN son efectivos para la re-
construcci
´
on de im
´
agenes OA en el contexto de resonancias
mamarias. Estos modelos logran mejorar la calidad de las
im
´
agenes finales en comparaci
´
on con las reconstrucciones
producto de los sinogramas con ruido y ancho de banda
limitado. En particular, los resultados son prometedores,
ya que indican que la red neuronal Real-ESRGAN puede
Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)
ISSN 2525-0159
17
http://elektron.fi.uba.ar
ser considerada como una opci
´
on viable para la super-
resoluci
´
on, remoci
´
on de ruido y mejora de ancho de banda
de los sinogramas provenientes de sistemas para TOA. Estos
hallazgos son relevantes para el campo de la biomedici-
na, ya que demuestran el potencial de los modelos de
aprendizaje autom
´
atico en la mejora de la calidad de las
im
´
agenes de resonancias mamarias provenientes de sistemas
para TOA, lo que podr
´
ıa ayudar a mejorar la precisi
´
on
y confiabilidad de los diagn
´
osticos m
´
edicos. En futuros
trabajos ser
´
ıa interesante explorar el uso de las redes neu-
ronales transformers para realizar esta tarea [35], [36]. Por
otro lado, se podr
´
ıa implementar un barrido exhaustivo de
hiperpar
´
ametros, incluyendo la variaci
´
on de la cantidad de
capas convolucionales de los RRDB, prueba que no se pod
´
ıa
realizar en este trabajo por limitaciones de memoria de GPU.
AGRADECIMIENTOS
Este trabajo fue financiado por la Universidad de Buenos
Aires (UBACYT 20020190100032BA), CONICET (PIP
11220200101826CO) and la Agencia I+D+i (PICT 2018-
04589, PICT 2020-01336).
REFERENCIAS
[1] R. A. Kruger, W. L. Kiser, D. R. Reinecke, G. A. Kruger, and
K. D. Miller, “Thermoacoustic molecular imaging of small animals,
Molecular imaging, vol. 2, no. 2, p. 15353500200303109, 2003.
[2] X. Wang, Y. Xu, M. Xu, S. Yokoo, E. S. Fry, and L. V. Wang,
“Photoacoustic tomography of biological tissues with high cross-
section resolution: Reconstruction and experiment, Medical physics,
vol. 29, no. 12, pp. 2799–2805, 2002.
[3] X. Wang, Y. Pang, G. Ku, X. Xie, G. Stoica, and L. V. Wang,
“Noninvasive laser-induced photoacoustic tomography for structural
and functional in vivo imaging of the brain, Nature biotechnology,
vol. 21, no. 7, pp. 803–806, 2003.
[4] P. Beard, “Biomedical photoacoustic imaging, Interface focus, vol. 1,
no. 4, pp. 602–631, 2011.
[5] I. Steinberg, D. M. Huland, O. Vermesh, H. E. Frostig, W. S.
Tummers, and S. S. Gambhir, “Photoacoustic clinical imaging,
Photoacoustics, vol. 14, pp. 77–98, 2019.
[6] M. Mehrmohammadi, S. Joon Yoon, D. Yeager, and S. Y Emelianov,
“Photoacoustic imaging for cancer detection and staging, Current
Molecular Imaging (Discontinued), vol. 2, no. 1, pp. 89–105, 2013.
[7] P. Hai, Y. Qu, Y. Li, L. Zhu, L. Shmuylovich, L. A. Cornelius, and
L. V. Wang, “Label-free high-throughput photoacoustic tomography
of suspected circulating melanoma tumor cells in patients in vivo,
Journal of biomedical optics, vol. 25, no. 3, p. 036002, 2020.
[8] L. V. Wang and J. Yao, A practical guide to photoacoustic tomogra-
phy in the life sciences, Nature methods, vol. 13, no. 8, pp. 627–638,
2016.
[9] R. A. Kruger, R. B. Lam, D. R. Reinecke, S. P. Del Rio, and R. P.
Doyle, “Photoacoustic angiography of the breast, Medical physics,
vol. 37, no. 11, pp. 6096–6100, 2010.
[10] G. Ku and L. V. Wang, “Deeply penetrating photoacoustic tomog-
raphy in biological tissues enhanced with an optical contrast agent,
Optics letters, vol. 30, no. 5, pp. 507–509, 2005.
[11] A. Fatima, K. Kratkiewicz, R. Manwar, M. Zafar, R. Zhang, B. Huang,
N. Dadashzadeh, J. Xia, and K. M. Avanaki, “Review of cost
reduction methods in photoacoustic computed tomography, Photoa-
coustics, vol. 15, p. 100137, 2019.
[12] N. Awasthi, S. K. Kalva, M. Pramanik, and P. K. Yalavarthy, “Vector
extrapolation methods for accelerating iterative reconstruction meth-
ods in limited-data photoacoustic tomography, Journal of biomedical
optics, vol. 23, no. 7, 2018.
[13] N. Awasthi, R. Pardasani, S. K. Kalva, M. Pramanik, and P. K.
Yalavarthy, “Sinogram super-resolution and denoising convolutional
neural network (srcn) for limited data photoacoustic tomography,
arXiv preprint arXiv:2001.06434, 2020.
[14] W. Choi, D. Oh, and C. Kim, “Practical photoacoustic tomography:
realistic limitations and technical solutions, Journal of Applied
Physics, vol. 127, no. 23, p. 230903, 2020.
[15] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley,
S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial nets,
Advances in neural information processing systems, vol. 27, 2014.
[16] N. Awasthi, G. Jain, S. K. Kalva, M. Pramanik, and P. K. Yalavarthy,
“Deep neural network-based sinogram super-resolution and band-
width enhancement for limited-data photoacoustic tomography, IEEE
transactions on ultrasonics, ferroelectrics, and frequency control,
vol. 67, no. 12, pp. 2660–2673, 2020.
[17] A. Hauptmann and B. T. Cox, “Deep learning in photoacoustic
tomography: current approaches and future directions, Journal of
Biomedical Optics, vol. 25, no. 11, 2020.
[18] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S.
Corrado, A. Davis, J. Dean, M. Devin et al., “Tensorflow: Large-
scale machine learning on heterogeneous distributed systems, arXiv
preprint arXiv:1603.04467, 2016.
[19] A. Paszke, S. Gross, F. Massa, A. Lerer, J. Bradbury, G. Chanan,
T. Killeen, Z. Lin, N. Gimelshein, L. Antiga et al., “Pytorch: An
imperative style, high-performance deep learning library, Advances
in neural information processing systems, vol. 32, 2019.
[20] C. B. Shaw, J. Prakash, M. Pramanik, and P. K. Yalavarthy, “Least
squares qr-based decomposition provides an efficient way of comput-
ing optimal regularization parameter in photoacoustic tomography,
Journal of Biomedical Optics, vol. 18, no. 8, 2013.
[21] J. Prakash, A. S. Raju, C. B. Shaw, M. Pramanik, and P. K.
Yalavarthy, “Basis pursuit deconvolution for improving model-based
reconstructed images in photoacoustic tomography, Biomedical op-
tics express, vol. 5, no. 5, pp. 1363–1377, 2014.
[22] A. Sarno, G. Mettivier, F. di Franco, A. Varallo, K. Bliznakova,
A. M. Hernandez, J. M. Boone, and P. Russo, “Dataset of patient-
derived digital breast phantoms for in silico studies in breast computed
tomography, digital breast tomosynthesis, and digital mammography,
Medical Physics, vol. 48, no. 5, pp. 2682–2693, 2021.
[23] S. Gutta, M. Bhatt, S. K. Kalva, M. Pramanik, and P. K. Yalavarthy,
“Modeling errors compensation with total least squares for limited
data photoacoustic tomography, IEEE Journal of Selected Topics in
Quantum Electronics, vol. 25, no. 1, pp. 1–14, 2017.
[24] I. Goodfellow, Y. Bengio, and A. Courville, Deep learning. MIT
press, 2016.
[25] O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional
networks for biomedical image segmentation, in Medical Image
Computing and Computer-Assisted Intervention–MICCAI 2015: 18th
International Conference, Munich, Germany, October 5-9, 2015,
Proceedings, Part III 18. Springer, 2015, pp. 234–241.
[26] G. Developers. Descending into ml: Training and loss machine
learning. [Online]. Available: https://developers.google.com/machine-
learning/crash-course/descending-into-ml/training-and-loss
[27] X. Wang, L. Xie, C. Dong, and Y. Shan, “Real-esrgan: Training real-
world blind super-resolution with pure synthetic data, in Proceedings
of the IEEE/CVF International Conference on Computer Vision, 2021,
pp. 1905–1914.
[28] X. Wang, K. Yu, S. Wu, J. Gu, Y. Liu, C. Dong, Y. Qiao, and
C. Change Loy, “Esrgan: Enhanced super-resolution generative ad-
versarial networks, in Proceedings of the European conference on
computer vision (ECCV) workshops, 2018.
[29] T. Miyato, T. Kataoka, M. Koyama, and Y. Yoshida, “Spectral
normalization for generative adversarial networks, arXiv preprint
arXiv:1802.05957, 2018.
[30] J. Johnson, A. Alahi, and L. Fei-Fei, “Perceptual losses for real-time
style transfer and super-resolution, in Computer Vision–ECCV 2016:
14th European Conference, Amsterdam, The Netherlands, October 11-
14, 2016, Proceedings, Part II 14. Springer, 2016, pp. 694–711.
[31] C. Ledig, L. Theis, F. Huszar, J. Caballero, A. P. Aitken, A. Te-
jani, J. Totz, Z. Wang, and W. Shi, “Photo-realistic single im-
age super-resolution using a generative adversarial network. corr
abs/1609.04802 (2016), arXiv preprint arXiv:1609.04802, 2016.
[32] L. Statistics. Pearson product-moment correlation. [On-
line]. Available: https://statistics.laerd.com/statistical-guides/pearson-
correlation-coefficient-statistical-guide.php
[33] M. M. H. Center. Psnr. [Online]. Available: https://nl.mathworks.
com/help/images/ref/psnr.html
[34] U. Sara, M. Akter, and M. S. Uddin, “Image quality assessment
through fsim, ssim, mse and psnr—a comparative study, Journal of
Computer and Communications, vol. 7, no. 3, pp. 8–18, 2019.
[35] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N.
Gomez, Ł. Kaiser, and I. Polosukhin, Attention is all you need,
Advances in neural information processing systems, vol. 30, 2017.
[36] C. Yao, S. Jin, M. Liu, and X. Ban, “Dense residual transformer for
image denoising, Electronics, vol. 11, no. 3, p. 418, 2022.
Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)
ISSN 2525-0159
18
http://elektron.fi.uba.ar

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia


Copyright (c) 2023 Delfina Montilla, Martín German González, Leonardo Rey Vega

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.


Revista elektron,  ISSN-L 2525-0159
Facultad de Ingeniería. Universidad de Buenos Aires 
Paseo Colón 850, 3er piso
C1063ACV - Buenos Aires - Argentina
revista.elektron@fi.uba.ar
+54 (11) 528-50889