Red adversaria generativa aplicada a la eliminación de ruido y artefactos en sinogramas de tomografía optoacústica

Delfina Montilla; Martín German González; Leonardo Rey Vega

Red adversaria generativa aplicada a la

eliminaci

on de ruido y artefactos en sinogramas

de tomograf

ıa optoac

ustica

Generative Adversarial Network Applied to the Elimination of Noise and Artifacts in Optoacoustic

Tomography Sinograms

Delﬁna Montilla

∗1

, Mart

ın G. Gonz

alez

∗†

, Leonardo Rey Vega

∗†

∗

Facultad de Ingenier

ıa, Universidad de Buenos Aires

Paseo Col

on 850, C1063ACV, Buenos Aires, Argentina

†

Consejo Nacional de Investigaciones Cient

ıﬁcas y T

ecnicas, (CONICET)

Godoy Cruz 2290, C1425FQB, Buenos Aires, Argentina

dmontilla@fi.uba.ar

Resumen— El objetivo de este trabajo es el estudio de

un m

etodo de pre-procesamiento de los datos medidos

por un tom

ografo optoac

ustico bidimensional para

reducir o eliminar los artefactos introducidos por la

escasa cantidad de detectores en el sistema experimental

y el acotado ancho de banda de estos. Para esta tarea, se

utiliz

o una red neuronal profunda generativa adversaria

y se compar

o su rendimiento con una red neuronal de

referencia U-Net. En la mayor

ıa de los casos de testeo

realizados, se encontr

o una leve mejora aplicando la

red propuesta al medir la correlaci

on de Pearson y la

relaci

on se

nal a ruido piso entre la imagen reconstruida

producto de los datos procesados por el modelo y la

imagen de alta resoluci

on de referencia.

Palabras clave: tomograf

ıa optoac

ustica; aprendizaje

profundo; GAN.

Abstract— The goal of this work is to study a

preprocessing method for the data measured by a

two-dimensional optoacoustic tomograph in order to

reduce or eliminate artifacts introduced by the low

number of detectors in the experimental setup and

their limited bandwidth. A generative adversarial deep

neural network was used to accomplish this task and

its performance was compared with a reference U-Net

neural network. In most of the test cases carried out, a

slight improvement was found by applying the proposed

network when measuring the Pearson correlation and

the peak signal noise ratio between the reconstructed

image product of the data processed by the model and

the high-resolution reference image.

Keywords: optoacustic tomography; machine learning;

GAN.

I. INTRODUCCI

Un enfoque muy prometedor para la obtenci

on de

agenes biol

ogicas es la tomograf

ıa optoac

ustica (TOA),

tambi

en conocida como tomograf

ıa fotoac

ustica o PAT por

sus siglas en ingl

es [1]–[3]. Es una t

ecnica no invasiva,

segura y de elevada resoluci

on que puede utilizarse para

una variedad de aplicaciones en la investigaci

on cl

ınica

y precl

ınica [4], [5], incluyendo la detecci

on de tumores

[6], [7]. Combina la excitaci

optica con la detecci

ultras

onica, lo que ofrece varias ventajas para la obtenci

de im

agenes biol

ogicas [8], como permitir la diferenciaci

de estructuras espec

ıﬁcas en el tejido, dependiendo de la

longitud de onda utilizada. La luz incidente s

olo necesita

ser absorbida por el objeto que se pretende estudiar para

generar una se

nal ac

ustica que pueda ser detectada de

manera conﬁable en lo profundo del tejido. Otra ventaja

es que, comparado con la microscop

ıa

optica, proporciona

una penetraci

on mucho mayor con una resoluci

on espacial

escalable al ser aplicada a tejido biol

ogico [9], [10]. Adem

as,

es una t

ecnica de imagen que no se basa en el uso de la

radiaci

on ionizante, como la tomograf

ıa computada (TC),

o de la ﬂuorescencia; sino en la relajaci

on no radiativa de

las mol

eculas. Por lo tanto, sirve para visualizar cualquier

mol

ecula siempre y cuando se produzca esta relajaci

on no

radiativa. Incluso ser

ıa posible el desarrollo de un equipo

port

atil de TOA, a diferencia del caso de la TC donde existen

limitaciones de seguridad por la utilizaci

on de radiaci

ionizante, o la resonancia magn

etica donde se requiere

de superconductores para la generaci

on de los campos

magn

eticos.

El mayor desaf

ıo en lo que concierne a la TOA es

la adquisici

on de datos a velocidad elevada con una ma-

triz de transductores ultras

onicos de elementos m

ultiples.

Si bien los sistemas de adquisici

on de datos multicanal

(≥ 128 canales) est

an disponibles comercialmente, estos

son todav

ıa costosos [11]. La calidad de la imagen OA

reconstruida depende en gran medida de la cantidad de datos

disponibles, que a su vez es proporcional al n

umero de

detectores empleados. En caso de datos limitados (debido

a la menor cantidad de detectores causado por restricciones

de costo/instrumentaci

on), las im

agenes reconstruidas sufren

de artefactos y, a menudo, son ruidosas. Asimismo, otra

desventaja para adquirir grandes cantidades de datos es un

mayor tiempo de escaneo de la muestra bajo estudio [12],

Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)

ISSN 2525-0159

Recibido: 30/05/23; Aceptado: 13/06/23

Creative Commons License - Attribution-NonCommercial-

NoDerivatives 4.0 International (CC BY-NC-ND 4.0)

https://doi.org/10.37537/rev.elektron.7.1.180.2023

Original Article

[13]. Adem

as, los detectores utilizados para las mediciones

tomogr

aﬁcas tienen un ancho de banda limitado y s

olo

pueden cubrir un rango de apertura, por lo cual es posible

que no cubran todo el objeto, resultando en datos limitados

en cantidad y calidad [14]. Por otro lado, el sinograma es la

representaci

on gr

aﬁca de las se

nales ac

usticas en funci

on del

tiempo medidas por los detectores de ultrasonido (se

nales

OA). Contiene la informaci

on sobre la distribuci

on espacial

y la amplitud de las se

nales OA capturadas por los detectores

durante el escaneo.

En este trabajo se estudia el uso de una red adversaria

generativa (GAN) [15] para la super-resoluci

on (aumento

de la calidad de reconstrucci

on con un n

umero limitado

de datos), la mejora del ancho de banda, y la remoci

de artefactos y ruido en se

nales ac

usticas provenientes de

mediciones de un sistema para TOA bidimensional. Se tiene

como antecedente el trabajo de investigaci

on [16], donde

se propuso el primer uso de una red neuronal profunda

aplicada exclusivamente al pre-procesamiento de las se

nales

OA medidas, en vez de hacerlo sobre la imagen reconstruida.

Es interesante destacar que uno de los atributos m

as impor-

tantes de un esquema basado en una red neuronal profunda

es la velocidad con la que pueden procesar los datos de

entrada. Para redes peque

nas, esto puede ser

util en entornos

donde se requiere la obtenci

on de im

agenes din

amicas o

en tiempo real [17]. Otra motivaci

on adicional para usar

modelos de aprendizaje profundo en la reconstrucci

on de

agenes OA, es la disponibilidad de herramientas como

TensorFlow [18] y PyTorch [19], que hacen que el empleo

de estos nuevos m

etodos presente una curva de aprendizaje

suave al proveer una documentaci

on completa y tutoriales

para los nuevos usuarios. El c

odigo correspondiente a este

trabajo se encuentra disponible en un repositorio de GitHub,

https://github.com/delﬁmontilla/PATGAN.

II. M

ETODOS

A. Generaci

on de los datos de entrenamiento, validaci

on y

testeo

Los componentes principales del sistema experimental

TOA incluyen un l

aser de pulsos cortos para la generaci

eﬁciente de se

nales de banda ancha (BW), un transductor

ultras

onico de banda ancha o una matriz de transductores

para la detecci

on de se

nales, un sistema de adquisici

on de

datos para ampliﬁcaci

on y digitalizaci

on de se

nales y una

computadora para la sincronizaci

on del sistema, recolecci

de datos y reconstrucci

on de las im

agenes [8]. El modelo

directo para la generaci

on de im

agenes de TOA se expresa

mediante la siguiente ecuaci

on:

Ax = b (1)

donde A es la matriz del sistema que contiene las respuestas

al impulso de todos los p

ıxeles en la regi

on de la imagen,

x es el vector que representa el aumento de presi

on inicial

y b es el sinograma [20]. En este contexto, las respuestas

al impulso representan el comportamiento de los p

ıxeles

individuales dentro de la regi

on correspondiente a la imagen

cuando se aplica un pulso. Cada p

ıxel tiene su propia

respuesta, la cual captura c

omo reacciona este a la se

nal,

incluyendo factores como la absorci

on, la dispersi

on y otras

propiedades f

ısicas. El n

umero de columnas en la matriz (A)

es igual al n

umero de p

ıxeles en el dominio de im

agenes;

y el n

umero de ﬁlas es equivalente a la cantidad de p

ıxeles

en el dominio del sinograma. En consecuencia, construir la

matriz del sistema es una tarea costosa desde el punto de

vista computacional cuando se desea una resoluci

on elevada.

Existen varios algoritmos para obtener una imagen a partir

del sinograma; se pueden clasiﬁcar como m

etodos anal

ıticos

o m

etodos iterativos basados en modelos. Dentro del primer

grupo mencionado, uno de los m

etodos matem

aticamente

as simples es el denominado retroproyecci

on lineal (LBP,

por sus siglas en ingl

es). En este enfoque, la reconstrucci

aproximada de la imagen x

se puede obtener a trav

es de

la siguiente ecuaci

on:

= A

b (2)

donde A

representa la transpuesta de la matriz que modela

el sistema experimental y b es el sinograma en forma

vectorial unidimensional [21]. Este m

etodo fue elegido para

este trabajo ya que tiene bajo tiempo de procesamiento

(sin tener en cuenta el tiempo que conlleva generar A

)

y no posee ning

un par

ametro de ajuste. Aunque es posible

utilizar esquemas basados en modelos para lograr una mayor

calidad de imagen se decidi

o utilizar LBP para reforzar que

la mejora en la calidad de la imagen reconstruida se debe

exclusivamente a la mejora en los datos del sinograma [16].

En este trabajo, los sinogramas se obtuvieron a partir de

una base de datos de 59 mil fantomas mamarios computa-

cionales generados a partir del procesamiento de resonancias

magn

eticas de alta resoluci

on adquiridas de pacientes, en

las cuales se clasiﬁc

o cada p

ıxel seg

un el tipo de material

al que correspond

ıa (aire, tejido adiposo, tejido glandular

y tejido cut

aneo) [22]. En primer lugar, de este conjunto

de datos se seleccion

o cuidadosamente un subconjunto de

2126 im

agenes de forma tal de evitar redundancia y sesgos

innecesarios. A su vez fue dividido de forma azarosa en

tres grupos: 70 % para el entrenamiento (1500 im

agenes),

19% para la validaci

on (400 im

agenes) y 11% para el testeo

(226 im

agenes). Los primeros dos grupos fueron utilizados

en la etapa de entrenamiento de las redes neuronales y el

ultimo grupo se reserv

o para testear el modelo resultante. En

segundo lugar, se generaron los sinogramas multiplicando

los fantomas mamarios, en forma de vector unidimensional,

por la matriz del sistema experimental. Utilizando Python, se

construy

o la matriz del sistema con los mismos par

ametros

experimentales que en [16]. Como se puede ver en la

Fig. 1, se emple

o una cuadr

ıcula computacional de n × n

ıxeles. Para la generaci

on de datos, se utiliz

o una grilla

de alta dimensi

on de nx

g en

× nx

g en

ıxeles; en cam-

bio, para la reconstrucci

on de los datos, la grilla era de

recon

× nx

recon

ıxeles. Se colocaron transductores en

el l

ımite del tejido de manera circularmente equidistante

en un radio dsa; estos muestrearon observaciones con una

frecuencia F . En total, se tomaron N t muestras temporales.

Se supuso que la velocidad del sonido en el medio, el tejido

bajo investigaci

on, era uniforme sin absorci

on ni dispersi

e igual a 1500 m/s.

Para la generaci

on de sinogramas de alta calidad se

simularon N s

detectores de ultrasonido sin limitaci

on de

Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)

ISSN 2525-0159

http://elektron.fi.uba.ar

ancho de banda, resultando en sinogramas de dimensiones

× Nt. Mientras que para la generaci

on de sinogramas

de baja calidad, se colocaron la mitad detectores N s

con

ancho de banda limitado, se agreg

o ruido gaussiano con una

relaci

on se

nal-ruido de entre 10 y 70dB y se interpol

o de

× Nt a Ns

× Nt utilizando el m

etodo de vecinos

cercanos (nearest neighbour). Estos sinogramas de menor

resoluci

on, ancho de banda limitado y con ruido ser

procesados por los modelos de aprendizaje profundo con el

objetivo de que se asemejen a los sinogramas de alta calidad

anteriormente mencionados. En el caso de la construcci

de la matriz para la reconstrucci

on de los sinogramas, se

simularon N s

detectores de ultrasonido sin limitaci

on de

ancho de banda.

A continuaci

on, se especiﬁcar

an los valores de los

par

ametros para generar la matriz del sistema experimental.

Primero, la grilla computacional es de 501 × 501 p

ıxeles

con 0, 1 mm/p

ıxel, lo que la convierte en un tama

no de

cuadr

ıcula de im

agenes de 50 mm por 50 mm. El largo

del lado de la grilla de generaci

on de datos, nx

g en

, es de

401 p

ıxeles; y el lado de un p

ıxel cuadrado es de 50µm.

En cambio, para la reconstrucci

on de los datos, el largo del

lado de la grilla nx

recon

es igual a 201 p

ıxeles, donde el

valor del largo del p

ıxel es 100µm. La cantidad de sensores

para la generaci

on de sinogramas de baja calidad, N s

, es

de 128; mientras que para los sinogramas de alta calidad

y la matriz de reconstrucci

on con LBP, N s

= 256. Los

sensores se encuentran a 22, 5 mm del centro de la grilla

computacional, la mencionada distancia dsa. La cantidad

de muestras temporales, Nt, fueron 512; y la frecuencia de

muestreo, llamada F , era de 20 Mhz.

Para la generaci

on de sinograma se realizaron los siguien-

tes pasos:

• Re-escalar el fantoma a las dimensiones de la grilla de

la muestra nx

g en

× nx

g en

• Convertirlo en un vector unidimensional

• Generar la matriz A del sistema con los valores indi-

cados para la generaci

on de dato, eligiendo la cantidad

de detectores requeridos dependiendo del tipo de sino-

grama deseado

• Multiplicar A por el fantoma vectorizado

• Convertir el sinograma unidimensional resultante en la

matriz correspondiente

– Para un sinograma de alta calidad N s

× N t

– Para un sinograma de baja calidad N s

× N t

• Para el caso de un sinograma de baja calidad:

– Agregar ﬁltro pasabanda

– Agregar ruido gaussiano con una relaci

on se

nal-

ruido de entre 10 y 70 dB

– Interpolar a N s

× N t

Para la reconstrucci

on de las im

agenes se realizaron los

siguientes pasos:

• Convertir el sinograma de dimensiones Ns

× N t en

un vector unidimensional

• Generar la matriz A del sistema con los valores indi-

cados para la reconstrucci

on de datos

• Trasponer A, obteniendo A

• Multiplicar A

por el sinograma vectorizado

• Convertir la imagen vectorizada resultante en la matriz

Fig. 1: Representaci

on gr

aﬁca de la conﬁguraci

on para la

recopilaci

on de datos.

Fig. 2: Ejemplo de un fantoma mamario original (arriba a

la izquierda) y la reconstrucci

on utilizando LBP (arriba a la

derecha) del sinograma de alta calidad (abajo).

correspondiente de dimensiones nx

recon

× nx

recon

ultimo lugar, para la preparaci

on de los datos para

el entrenamiento se generaron 105 parches de dimensiones

64 × 64, utilizando un paso de 32 muestras, para todos los

sinogramas de los dos grupos. Este procedimiento, al igual

que en [16], se realiza para que la red pueda aprender a

corregir detalles locales de los sinogramas.

En la Fig. 2 se puede ver un ejemplo de un fantoma ma-

mario y su reconstrucci

on utilizando este m

etodo partiendo

del sinograma de alta calidad. Este tipo de reconstrucci

es la imagen de mejor calidad que podr

a ser obtenida con

LBP y por lo tanto ser

a utilizada como referencia para la

comparaci

on de las im

agenes obtenidas con los modelos

basados en redes neuronales profundas. Con el ﬁn de testear

diferentes aspectos del modelo resultante, se utilizaron cua-

tro im

agenes distintas que no formaron parte de los datos de

entrenamiento [23] y se muestran en la primera columna de

la Fig. 3. La imagen con la letras PAT ayuda a determinar la

Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)

ISSN 2525-0159

http://elektron.fi.uba.ar

Fig. 3: Im

agenes originales (izquierda) y la reconstrucci

utilizando LBP de los sinogramas de alta calidad (derecha).

eﬁcacia para recuperar objetos n

ıtidos. La segunda imagen

se denomina Derenzo y est

a compuesta por grupos de

objetos circulares con diferentes radios que ayudan a evaluar

el poder de reconstrucci

on de objeto peque

nos y grandes.

La tercera imagen que se asemeja a vasos sangu

ıneos se

utiliza para analizar el poder de reconstrucci

on de estructuras

amorfas complicadas. Estas tres im

agenes mencionadas son

binarias, con ’1’ para el objeto de inter

es y ’0’ para el

fondo. Por otro lado, la cuarta imagen corresponde a un

fantoma mamario y sirve para testear el caso de una imagen

OA compleja que presenta un contraste variable y ruido. A

continuaci

on, se generaron los sinogramas de alta calidad de

estas im

agenes utilizando el mismo procedimiento explicado

anteriormente. En la segunda columna de la Fig. 3 se

presentan sus reconstrucciones usando LBP. Por

ultimo, se

generaron los sinogramas de baja calidad; para el caso de

estas cuatro im

agenes, el ruido gaussiano agregado ten

ıa una

relaci

on se

nal-ruido de 60 dB.

B. U-Net: red neuronal de referencia

1) Arquitectura: La U-Net es una red neuronal convolu-

cional cuya estructura es sim

etrica y tiene forma de “U”. La

Fig. 4: Estructura de la U-Net implementada por [16]. Cada

rect

angulo azul corresponde a un mapa de caracter

ısticas

multi-canal (multi-channel feature map) donde en la parte

superior se indica el n

umero de canales, y en el borde

inferior izquierdo, el ancho y alto de las im

agenes.

primera parte de la red, denominada “ruta de contracci

on”,

consiste en una sucesi

on de capas convolucionales, de

activaci

on y de agrupaci

on. Mientras que la segunda parte

de la red, denominada “ruta de expansi

on”, es una secuencia

de capas convolucionales, convolucionales transpuestas y de

activaci

on. Asimismo, esta estructura cuenta con conexiones

residuales entre las dos “rutas” para mantener la estructura

general de la entrada en la salida cumpliendo adem

as fun-

ciones de estabilidad durante el entrenamiento, minimizando

los efectos del gradiente desvanesciente [24]. La entrada y

salida de la U-Net tienen dimensiones id

enticas debido a

la simetr

ıa de las operaciones. La arquitectura original fue

presentada por Ronneberger et al. [25] en 2015 y Awasthi et

al. [16] eligieron esta red neuronal para llevar a cabo la tarea

de superresoluci

on, remoci

on de ruido y mejora de ancho de

banda en sinogramas obtenidos de una sistema para TOA.

En la Fig. 4 se ilustra la estructura implementada en [16].

2) Estrategia de entrenamiento: El entrenamiento de un

modelo implica determinar valores

optimos para todos los

pesos. En el aprendizaje supervisado, un algoritmo construye

un modelo examinando muchos ejemplos e intentando en-

contrar aquellos pesos que minimicen una funci

on de error

o p

erdida. Este proceso se denomina minimizaci

on emp

ırica

del riesgo. Entonces, se puede pensar en la funci

on de

erdida como la forma de evaluar la calidad de la predicci

realizada por el modelo. Si la predicci

on del modelo es

perfecta, el valor de la funci

on de p

erdida es cero. El

objetivo de entrenar un modelo es encontrar un conjunto

de pesos que tengan una p

erdida promedio baja para todos

los ejemplos de prueba [26].

Se reprodujo la misma estrategia de entrenamiento que la

presentada en [16] donde los hiper-par

ametros ya se encuen-

tran optimizados. La entrada al modelo corresponde a los

parches de 64 ×64 p

ıxeles de baja calidad que, luego de ser

procesados por la red con 32 ﬁltros de entrada, se comparan

con los datos target (o sea, los parches de 64 × 64 p

ıxeles

de los sinogramas de alta calidad). La funci

on de p

erdida

elegida fue la ra

ız del error cuadr

atico medio escalada. Este

escalado se implementa para minimizar el problema del

desvanecimiento del gradiente al aplicar backpropagation

en el entrenamiento con sinogramas que contienen valores

Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)

ISSN 2525-0159

http://elektron.fi.uba.ar

Fig. 5: Generador del modelo Real-ESRGAN [27]

del orden de magnitud alrededor de 1 · 10

−4

. En [16] se

determin

o emp

ıricamente que el factor de multiplicaci

para esta aplicaci

on es 10000:

L =

i=1

∥ˆx

− ϕ (x

)∥

× τ (3)

donde ϕ (x

) es la salida predicha por la red; ˆx, el parche

target; y τ, el factor multiplicador. Por otro lado, se utiliz

el optimizador de Adam para entrenar la red con una tasa

de aprendizaje de 1 · 10

−3

. y una tasa de decaimiento de

0, 98 con un tama

no de paso de 2. Por

ultimo, el n

umero de

epochs de entrenamiento y el batch size o tama

no de grupo

de entrenamiento fueron de 250 y 128, respectivamente.

3) Estrategia de testeo: Los sinogramas de testeo de

baja calidad, 256 × 512 p

ıxeles, se rellenaron (padding)

utilizando el modo reﬂejo con el objetivo de llevar el tama

a 512 × 512 p

ıxeles. Luego, fueron introducidos en la

U-Net entrenada para obtener una versi

on mejorada. Los

sinogramas devueltos por la red se reconstruyeron usando el

etodo LBP. Finalmente, se realiz

o el mismo procedimiento

de testeo con los sinogramas de baja calidad obtenidos a

partir de las im

agenes de la Fig. 3.

C. Real-Enhanced Super Resolution Generative Adversarial

Network - Real-ESRGAN

1) Arquitectura: La Real-ESRGAN es una red neuronal

puramente convolucional para realizar super-resoluci

on en

agenes [27]. La arquitectura de esta red fue dise

nada para

lograr un buen equilibrio entre la mejora de detalles locales

y la eliminaci

on de artefactos. En este trabajo se estudia su

aplicaci

on en el pre-procesamiento de sinogramas OA de

baja calidad. El generador es una red neuronal profunda

denominada ESRGAN [28] que est

a compuesta por ca-

pas convolucionales, 16 bloques convolucionales residuales

(RRDB, por sus siglas en ingl

es) y capas de sobremuestreo.

En la Fig. 5 se muestra su arquitectura.

En particular, un bloque RRDB (Fig. 6) consiste en

tres conjuntos id

enticos sucesivos de cinco capas convolu-

cionales intercaladas con capas de activaci

on Leaky ReLU:

LeakyReLU(x) =

(

x, si x ≥ 0

αx, si x < 0

donde α es igual a 0, 2. Las conexiones residuales son para

prevenir inestabilidades en el entrenamiento. Asimismo, el

escalado residual puede interpretarse como una herramienta

para corregir una inicializaci

on incorrecta, evitando as

ı au-

mentar la magnitud de los valores de las se

nales de entrada

[28]. Con la arquitectura Real-ESRGAN se puede a realizar

super-resoluci

on con un factor de escala de ×1, ×2 y ×4. En

este trabajo se eligi

o la opci

on ×2. Para ese caso, los datos

de entrada pasan por un proceso llamado Pixel Unshufﬂe

Fig. 6: RRDB (Residual-in-Residual Dense Blocks)

Fig. 7: Pixel Unshufﬂe

donde la matriz de entrada de un s

olo canal se descompone

en 4 canales, tal como se puede ver en la Fig. 7. El objetivo

es reducir el tama

no espacial para que los c

alculos realizados

por la red se realicen en un espacio de resoluci

on m

as chico,

y as

ı disminuir la utilizaci

on de la memoria de la GPU y el

consumo de recursos computacionales.

Por otro lado, el discriminador de la Real-ESRGAN es

una red neuronal convolucional U-Net, Fig. 8, pero a dife-

rencia a la U-Net mencionada en la secci

on anterior, esta red

utiliza capas de activaci

on Leaky ReLU (con pendiente 0, 2)

y normalizaci

on espectral [29] excepto la primera y

ultima

capa convolucional. La normalizaci

on espectral consiste en

re-escalar los pesos de la siguiente forma:

σ(W)

, σ(W) = max

xx=0

∥Wx∥

∥x∥

(4)

donde σ(W) es el m

aximo valor singular de W. Este

discriminador en particular fue elegido para que haga foco

en degradaciones locales y para estabilizar el entrenamiento

[27]. Asimismo, la U-Net genera un valor para cada p

ıxel

que indica el nivel de realismo y as

ı puede proporcionar

informaci

on detallada por p

ıxel al generador.

2) Estrategia de entrenamiento: Los datos de entrada

de la red generadora fueron los sinogramas sin pre-

procesamiento; y, a partir de ellos, el objetivo era estimar

sinogramas de elevada calidad. En consecuencia, se entren

Fig. 8: Discriminador de la Real-ESRGAN: U-Net con

normalizaci

on espectral [27]

Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)

ISSN 2525-0159

http://elektron.fi.uba.ar

la red Real-ESRGAN optimizando una combinaci

on pesada

entre la p

erdida L

o error absoluto medio, la p

erdida

perceptual [30] y la p

erdida adversaria [15], [26], [31]. En

primer lugar, el error absoluto medio se deﬁne como el

promedio de las diferencias absolutas entre el valor real y

el predicho:

i=1

− gt

(5)

donde y

y gt

son los valores predichos y los reales,

correspondientemente, y n reﬁere a la cantidad total de

valores. Mide la magnitud promedio de los errores en un

conjunto de predicciones, sin considerar sus direcciones.

es m

as resistente a los valores at

ıpicos o outliers en

comparaci

on con el error cuadr

atico medio. En segundo

lugar, la p

erdida perceptual analiza las diferencias entre

las representaciones intermedias que son extra

ıdas por las

redes neuronales convolucionales previamente entrenadas y

capturan caracter

ısticas visuales importantes. De esta forma,

se logra medir la similitud entre las caracter

ısticas visuales

extra

ıdas del sinograma generado y del de referencia de

forma m

as robusta que la p

erdida L

. Esta funci

on de

erdida est

a compuesta por dos t

erminos que se suman: la

erdida de reconstrucci

on de caracter

ısticas y la p

erdida de

reconstrucci

on de estilo. La primera transﬁere conocimiento

sem

antico a la Real-ESRGAN conservando el contenido y

la estructura espacial general del sinograma; y se calcula

como:

= ω

k=1

· L

(x), f

(gt)) (6)

donde ω

representa el peso de la p

erdida de caracter

ısticas,

n es el n

umero de capas de caracter

ısticas de la red pre-

entrenada utilizadas, w

es el peso asignado a la k-

esima

capa, f

es la funci

on de la caracter

ıstica de la k-

esima

capa y x y gt son el sinograma de entrada y el de referencia

respectivamente. L

es una funci

on de p

erdida que mide la

diferencia entre las caracter

ısticas de entrada y de referencia

(en este caso, la funci

on elegida es la L

). La red pre-

entrenada utilizada es la VGG19 [30]. Con respecto al otro

ermino, la p

erdida de estilo analiza las diferencias en color,

textura y patrones comunes y se calcula como:

= ω

k=1

· L

(Gram(f

(x)), Gram(f

(gt))) (7)

donde ω

representa el peso de la p

erdida de estilo, n es el

umero de capas de caracter

ısticas de VGG utilizadas, w

es el peso asignado a la k-

esima capa, L

es la funci

on de

erdida que mide la diferencia entre las matrices Gram de las

caracter

ısticas de la k-

esima capa, Gram(f

); y x y gt son

el sinograma de entrada y el de referencia, respectivamente.

La matriz de Gram informa sobre qu

e caracter

ısticas tienden

a activarse juntas y se deﬁne como

(x)

c,c

h=1

w=1

(x)

h,w,c

(x)

h,w,c

(8)

donde C

, H

y W

son las dimensiones de los canales,

altura y ancho del mapa de caracter

ısticas, respectivamente.

Por

ultimo, la p

erdida adversaria, que es espec

ıﬁca de las

redes GAN, mide la capacidad del generador para pro-

ducir datos que sean indistinguibles de los datos reales,

es decir, ayuda al generador a producir sinogramas con

las caracter

ısticas de los sinogramas de elevada calidad

originales. El generador trata de maximizar la probabilidad

de que el discriminador clasiﬁque una muestra generada

como real, mientras que el discriminador trata de minimizar

la probabilidad de que clasiﬁque una muestra generada como

real. La ecuaci

on de la p

erdida adversaria usada en este

trabajo se muestra a continuaci

on [15]:

GAN

(G, D)=E

g t

[log D(gt)]+E

[log(1−D (G(x))] (9)

la cual se debe mimimizar sobre G y maximizar sobre D,

siendo G el generador, D el discriminador, D(gt) es la

estimaci

on del discriminador de la probabilidad de que el

dato de entrada de elevada resoluci

on pertenezca a los datos

target, y D(G(x)) es la estimaci

on del discriminador de la

probabilidad de que el dato de entrada de baja resoluci

que pas

o por el generador pertenezca a los datos target. La

funci

on para estimar las probabilidades depende del tipo de

GAN que se est

e utilizando. En el c

odigo proporcionado

en [27], se implementan varios tipos de GAN. Para el tipo

Vanilla GAN [15], se utiliza entrop

ıa cruzada binaria (BCE

With Logits Loss) [19]):

L(x, k) = −

i=1

· log σ(x

) + (1 − k

) · log(1 − σ(x

))]

(10)

donde x es el sinograma de entrada de la red neuronal, k es

el valor asignado seg

un el tipo de sinograma que sea (baja

o elevada calidad), n es el tama

no del batch size, y σ es la

funci

on sigmoida.

El entrenamiento de la red GAN se dividi

o en dos eta-

pas: el pre-entrenamiento del generador y el entrenamiento

conjunto del generador y discriminador. Se realiza un pre-

entrenamiento del generador ya que se ha demostrado que

ayuda a evitar m

ınimos locales no deseados para el ge-

nerador y ayuda al discriminador a enfocarse m

as en las

texturas en el siguiente entrenamiento en conjunto, debido

a que recibe datos relativamente buenos de un generador

pre-entrenado en lugar de datos m

as aleatorios [28]. En

la siguiente etapa, durante el entrenamiento de G y D, el

discriminador busca distinguir los sinogramas de elevada

calidad de los sinogramas producidos por el generador,

mientras que el generador optimiza sus sinogramas de salida

para enga

nar al discriminador. Con respecto a la conver-

gencia, a medida que el generador mejora a lo largo del

entrenamiento, el rendimiento del discriminador empeora

porque este no puede distinguir f

acilmente la diferencia

entre los sinogramas de elevada resoluci

on originales y los

producidos por el generador. Idealmente si la red genera-

dora funcionase perfectamente, el discriminador tendr

ıa una

precisi

on del 50%. Otro punto para considerar es que la

retroalimentaci

on del discriminador hacia el generador se

vuelve menos signiﬁcativa con el tiempo, lo que diﬁculta la

convergencia de la GAN. Si la GAN contin

ua entrenando

as all

a del punto en que el discriminador est

a dando

Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)

ISSN 2525-0159

http://elektron.fi.uba.ar

valores completamente aleatorios en las p

erdidas, entonces

el generador se ve afectado y su propia calidad puede

deteriorarse gravemente.

Se llevaron a cabo diversos entrenamientos, con varia-

ciones en los hiperpar

ametros, que se resumen en la Tabla

I. Sin embargo, debido a la limitaci

on de tiempo y recursos

computacionales, no se realiz

o una exploraci

on exhaustiva

de todas las posibilidades. Para el primer entrenamiento de

la Real-ESRGAN, denominado de ac

a en adelante Real-

ESRGAN M1, se utiliz

o de base la conﬁguraci

on de hiper-

par

ametros descripta en [27]. El pre-entrenamiento se realiza

durante un total de 1 · 10

iteraciones, con un optimizador

Adam, cuya tasa de aprendizaje se estableci

o en 2·10

−4

con

decaimiento de 0, 5 a las 3·10

iteraciones. En esta instancia,

se utiliz

unicamente la p

erdida L

; de esta forma, seg

[27], el generador pre-entrenado se encuentra orientado a

optimizar el valor pico de la relaci

on se

nal-ruido (PSNR).

La siguiente etapa fue el entrenamiento en conjunto por

4 · 10

iteraciones del discriminador con el generador pre-

entrenado, utilizando en ambos casos un optimizador Adam

con tasa de aprendizaje 1 · 10

−4

y decaimiento de 0, 5 a

las 2 · 10

iteraciones. Aqu

ı se utiliz

o una combinaci

de p

erdida L

, p

erdida perceptual y p

erdida adversaria. El

segundo entrenamiento se llamar

a de ac

a en adelante Real-

ESRGAN M2. Para el pre-entrenamiento del generador, se

utilizaron los mismos hiperpar

ametros que Real-ESRGAN

M1, pero se opt

o por combinar la perdida L

con la

erdida perceptual. El entrenamiento del discriminador y

generador fue realizado conservando la conﬁguraci

on de

Real-ESRGAN M1. En el tercer entrenamiento se salte

el pre-entrenamiento del generador, es decir, el modelo

Real-ESRGAN M3 const

o solamente del entrenamiento en

conjunto del generador y discriminador y utilizando los

mismos hiperpar

ametros que los usados en Real-ESRGAN

M1. Es importante destacar que los parches de entradas a la

red de 64 × 64 son submuestrados a 32 × 32 ya que, como

se mencion

o anteriormente, la Real-ESRGAN usada en este

trabajo tiene un factor de escala de ×2.

3) Estrategia de testeo: Al ser el generador una red

completamente convolucional, las dimensiones de los sino-

gramas de entradas no se encuentran ﬁjas y las dimensiones

de la salida son proporcionales a las de la entrada. Por esta

raz

on, se dise

naron dos estrategias de testeo para las cuales

no se debi

o realizar ning

un cambio en la Real-ESRGAN.

Por un lado, los sinogramas de testeo de 256 × 512 p

ıxeles

de baja calidad se submuestrearon a 128 × 256 p

ıxeles para

ser ingresados en la Real-ESRGAN entrenada y as

ı obtener

una versi

on mejorada. Por otro lado, al igual que en el

entrenamiento, los 105 parches de cada sinograma de testeo

de 64 × 64 p

ıxeles de baja calidad, se submuestrearon a

32 × 32 p

ıxeles para ser ingresados en la Real-ESRGAN

entrenada y as

ı obtener una versi

on mejorada. Luego, en

este

ultimo caso, se rearmaron los parches de los sinogramas

para formar sinogramas de tama

no completo 256 × 512

ıxeles. Los sinogramas de salida de ambas estrategias se

reconstruyeron siguiendo el procedimiento explicado an-

teriormente, cuyo resultado fueron im

agenes reconstruidas

usando LBP.

D. Figuras de m

erito

Para evaluar los resultados de los modelos se utilizaron

la correlaci

on de Pearson (PC) y la relaci

on se

nal a ruido

pico (PSNR). La correlaci

on de Pearson es una medida de

correlaci

on lineal, entre dos im

agenes y se deﬁne de la

siguiente manera:

P C(x, y) =

cov(x, y)

(11)

donde x e y son las im

agenes de referencia y reconstruida,

respectivamnte, σ denota la desviaci

on est

andar y cov es

la covarianza. El resultado de la correlaci

on Pearson se

encuentra acotado entre −1 (correlaci

on lineal negativa) y 1

(correlaci

on lineal positiva), y un resultado nulo implica que

no hay dependencia lineal entre las variables [32]. La PSNR

es una medida cuantitativa que eval

ua la intensidad de la

nal deseada en comparaci

on con el ruido de fondo [33].

En este caso, la se

nal deseada es la mejor reconstrucci

posible de una imagen, y el ruido es el error entre la imagen

mencionada y las reconstrucciones producto de los sinogra-

mas de salida de los diferentes modelos. Se puede considerar

como una estimaci

on aproximada de la percepci

on humana

de la calidad de la reconstrucci

on [34]. La PSNR se deﬁne

como:

PSNR(x, y) = 10log



MAX

MSE(x, y)



(12)

donde MAX denota el m

aximo valor que puede tomar un

ıxel en la imagen y MSE es el error cuadr

atico medio

entre x e y. A diferencia del MSE, un elevado valor de la

PSNR (en dB) denota una imagen reconstruida con mejor

calidad.

III. RESULTADOS

Se realiz

o el an

alisis del rendimiento de los modelos

estudiados en este trabajo para mejorar el sinograma sin

pre-procesamiento utilizando las cuatro im

agenes de testeo

de la Fig. 3 y el grupo de fantomas mamarios que se hab

ıa

reservado para el testeo. Con este

ultimo grupo, se evalu

o y

compar

o el rendimiento de los modelos utilizando el prome-

dio y la desviaci

on est

andar de las m

etricas anteriormente

mencionadas, contrastando las im

agenes reconstruidas pro-

ducto de los sinogramas procesados por las redes neuronales

contra la reconstrucci

on utilizando LBP del sinograma de

calidad alta. Esto se realiz

o con el ﬁn de s

olo estar com-

parando la mejora en los sinogramas sin que inﬂuyan las

limitaciones del m

etodo de reconstrucci

on en los resultados.

Los resultados num

ericos se encuentran en la Tabla II. En

general, los resultados de todos los modelos se encuentran

en la misma franja de valores delimitada por sus desv

ıos

est

andar y son ampliamente superiores al resultado obtenido

sin pre-procesamiento. Los valores por encima de 0, 95 para

la correlaci

on de Pearson indican una fuerte relaci

on positiva

entre la imagen de referencia y las im

agenes reconstruidas

gracias a las distintas redes neuronales. En cuanto a las

etricas relacionadas con diferencias num

ericas locales, la

PSNR de los modelos es m

as elevada > 12 dB que el

caso sin procesar, es decir, debido al procesamiento los

valores individuales de los p

ıxeles se acercan m

as a los

Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)

ISSN 2525-0159

http://elektron.fi.uba.ar

Conﬁguraci

on Pre-entrenamiento Entrenamiento

GAN M1 1 · 10

iteraciones 4 · 10

iteraciones

Optimizador Adam Optimizador Adam

Tasa de aprendizaje: 2 · 10

−4

Tasa de aprendizaje: 1 · 10

−4

Decaimiento: 0.5 a 3 · 10

iteraciones Decaimiento: 0.5 a 2 · 10

iteraciones

erdida utilizada: L

erdidas utilizadas: L

, p

erdida perceptual, p

erdida adversaria

GAN M2 1 · 10

iteraciones 4 · 10

iteraciones

Optimizador Adam Optimizador Adam

Tasa de aprendizaje: 2 · 10

−4

Tasa de aprendizaje: 1 · 10

−4

Decaimiento: 0.5 a 3 · 10

iteraciones Decaimiento: 0.5 a 2 · 10

iteraciones

erdida utilizada: L

y p

erdida perceptual P

erdidas utilizadas: L

, p

erdida perceptual y p

erdida adversaria

GAN M3 - 4 · 10

iteraciones

- Optimizador Adam

- Tasa de aprendizaje: 1 · 10

−4

- Decaimiento: 0.5 a 2 · 10

iteraciones

- P

erdidas utilizadas: L

, p

erdida perceptual y p

erdida adversaria

TABLA I: Conﬁguraci

on de los entrenamientos de Real-ESRGAN

de la mejor imagen posible. En particular, el modelo U-

Net muestra el mejor rendimiento en las dos m

etricas, obte-

niendo P C = 0, 984 y P SNR = 33.6 dB. Por otro lado, los

modelos Real-ESRGAN (M1, M2 y M3) tambi

en muestran

un rendimiento prometedor. Utilizando tanto parches de

imagen (P) como el sinograma completo (C), estos modelos

logran un muy buen desempe

no. En la Fig. 9, se ejempliﬁca

un resultado cualitativo de todos los modelos junto con la

imagen original, la reconstrucci

on del sinograma de elevada

calidad utilizada y la del sinogramas sin pre-procesamiento.

A simple vista se nota la mejora producto de la U-Net y

de la Real-ESRGAN; los bordes de la muestra de tejido

se encuentran deﬁnidos m

as precisamente, al igual que los

detalles internos.

En lo que sigue, se analizan los resultados obtenidos para

las im

agenes de la Fig. 3; como son im

agenes individuales,

los resultados constan de un valor para cada m

etrica, sin

la desviaci

on est

andar. Con respecto a la imagen que se

asemeja a vasos sangu

ıneos, los resultados se muestran en

el Tabla III, donde se puede ver que el rendimiento m

as bajo

entre todos corresponde a los resultados obtenidos utilizando

datos sin pre-procesamiento, aunque la mejora no es tan

substancial como en el caso de fantomas de resonancia

mamaria. Adem

as, en la Fig. 10, con la comparaci

on se

aprecia esta diferencia entre los resultados de los modelos

con la peor reconstrucci

on como referencia en la primera

ﬁla de im

agenes a la derecha. De esta forma, se valida el

poder de reconstrucci

on de estructuras complicadas amorfas

de todos los modelos, destacando el modelo Real-ESRGAN

M2 con la estrategia de testeo de sinograma completo que

arroja los mejores resultados en todas las categor

ıas. Acerca

del patr

on de tejido mamario, los resultados aparecen en el

Tabla III. Se observ

o que todos los modelos Real-ESRGAN

superaron el rendimiento de la reconstrucci

on con datos sin

pre-procesamiento en todas las m

etricas evaluadas. Para el

modelo Real-ESRGAN M2, los resultados indican que la

utilizaci

on del sinograma completo proporciona una mejora

en el rendimiento en comparaci

on con el uso de parches de

la imagen. En cuanto al modelo Real-ESRGAN M3, tanto

con parches del sinograma como con el sinograma completo,

mostr

o un rendimiento a

un mejor en comparaci

on con los

modelos anteriores. Por su parte, el modelo U-Net muestra

un buen rendimiento en la reconstrucci

on de im

agenes en

comparaci

on con los datos sin pre-procesamiento, pero no

supera el rendimiento de los modelos RealESRGAN eval-

uados. Esto indica que los modelos RealESRGAN pueden

ser m

as eﬁcaces para la reconstrucci

on de im

agenes en este

contexto espec

ıﬁco.

En la Fig. 11, se puede apreciar como la U-Net y los

distintos modelos entrenados de la Real-ESRGAN mejoran

la reconstrucci

on del sinograma sin pre-procesamiento, vali-

dando su uso en im

agenes fotoac

usticas complejas con ruido

y contraste variable.

La Tabla III muestra los resultados num

ericos de las

etricas para cada modelo en el caso de la imagen Derenzo

que eval

ua la capacidad del modelo para recuperar objetos

circulares de diferentes tama

nos.

En lo que respecta a los modelos de Real-ESRGAN, el

Real-ESRGAN M1 con parches y el Real-ESRGAN M1 con

sinograma completo presentan mejoras signiﬁcativas en las

etricas evaluadas en comparaci

on con la reconstrucci

del sinograma sin pre-procesamiento. Prosiguiendo con el

alisis, Real-ESRGAN M2 presentan un desempe

no mejo-

rado en comparaci

on con el modelo anterior; tanto Real-

ESRGAN M2 con parches como el Real-ESRGAN M2 con

sinograma completo muestran valores promedio m

as altos

en todas las m

etricas evaluadas. Por su parte, considerando

las dos t

ecnicas de testeo del modelo Real-ESRGAN M3,

se consiguieron los valores promedio m

as altos en todas las

etricas evaluadas de todos los modelos, incluida la U-Net.

Sin embargo, se debe destacar que aunque los resultados

obtenidos por los modelos sean mejores que los producidos

por los datos sin pre-procesamiento, la diferencia num

erica

no es tan grande. En la Fig. 12, se tiene una comparaci

con todas las reconstrucciones mencionadas.

En cuanto a las reconstrucciones de la imagen con las

letras PAT utilizando los diferentes modelos, el modelo

Real-ESRGAN M2 con la estrategia de testeo de parches

demostr

o el mejor desempe

no. Estos resultados indican que

este modelo logra una mejor correlaci

on con la imagen

de alta calidad y una mayor relaci

on se

nal-ruido pico en

comparaci

on con los otros modelos evaluados. Todos los

modelos de Real-ESRGAN tienen mejores resultados que

la U-Net. En la Fig. 13, se puede apreciar la capacidad de

los modelos para recuperar objetos con bordes aﬁlados y

bien deﬁnidos.

Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)

ISSN 2525-0159

http://elektron.fi.uba.ar

Fig. 9: Imagen original, imagen de referencia producto de la reconstrucci

on del sinograma de alta calidad y del sinograma

sin pre-procesamiento, reconstrucciones de los modelos de la imagen de vasos sangu

ıneos. P: testeado utilizando los

parches del sinograma. C: testeado utilizando el sinograma completo.

Fig. 10: Im

agenes producto de la reconstrucci

on del sinograma sin pre-procesamiento y los sinogramas procesados por los

modelos, correspondiente a la imagen de vasos sangu

ıneos.

Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)

ISSN 2525-0159

http://elektron.fi.uba.ar

Fig. 11: Im

agenes producto de la reconstrucci

on del sinograma sin pre-procesamiento y los sinogramas procesados por los

modelos, correspondiente a la imagen de tejido mamario.

Fig. 12: Im

agenes producto de la reconstrucci

on del sinograma sin pre-procesamiento y los sinogramas procesados por los

modelos, correspondiente a la imagen Derenzo.

TABLA II: Resultados de la comparaci

on de las im

agenes

reconstruidas por los diferentes modelos y la mejor re-

construcci

on posible con los datos de alta calidad para

el conjunto de datos de testeo de fantomas num

ericos de

resonancias mamarias. P: estrategia de testeo con parches.

C: estrategia de testo con el sinograma completo.

PC ± std PSNR ± std

Sin procesamiento 0.730 ± 0.013 18.696 ± 0.676

GAN M1 - P 0.973 ± 0.007 31.163 ± 1.197

GAN M1 - C 0.975 ± 0.005 31.482 ± 1.158

GAN M2 - P 0.977 ± 0.006 31.975 ± 1.240

GAN M2 - C 0.979 ± 0.005 32.071 ± 1.268

GAN M3 - P 0.975 ± 0.006 31.501 ± 1.108

GAN M3 - C 0.977 ± 0.005 31.944 ± 1.178

U-Net 0.984 ± 0.006 33.559 ± 1.758

IV. DISCUSI

El an

alisis de los resultados de la secci

on anterior revela

que los modelos Real-ESRGAN y U-Net superan signiﬁca-

tivamente el rendimiento de los datos sin pre-procesamiento

en las dos m

etricas evaluadas. Esto indica que los modelos

son capaces de mejorar la calidad de las im

agenes recons-

truidas en comparaci

on con la reconstrucci

on obtenida a par-

tir de los sinogramas sin pre-procesamiento. Sin embargo, se

encontr

o un caso de falla de estos modelos: la reconstrucci

de la imagen Derenzo. Esto indicar

ıa que los modelos no son

capaces de generalizar y reconstruir precisamente objetos

circulares peque

nos y grandes. El resultado no es sorpren-

dente si se consideran las caracter

ısticas de las im

agenes

de entrenamiento de los modelos; estas eran resonancias

Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)

ISSN 2525-0159

http://elektron.fi.uba.ar

TABLA III: Resultados de la comparaci

on de las im

agenes reconstruidas por los diferentes modelos y la mejor

reconstrucci

on posible con los datos de alta calidad para la imagen de vasos sangu

ıneos, de tejido mamario, Derenzo

y con las letras PAT.

Vasos sangu

ıneos Tejido mamario Derenzo Letras PAT

PC PSNR PC PSNR PC PSNR PC PSNR

Sin procesamiento 0.650 14.311 0.672 16.937 0.619 17.649 0.488 15.548

GAN M1 - P 0.812 16.832 0.891 22.432 0.643 17.851 0.738 18.350

GAN M1 - C 0.821 16.857 0.898 22.700 0.649 18.008 0.773 18.786

GAN M2 - P 0.826 17.397 0.893 22.493 0.657 18.040 0.786 19.052

GAN M2 - C 0.847 17.975 0.902 22.822 0.685 18.410 0.749 18.541

GAN M3 - P 0.822 17.006 0.901 23.041 0.667 18.165 0.745 18.470

GAN M3 - C 0.832 16.909 0.909 23.334 0.684 18.417 0.782 18.872

U-Net 0.832 17.504 0.891 22.681 0.667 18.236 0.676 17.726

Fig. 13: Im

agenes producto de la reconstrucci

on del sinograma sin pre-procesamiento y los sinogramas procesados por los

modelos, correspondiente a la imagen de las letras PAT.

mamarias que no conten

ıan formas circulares tan deﬁnidas

como las de la imagen Derenzo.

En lo que concierne a las im

agenes reconstruidas, en

general se observa un desempe

no similar comparando los

resultados obtenidos por la U-Net y por la Real-ESRGAN.

No obstante, cabe destacar que esta

ultima necesita menos

datos que la anterior para lograr esos resultados. El sino-

grama de baja calidad, al momento de ser generado, contiene

la informaci

on de 128 detectores y 512 muestras temporales;

se interpola esta matriz obteniendo un sinograma de 256

detectores y 512 muestras con el ﬁn de ser ingresado a la

U-Net y obtener un sinograma con las dimensiones correctas

a la salida (256 × 512). En cambio, antes de ingresar en la

Real-ESRGAN, se submuestrea el sinograma degradado; de

esta forma, con un sinograma de entrada de 128 detectores

y 256 muestras temporales, la Real-ESRGAN genera un

sinograma de 256 detectores y 512 muestras temporales.

En otras palabras, la Real-ESRGAN s

olo necesita el 50%

de los datos reales de entrada (la interpolaci

on necesaria en

la U-Net estar

ıa agregando datos artiﬁcialmente), y s

olo el

25% de los datos totales que ingresan en la U-Net.

Los modelos basados en la familia Real-ESRGAN, espe-

cialmente el Real-ESRGAN M2 y M3, muestran el mejor

rendimiento en t

erminos de las im

agenes de prueba y las

ﬁguras de m

erito usadas en este trabajo. Adem

as, se destaca

la utilidad de la estrategia de testeo con los sinogramas com-

pletos para obtener mejores resultados en la reconstrucci

de im

agenes.

En cuanto a los diferentes modelos entrenados de Real-

ESRGAN, se ve una leve mejora en el modelo Real-

ESRGAN M2 con el generador preentrenado utilizando la

erdida L

en conjunto con la p

erdida perceptual, en vez

de s

olo la L

como en el caso de Real-ESRGAN M1.

Esto se puede deber a que este

ultimo modelo no logra

capturar la incertidumbre en la recuperaci

on de detalles

de alta frecuencia perdidos, como la textura; ya que al

minimizar el error absoluto medio esta p

erdida se queda

con los promedios de los valores de p

ıxeles de soluciones

posibles, que generalmente son demasiado suaves, y por lo

tanto tienen una calidad de percepci

on deﬁciente [31].

V. CONCLUSIONES

En general, se puede concluir que tanto el modelo U-Net

como los modelos Real-ESRGAN son efectivos para la re-

construcci

on de im

agenes OA en el contexto de resonancias

mamarias. Estos modelos logran mejorar la calidad de las

agenes ﬁnales en comparaci

on con las reconstrucciones

producto de los sinogramas con ruido y ancho de banda

limitado. En particular, los resultados son prometedores,

ya que indican que la red neuronal Real-ESRGAN puede

Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)

ISSN 2525-0159

http://elektron.fi.uba.ar

ser considerada como una opci

on viable para la super-

resoluci

on, remoci

on de ruido y mejora de ancho de banda

de los sinogramas provenientes de sistemas para TOA. Estos

hallazgos son relevantes para el campo de la biomedici-

na, ya que demuestran el potencial de los modelos de

aprendizaje autom

atico en la mejora de la calidad de las

agenes de resonancias mamarias provenientes de sistemas

para TOA, lo que podr

ıa ayudar a mejorar la precisi

y conﬁabilidad de los diagn

osticos m

edicos. En futuros

trabajos ser

ıa interesante explorar el uso de las redes neu-

ronales transformers para realizar esta tarea [35], [36]. Por

otro lado, se podr

ıa implementar un barrido exhaustivo de

hiperpar

ametros, incluyendo la variaci

on de la cantidad de

capas convolucionales de los RRDB, prueba que no se pod

ıa

realizar en este trabajo por limitaciones de memoria de GPU.

AGRADECIMIENTOS

Este trabajo fue ﬁnanciado por la Universidad de Buenos

Aires (UBACYT 20020190100032BA), CONICET (PIP

11220200101826CO) and la Agencia I+D+i (PICT 2018-

04589, PICT 2020-01336).

REFERENCIAS

[1] R. A. Kruger, W. L. Kiser, D. R. Reinecke, G. A. Kruger, and

K. D. Miller, “Thermoacoustic molecular imaging of small animals,”

Molecular imaging, vol. 2, no. 2, p. 15353500200303109, 2003.

[2] X. Wang, Y. Xu, M. Xu, S. Yokoo, E. S. Fry, and L. V. Wang,

“Photoacoustic tomography of biological tissues with high cross-

section resolution: Reconstruction and experiment,” Medical physics,

vol. 29, no. 12, pp. 2799–2805, 2002.

[3] X. Wang, Y. Pang, G. Ku, X. Xie, G. Stoica, and L. V. Wang,

“Noninvasive laser-induced photoacoustic tomography for structural

and functional in vivo imaging of the brain,” Nature biotechnology,

vol. 21, no. 7, pp. 803–806, 2003.

[4] P. Beard, “Biomedical photoacoustic imaging,” Interface focus, vol. 1,

no. 4, pp. 602–631, 2011.

[5] I. Steinberg, D. M. Huland, O. Vermesh, H. E. Frostig, W. S.

Tummers, and S. S. Gambhir, “Photoacoustic clinical imaging,”

Photoacoustics, vol. 14, pp. 77–98, 2019.

[6] M. Mehrmohammadi, S. Joon Yoon, D. Yeager, and S. Y Emelianov,

“Photoacoustic imaging for cancer detection and staging,” Current

Molecular Imaging (Discontinued), vol. 2, no. 1, pp. 89–105, 2013.

[7] P. Hai, Y. Qu, Y. Li, L. Zhu, L. Shmuylovich, L. A. Cornelius, and

L. V. Wang, “Label-free high-throughput photoacoustic tomography

of suspected circulating melanoma tumor cells in patients in vivo,”

Journal of biomedical optics, vol. 25, no. 3, p. 036002, 2020.

[8] L. V. Wang and J. Yao, “A practical guide to photoacoustic tomogra-

phy in the life sciences,” Nature methods, vol. 13, no. 8, pp. 627–638,

2016.

[9] R. A. Kruger, R. B. Lam, D. R. Reinecke, S. P. Del Rio, and R. P.

Doyle, “Photoacoustic angiography of the breast,” Medical physics,

vol. 37, no. 11, pp. 6096–6100, 2010.

[10] G. Ku and L. V. Wang, “Deeply penetrating photoacoustic tomog-

raphy in biological tissues enhanced with an optical contrast agent,”

Optics letters, vol. 30, no. 5, pp. 507–509, 2005.

[11] A. Fatima, K. Kratkiewicz, R. Manwar, M. Zafar, R. Zhang, B. Huang,

N. Dadashzadeh, J. Xia, and K. M. Avanaki, “Review of cost

reduction methods in photoacoustic computed tomography,” Photoa-

coustics, vol. 15, p. 100137, 2019.

[12] N. Awasthi, S. K. Kalva, M. Pramanik, and P. K. Yalavarthy, “Vector

extrapolation methods for accelerating iterative reconstruction meth-

ods in limited-data photoacoustic tomography,” Journal of biomedical

optics, vol. 23, no. 7, 2018.

[13] N. Awasthi, R. Pardasani, S. K. Kalva, M. Pramanik, and P. K.

Yalavarthy, “Sinogram super-resolution and denoising convolutional

neural network (srcn) for limited data photoacoustic tomography,”

arXiv preprint arXiv:2001.06434, 2020.

[14] W. Choi, D. Oh, and C. Kim, “Practical photoacoustic tomography:

realistic limitations and technical solutions,” Journal of Applied

Physics, vol. 127, no. 23, p. 230903, 2020.

[15] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley,

S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial nets,”

Advances in neural information processing systems, vol. 27, 2014.

[16] N. Awasthi, G. Jain, S. K. Kalva, M. Pramanik, and P. K. Yalavarthy,

“Deep neural network-based sinogram super-resolution and band-

width enhancement for limited-data photoacoustic tomography,” IEEE

transactions on ultrasonics, ferroelectrics, and frequency control,

vol. 67, no. 12, pp. 2660–2673, 2020.

[17] A. Hauptmann and B. T. Cox, “Deep learning in photoacoustic

tomography: current approaches and future directions,” Journal of

Biomedical Optics, vol. 25, no. 11, 2020.

[18] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S.

Corrado, A. Davis, J. Dean, M. Devin et al., “Tensorﬂow: Large-

scale machine learning on heterogeneous distributed systems,” arXiv

preprint arXiv:1603.04467, 2016.

[19] A. Paszke, S. Gross, F. Massa, A. Lerer, J. Bradbury, G. Chanan,

T. Killeen, Z. Lin, N. Gimelshein, L. Antiga et al., “Pytorch: An

imperative style, high-performance deep learning library,” Advances

in neural information processing systems, vol. 32, 2019.

[20] C. B. Shaw, J. Prakash, M. Pramanik, and P. K. Yalavarthy, “Least

squares qr-based decomposition provides an efﬁcient way of comput-

ing optimal regularization parameter in photoacoustic tomography,”

Journal of Biomedical Optics, vol. 18, no. 8, 2013.

[21] J. Prakash, A. S. Raju, C. B. Shaw, M. Pramanik, and P. K.

Yalavarthy, “Basis pursuit deconvolution for improving model-based

reconstructed images in photoacoustic tomography,” Biomedical op-

tics express, vol. 5, no. 5, pp. 1363–1377, 2014.

[22] A. Sarno, G. Mettivier, F. di Franco, A. Varallo, K. Bliznakova,

A. M. Hernandez, J. M. Boone, and P. Russo, “Dataset of patient-

derived digital breast phantoms for in silico studies in breast computed

tomography, digital breast tomosynthesis, and digital mammography,”

Medical Physics, vol. 48, no. 5, pp. 2682–2693, 2021.

[23] S. Gutta, M. Bhatt, S. K. Kalva, M. Pramanik, and P. K. Yalavarthy,

“Modeling errors compensation with total least squares for limited

data photoacoustic tomography,” IEEE Journal of Selected Topics in

Quantum Electronics, vol. 25, no. 1, pp. 1–14, 2017.

[24] I. Goodfellow, Y. Bengio, and A. Courville, Deep learning. MIT

press, 2016.

[25] O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional

networks for biomedical image segmentation,” in Medical Image

Computing and Computer-Assisted Intervention–MICCAI 2015: 18th

International Conference, Munich, Germany, October 5-9, 2015,

Proceedings, Part III 18. Springer, 2015, pp. 234–241.

[26] G. Developers. Descending into ml: Training and loss — machine

learning. [Online]. Available: https://developers.google.com/machine-

learning/crash-course/descending-into-ml/training-and-loss

[27] X. Wang, L. Xie, C. Dong, and Y. Shan, “Real-esrgan: Training real-

world blind super-resolution with pure synthetic data,” in Proceedings

of the IEEE/CVF International Conference on Computer Vision, 2021,

pp. 1905–1914.

[28] X. Wang, K. Yu, S. Wu, J. Gu, Y. Liu, C. Dong, Y. Qiao, and

C. Change Loy, “Esrgan: Enhanced super-resolution generative ad-

versarial networks,” in Proceedings of the European conference on

computer vision (ECCV) workshops, 2018.

[29] T. Miyato, T. Kataoka, M. Koyama, and Y. Yoshida, “Spectral

normalization for generative adversarial networks,” arXiv preprint

arXiv:1802.05957, 2018.

[30] J. Johnson, A. Alahi, and L. Fei-Fei, “Perceptual losses for real-time

style transfer and super-resolution,” in Computer Vision–ECCV 2016:

14th European Conference, Amsterdam, The Netherlands, October 11-

14, 2016, Proceedings, Part II 14. Springer, 2016, pp. 694–711.

[31] C. Ledig, L. Theis, F. Huszar, J. Caballero, A. P. Aitken, A. Te-

jani, J. Totz, Z. Wang, and W. Shi, “Photo-realistic single im-

age super-resolution using a generative adversarial network. corr

abs/1609.04802 (2016),” arXiv preprint arXiv:1609.04802, 2016.

[32] L. Statistics. Pearson product-moment correlation. [On-

line]. Available: https://statistics.laerd.com/statistical-guides/pearson-

correlation-coefﬁcient-statistical-guide.php

[33] M. M. H. Center. Psnr. [Online]. Available: https://nl.mathworks.

com/help/images/ref/psnr.html

[34] U. Sara, M. Akter, and M. S. Uddin, “Image quality assessment

through fsim, ssim, mse and psnr—a comparative study,” Journal of

Computer and Communications, vol. 7, no. 3, pp. 8–18, 2019.

[35] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N.

Gomez, Ł. Kaiser, and I. Polosukhin, “Attention is all you need,”

Advances in neural information processing systems, vol. 30, 2017.

[36] C. Yao, S. Jin, M. Liu, and X. Ban, “Dense residual transformer for

image denoising,” Electronics, vol. 11, no. 3, p. 418, 2022.

Revista elektron, Vol. 7, No. 1, pp. 7-18 (2023)

ISSN 2525-0159

http://elektron.fi.uba.ar

Enlaces de Referencia

Por el momento, no existen enlaces de referencia

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

Revista elektron, ISSN-L 2525-0159
Facultad de Ingeniería. Universidad de Buenos Aires
Paseo Colón 850, 3er piso
C1063ACV - Buenos Aires - Argentina
revista.elektron@fi.uba.ar
+54 (11) 528-50889

Nombre de usuario
Clave
Recordar mis datos