Estudio de redes generativas de confrontaci
´
on
para generaci
´
on de datos sint
´
eticos y su aplicaci
´
on
a tomograf
´
ıa optoac
´
ustica
Study of Generative Adversarial Networks for Generating Synthetic Data and its Application on
Optoacoustic Tomography
Alejandro D. Scopa Lopina
1
, Mart
´
ın G. Gonz
´
alez
, Mat
´
ıas Vera
Facultad de Ingenier
´
ıa, Universidad de Buenos Aires
Paseo Colon 850, C1063ACV, Buenos Aires, Argentina
Consejo Nacional de Investigaciones Cient
´
ıficas y T
´
ecnicas, (CONICET)
Godoy Cruz 2290, C1425FQB, Buenos Aires, Argentina
1
ascopa@fi.uba.ar
Resumen— En este trabajo se propone el uso de una
red generativa de confrontaci
´
on (GAN) para efectuar
un aumento de datos con el objetivo de mejorar la
reconstrucci
´
on de im
´
agenes en sistemas para tomograf
´
ıa
optoac
´
ustica (TOA). Se utiliz
´
o el modelo denominado
FastGAN que es una red compacta, capaz de generar
im
´
agenes de alta resoluci
´
on a partir de un conjunto de
datos reducidos. La calidad de los datos generados se
evalu
´
o a trav
´
es de dos m
´
etodos. Por un lado, se us
´
o la
distancia de inicio de Fr
´
echet (FID), observ
´
andose una
tendencia decreciente a largo de todo el entrenamiento
de la GAN. En el segundo m
´
etodo se entren
´
o una red
neuronal U-Net dise
˜
nada para un sistema de TOA
con y sin datos aumentados. En este caso, el modelo
entrenado con los datos extras aportados por la GAN
logr
´
o una mejora apreciable en las figuras de m
´
erito
asociadas a la reconstrucci
´
on.
Palabras clave: Tomograf
´
ıa optoac
´
ustica; Aprendizaje
profundo; Redes generativas de confrontaci
´
on; Datos
sint
´
eticos.
Abstract— This work proposes the use of a
Generative Adversarial Network (GAN) to perform
data augmentation with the goal of improving image
reconstruction in Optoacustic Tomography (OAT)
applications. We employ the FastGAN model, a compact
net capable of generating high resolution images from
small datasets. The quality of the generated data was
assessed by two methods. First, the Fr
´
echet distance
(FID) was measured, observing a decreasing trend
throughout the entire GAN training. Then, a U-Net
neural network designed for a OAT system with and
without augmented data was trained. In this case,
the model trained with the extra data generated by
the GAN achieved an appreciable improvement in the
figures of merit associated with the reconstruction.
Keywords: Optoacoustic Tomography; Deep Learning;
Generative Adversarial Networks; Synthetic Data.
I. INTRODUCCI
´
ON
La tomograf
´
ıa optoac
´
ustica (TOA) es un m
´
etodo de
obtenci
´
on de im
´
agenes m
´
edicas mediante el uso del efecto
optoac
´
ustico (OA). Un pulso de luz que incide en el tejido
biol
´
ogico blando se esparcir
´
a por el mismo y una parte ser
´
a
absorbida por mol
´
eculas presentes en la muestra biol
´
ogica,
conocidas como crom
´
oforos. La energ
´
ıa del crom
´
oforo
excitado se convierte luego en calor, que en el marco
de un proceso isoc
´
orico, termina generando un aumento
de presi
´
on. Esto se detecta a trav
´
es de distintos arreglos
de sensores de ultrasonido, generando sinogramas. Estos
son una representaci
´
on gr
´
afica de las se
˜
nales ac
´
usticas en
funci
´
on del tiempo medido por cada detector. Finalmente, a
trav
´
es de un proceso de reconstrucci
´
on, es posible recuperar
los datos de inter
´
es.
El proceso de reconstrucci
´
on en sistemas para TOA
conlleva dos problemas de inversi
´
on: el ac
´
ustico y el
´
optico.
En el primero se desea obtener la presi
´
on ac
´
ustica inicial,
mientras que en el segundo se intenta recuperar el coeficiente
de absorci
´
on
´
optico. El problema de inversi
´
on ac
´
ustica se
puede resolver en forma cerrada en condiciones ideales. Sin
embargo, en la mayor
´
ıa de los casos esto no es posible, dado
las heterogeneidades en la velocidad del sonido o las limi-
taciones de ancho de banda en las mediciones, por ejemplo.
Cuando adem
´
as consideramos la inversi
´
on
´
optica, la tarea
de reconstrucci
´
on se vuelve compleja. Existen soluciones
basadas en modelos iterativos, donde se busca incorporar
alg
´
un tipo de conocimiento previo en estos modelos para
minimizar la complejidad. De todas maneras, estas solucio-
nes terminan siendo lentas y computacionalmente intensivas
[1]–[3].
Con al advenimiento de nuevas ideas en el campo del
aprendizaje estad
´
ıstico, como ser las t
´
ecnicas de aprendizaje
profundo o deep learning (DL) [4], se ha generado un
c
´
umulo importante de m
´
etodos diversos y su aplicaci
´
on a
nuevos y viejos problemas. El problema de procesamiento
de im
´
agenes ha sido paradigm
´
atico en el sentido de que fue
Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)
ISSN 2525-0159
61
Recibido: 31/10/23; Aceptado: 06/12/23
Creative Commons License - Attribution-NonCommercial-
NoDerivatives 4.0 International (CC BY-NC-ND 4.0)
https://doi.org/10.37537/rev.elektron.7.2.185.2023
Original Article
uno de los primeros campos en donde DL ha mostrado su
enorme potencialidad, generando desempe
˜
nos nunca antes
vistos en diversos problemas como ser clasificaci
´
on, filtrado
(denoising), segmentaci
´
on, etc. En el
´
ambito de TOA, el es-
tado del arte se ha destacado por el empleo de arquitecturas
de aprendizaje profundo asociado a la familia de redes con-
volucionales [5]. Una arquitectura ampliamente reconocida
en este contexto es la U-Net [6], la cual se ha convertido
en la elecci
´
on preferida para la reconstrucci
´
on de im
´
agenes
TOA debido a su capacidad para capturar caracter
´
ısticas de
alta resoluci
´
on y su habilidad para tratar con problemas de
im
´
agenes m
´
edicas, como la escasez de datos y el ruido [7].
Su estructura combina una ruta de contracci
´
on y una ruta
de expansi
´
on, la cual permite obtener resultados precisos y
detallados. Adem
´
as, se han realizado diversos avances en la
mejora de la U-Net mediante la adaptaci
´
on de la arquitectura
para abordar desaf
´
ıos espec
´
ıficos de la TOA. Estos avances
contin
´
uan impulsando el estado del arte en la reconstrucci
´
on
de im
´
agenes de TOA, abriendo nuevas oportunidades para
la mejora de diagn
´
osticos y tratamientos m
´
edicos.
Actualmente, uno de los principales problemas es la
carencia de suficiente cantidad de datos para entrenar las
redes mencionadas anteriormente. Esta escasez resulta un
inconveniente particular de TOA, donde hoy en d
´
ıa no se
cuenta con un est
´
andar certificado de im
´
agenes m
´
edicas en
gran volumen, como si sucede por ejemplo para resonancias
magn
´
eticas (MRI) o tomograf
´
ıas computadas (CT). Dado
que las t
´
ecnicas de DL suelen desempe
˜
narse mejor o di-
rectamente requieren de un gran volumen de datos para su
entrenamiento, nos encontramos frente a una problem
´
atica
de inter
´
es com
´
un para muchos investigadores del campo. En
este sentido, en este trabajo se propone el estudio de redes
generativas de confrontaci
´
on (GAN, por sus siglas en ingl
´
es)
para crear muestras sint
´
eticas (aumentaci
´
on de datos) para
obtener pares de entradas y salidas que sirvan para entrenar
satisfactoriamente a las redes neuronales. De esta manera,
se puede lograr un mejor aprovechamiento de los escasos y
costosos datos experimentales para el refinamiento final de
sus par
´
ametros.
II. MARCO TE
´
ORICO TOA
La TOA es un m
´
etodo que proporciona mapas de absor-
ci
´
on
´
optica de alta resoluci
´
on mediante la detecci
´
on de ondas
de ultrasonido resultantes de la expansi
´
on t
´
ermica producida
por la irradiaci
´
on del tejido con pulsos cortos de luz. A
trav
´
es del fen
´
omeno OA se genera un pulso ac
´
ustico a partir
de la absorci
´
on de un pulso
´
optico. La incidencia de un pulso
de luz en un tejido biol
´
ogico se dispersa por el mismo, even-
tualmente abandon
´
andolo o siendo absorbido por mol
´
eculas
conocidas como crom
´
oforos, de los cuales la hemoglobina
es la m
´
as importante. La energ
´
ıa del crom
´
oforo excitado
luego se convierte en calor. Este proceso ocurre en la escala
de los nanosegundos, un tiempo mucho m
´
as corto que lo
que el tejido demora en moverse, es decir, que la densidad
de su masa local cambie (escala en microsegundos). De esta
manera, el calentamiento es isoc
´
orico y, por lo tanto, viene
acompa
˜
nado de un aumento en presi
´
on. El tejido es el
´
astico,
por lo que las regiones de alta presi
´
on terminan actuando
como fuentes de ondas ac
´
usticas. Las ondas ac
´
usticas son
sensibles a la velocidad del sonido y la densidad del medio y
estos par
´
ametros suelen variar con la posici
´
on. Sin embargo,
en tejidos blandos, las variaciones suelen ser peque
˜
nas y,
como rara vez se conocen de antemano, el medio suele
tratarse como ac
´
usticamente homog
´
eneo. Por la diferencia
en escala temporal, el incremento de presi
´
on se puede
considerar instant
´
aneo. Esto permite modelar la generaci
´
on
y propagaci
´
on de la onda OA como un problema con
condiciones iniciales conocidas [5].
Las mediciones de ondas ac
´
usticas generadas por el efecto
OA se realizan en una superficie S alrededor de una regi
´
on
que contiene el objeto a analizar. La superficie S no es un
contorno, por lo que no afecta el campo ac
´
ustico. Existen
varios operadores de muestreo para TOA, entre los m
´
as
destacables o utilizados:
Muestreo por puntos, donde la superficie S puede ser
una figura geom
´
etrica como un plano, un cilindro o
una esfera.
Mediciones de integrales espaciales del campo ac
´
ustico
a lo largo de planos, l
´
ıneas o patrones.
Mediciones a trav
´
es de un anillo de detectores enfoca-
dos en un plano.
Mediciones a trav
´
es de un arreglo lineal de detectores
enfocados en un plano.
Las se
˜
nales OA son de banda ancha por naturaleza,
t
´
ıpicamente mayor a los de un sensor de ultrasonido, por
lo que el rango de detecci
´
on de frecuencias es limitado.
Por otro lado, debido al tama
˜
no finito de los detectores de
ultrasonidos reales, tambi
´
en se filtran los n
´
umeros de onda
espaciales. Esto sucede dado que a medida que aumenta el
´
area, los detectores se vuelven m
´
as direccionales, es decir,
su
´
angulo de aceptaci
´
on disminuye.
A. Problema inverso
Como se mencion
´
o previamente, en la TOA existen dos
problemas inversos, uno correspondiente al operador directo
de la parte ac
´
ustica y otro al operador directo de la parte
´
optica. En este trabajo nos centramos en el primero, donde
f ser
´
a la presi
´
on ac
´
ustica inicial y g el sinograma.
Para resolver los problemas directos e inversos, contar
con ciertos operadores facilita el trabajo. En nuestro caso,
el operador de mayor relevancia es A, que representa un
mapeo lineal entre la distribuci
´
on de presi
´
on ac
´
ustica inicial
f y las mediciones ac
´
usticas g bajo el efecto del ruido ϵ. El
operador A mapea del espacio de im
´
agenes al espacio de
datos medidos.
g = A · f + ϵ (1)
Se ha demostrado que este problema converge si los datos
son suficientes. A continuaci
´
on se mencionan algunas de las
restricciones o problemas m
´
as comunes en el problema de
inversi
´
on ac
´
ustica:
Ruido siempre presente en cualquier medici
´
on real.
La respuesta de los detectores tiene un rango de
frecuencia finito.
Los detectores s
´
olo rodean parte de la muestra (limited
view).
Submuestreo en espacio o tiempo.
Por otro lado, tambi
´
en existen incertezas en los operado-
res. Si bien las distintas ecuaciones capturan los fen
´
omenos
f
´
ısicos de la TOA, las soluciones num
´
ericas de los mismos
Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)
ISSN 2525-0159
62
http://elektron.fi.uba.ar
implican ciertas diferencias. Por ejemplo, es habitual el uso
de simplificaciones para reducir el costo computacional.
Tambi
´
en existe una dependencia entre algunos par
´
ametros
reales que afectan a los operadores, pero que resulta com-
plejo definir o controlar en las mediciones.
B. M
´
etodos de reconstrucci
´
on
Para la TOA existen m
´
ultiples m
´
etodos cl
´
asicos de re-
construcci
´
on, esto es, t
´
ecnicas con un enfoque no basado en
DL. En este trabajo, haremos uso de la t
´
ecnica de delay-
and-sum (DAS), uno de los algoritmos de beamforming
m
´
as utilizados en reconstrucci
´
on de im
´
agenes OA [8]. Su
simplicidad permite su utilizaci
´
on en aplicaciones de tiempo
real, pero generalmente se encuentran ciertas limitaciones.
La aparici
´
on de artefactos intensos o de grandes l
´
obulos
laterales suele ser com
´
un en las im
´
agenes reconstruidas. En
nuestro caso esto no es un problema, ya que este m
´
etodo es
simplemente usado pasar del dominio de datos de medici
´
on
(sinograma) al dominio imagen.
El algoritmo busca reconstruir una imagen a trav
´
es de
presiones ac
´
usticas capturadas por distintos arreglos de
sensores. Para el caso en que la regi
´
on imagen se encuentre
contenida en el plano xy, y se use un arreglo de N
s
detectores distribuidos alrededor de la muestra, se tiene la
siguiente expresi
´
on [8]:
S
DAS
(x, y) =
N
s
X
i=1
S(i, t(x, y, i)) (2)
donde S
DAS
(x, y) es la se
˜
nal reconstruida en la posici
´
on
(x, y) y S(i, t) es la se
˜
nal recibida en el sensor i en el
tiempo t. La funci
´
on t(x, y, i) representa el retraso temporal
debido a la propagaci
´
on de la se
˜
nal OA generada en (x, y)
hasta el sensor i:
t(x, y, i) =
d(x, y, i)
v
s
(3)
donde v
s
es la velocidad del sonido y d(x, y, i) es la
distancia entre el punto medido en la regi
´
on imagen y el
sensor i. Dividiendo la regi
´
on imagen en p
´
ıxeles se puede
obtener la imagen reconstruida a trav
´
es de (2).
III. REDES NEURONALES DE CONFRONTACI
´
ON
A. Teor
´
ıa general
Las redes neuronales de tipo GAN nos permiten generar
o sintetizar im
´
agenes a partir de cierta familia de datos.
Est
´
an compuestas de dos redes que compiten entre s
´
ı, el
generador y el discriminador. La primera se encarga de
generar im
´
agenes, que luego son usadas como entrada de la
segunda red.
´
Esta debe detectar si provienen del generador o
no, es decir, distinguir entre muestras sint
´
eticas o reales. La
evaluaci
´
on del discriminador es luego utilizada para mejorar
la calidad del generador, dando lugar a esta competencia
entre ambas redes. Este tipo de red tiene un gran potencial
y rango de aplicaciones, desde procesamiento de im
´
agenes
en la forma de clasificadores o reconstructores, as
´
ı como
tambi
´
en en su habilidad de expandir conjuntos de datos exis-
tentes. Su contraparte m
´
as com
´
un es el costo computacional
que requieren y la cantidad de datos necesarios para obtener
resultados aceptables. Esto muchas veces termina limitando
su aplicaci
´
on en problemas reales, donde la informaci
´
on o
los recursos no abundan.
B. FastGAN
Como se mencion
´
o previamente, la TOA es una t
´
ecnica
donde la disponibilidad de conjuntos de datos de gran
tama
˜
no es escasa. La metodolog
´
ıa llamada transfer-learning
[9] con modelos pre-entrenados presenta una posible so-
luci
´
on a este problema, pero no siempre se cuenta con la
garant
´
ıa de poder encontrar un conjunto de datos compatible
con nuestro modelo. En algunos casos, el ajuste fino de este
tipo de redes puede incluso decantar en un peor rendimiento.
La red GAN presentada en este trabajo, de aqu
´
ı en adelan-
te denominada FastGAN [10], busca resolver o minimizar el
problema de escasez de datos para TOA u otras disciplinas
similares. La idea es presentar un proceso de generaci
´
on de
im
´
agenes de alta resoluci
´
on a partir de conjuntos de datos
acotados, que adem
´
as requiera poco poder computacional.
Estas condiciones de entrenamiento hacen que el modelo
sea vulnerable al sobreajuste y errores por el modo colapso
[11] [12]. Para evitar estos comportamientos es necesario un
generador G que pueda aprender r
´
apidamente y un discrimi-
nador D que pueda proveer informaci
´
on
´
util continuamente.
Para enfrentar estos desaf
´
ıos se propone:
Un m
´
odulo de excitaci
´
on por canales con skip-layers
(SLE), que aprovecha las activaciones en mapas de baja
resoluci
´
on para luego reutilizarlas en las respuestas de
los canales en los mapas de alta resoluci
´
on [10]. SLE
permite que el flujo del gradiente a trav
´
es de los pesos
de cada capa del modelo sea m
´
as robusto, permitiendo
un entrenamiento m
´
as r
´
apido.
Un discriminador D auto-supervisado que es entrenado
como codificador de caracter
´
ısticas con un decodi-
ficador extra. Este es forzado a aprender un mapa
de caracter
´
ısticas m
´
as descriptivo, cubriendo as
´
ı m
´
as
regiones de una imagen de entrada. De esta manera
podemos brindar se
˜
nales m
´
as comprehensivas a G para
su entrenamiento.
El dise
˜
no de la red resulta minimalista. Para cada resolu-
ci
´
on de G se utiliza una
´
unica capa de convoluci
´
on. En las
altas resoluciones ( 512 ×512) se utilizan tres canales de
entrada y salida para las capas convolucionales, tanto en G
como D. En la Fig. 1 podemos ver la estructura general del
generador.
Para la s
´
ıntesis de im
´
agenes de alta resoluci
´
on, resulta
inevitable la necesidad de un generador G profundo, con
muchas capas de convoluci
´
on. Esto lleva a un tiempo de
entrenamiento m
´
as largo que modelos m
´
as superficiales,
dado la cantidad de par
´
ametros y el efecto de flujo de
gradiente d
´
ebil [13]. La estructura residual ResBlock [14]
surge como propuesta a esta problem
´
atica de entrenamiento
en redes profundas. Se plantea la incorporaci
´
on de capas de
conexi
´
on o skip-layers, para mejorar el flujo de gradiente
entre capas. Si bien el uso de esta estructura es abundante,
conlleva un aumento en el costo computacional.
El m
´
odulo SLE reformula la incorporaci
´
on de skip-layers
de dos maneras. En primer lugar, ResBlock implementa
estas conexiones como adiciones t
´
ermino a t
´
ermino entre
las distintas funciones de activaci
´
on de cada capa. Esto
requiere que las dimensiones espaciales de cada funci
´
on
Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)
ISSN 2525-0159
63
http://elektron.fi.uba.ar
Figura 1: Estructura del generador. Los recuadros naranjas representan mapas de caracter
´
ısticas, con su dimensi
´
on espacial
(se omiten los canales). Los recuadros y flechas azules representan la misma estructura de sobremuestreo, los recuadros
rojos representan los m
´
odulos skip-layer excitation.
de activaci
´
on sean iguales. En cambio, con SLE se pro-
pone aplicar multiplicaciones de canal a canal entre las
activaciones, eliminando as
´
ı el alto costo computacional que
conllevan las convoluciones (una de las activaciones tiene
una dimensi
´
on espacial de 1
2
). Por otro lado, en general,
las skip-layers solo se utilizan entre capas de una misma
resoluci
´
on. En SLE las conexiones se realizan entre rangos
mucho m
´
as amplios, por ejemplo, entre 8
2
y 128
2
o 16
2
y 256
2
. Estas dos consideraciones conservan la mejora en
el flujo de gradiente, minimizando el costo computacional.
Formalmente, definimos al m
´
odulo SLE como:
y = F (x
low
, {W
i
}) · x
hig h
(4)
donde x e y representan las entradas y salidas de los
mapas de caracter
´
ısticas del m
´
odulo SLE, respectivamente.
La funci
´
on F representa las operaciones aplicadas en x
low
(la entrada de baja resoluci
´
on) y W
i
los pesos a aprender.
En la Fig. 2 podemos ver en ejemplo entre dos entradas
de dimensi
´
on 8
2
y 128
2
. Primero, una capa de reducci
´
on o
average-pooling realiza un submuestreo de x
low
, reduciendo
la dimensi
´
on de salida a 4
2
. Este proceso se repite a trav
´
es
de una capa de convoluci
´
on, obteniendo una salida de 1
2
.
Luego pasamos por una capa LeakyReLU para modelar las
propiedades no lineales y utilizamos otra capa de convolu-
ci
´
on para que la cantidad de canales coincida con x
hig h
.
Por
´
ultimo se aplica una funci
´
on Sigmoid y su resultado
se multiplica t
´
ermino a t
´
ermino a lo largo de cada canal
con x
hig h
. De esta manera, la dimensi
´
on de y y de x
hig h
coinciden.
La estructura del discriminador D puede verse en la Fig. 3,
donde la estrategia buscada es la siguiente: pensamos a la red
como un codificador, que a su vez es entrenada con peque
˜
nos
decodificadores. Este estilo de entrenamiento es denominado
auto-encoding (AE) y obliga a D a extraer caracter
´
ısticas de
las im
´
agenes que luego cada decodificador aprovecha para
generar una buena reconstrucci
´
on. Estos decodificadores son
optimizados junto con D a trav
´
es de una funci
´
on de p
´
erdida
simple, que solo se entrena con muestras reales:
L
r
= E
fD
encode
(x),xI
real
[||D(f, d) T (x)||] (5)
Figura 2: Estructura del m
´
odulo SLE.
La funci
´
on D representa la transformaci
´
on de los datos de
entrada a trav
´
es de los mapas de caracter
´
ısticas intermedios
del discriminador D (f ) y tambi
´
en de los bloques de
decodificaci
´
on (d). Por otro lado, la funci
´
on T representa
las transformaciones aplicadas a las im
´
agenes reales, en
este caso, el submuestreo y recorte. El sub
´
ındice r hace
referencia al proceso de reconstrucci
´
on llevado a cabo por
los decodificadores.
En nuestro caso se emplean dos decodificadores a la salida
de distintos mapas de caracter
´
ısticas, de resoluci
´
on 16
2
(f
1
)
y 8
2
(f
2
). Cada decodificador est
´
a compuesto por cuatro
capas de convoluci
´
on, que permiten obtener una resoluci
´
on
final de 128
2
. En cada ciclo de entrenamiento se toma un
cuadrante aleatorio del mapa de caracter
´
ısticas entrante a
f
1
. La entrada de f
2
es el
´
ultimo mapa de caracter
´
ısticas
de la red. De esta manera obtenemos I
part
e I
de f
1
y f
2
,
mientras que a trav
´
es de un recorte y un submuestreo se
obtienen I
part
e I. Finalmente, D y los decodificadores son
Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)
ISSN 2525-0159
64
http://elektron.fi.uba.ar
Figura 3: Estructura del discriminador. Los recuadros y flechas azules representan la misma estructura de submuestreo,
los recuadros verdes el mismo decodificador.
entrenados en conjunto, buscando minimizar (5) mediante
la comparaci
´
on entre estos conjuntos im
´
agenes.
Este tipo de aprendizaje se asegura de que D extraiga una
representaci
´
on m
´
as comprensiva de cada entrada, teniendo
en cuenta la composici
´
on general a trav
´
es de f
1
y detalles
particulares a trav
´
es de f
2
. De esta manera, nuestro discri-
minador combina el an
´
alisis de una imagen completa por
un lado y por otro el an
´
alisis de diferentes regiones, similar
a la metodolog
´
ıa utilizada en una red PatchGAN [15].
El m
´
etodo de AE es utilizado t
´
ıpicamente en aprendizaje
auto-supervisado y es reconocido por mejorar la robustez
de los modelos y la habilidad de generalizaci
´
on [16]. En
el contexto de redes GAN, el hecho de contar con un
discriminador D regularizado a trav
´
es de estrategias de en-
trenamiento auto-supervisado incrementa significativamente
la calidad de s
´
ıntesis de G. Particularmente, AE resulta la
estrategia que genera mejores resultados.
Si bien la estrategia de un entrenamiento auto-supervisado
para D se lleva a cabo a trav
´
es de AE, la soluci
´
on propuesta
es distinta a la t
´
ıpica combinaci
´
on de GAN y esta metodo-
log
´
ıa. Generalmente, G se entrena como un decodificador
sobre un espacio latente de D. En este caso, el modelo pro-
puesto es una GAN pura con un esquema de entrenamiento
mucho m
´
as simple. El entrenamiento mediante AE es solo
utilizado para regularizar D, donde G no est
´
a involucrado.
Como funci
´
on de p
´
erdida se utiliz
´
o una versi
´
on de la
hinge loss adaptada para GANs para entrenar D y G de
forma iterativa [17]:
L
D
= E
xI
real
[min(0, 1 + D(x))]
E
ˆxG(z)
[min(0, 1 D(ˆx))] (6)
+ L
r
L
G
= E
z∼N
[D(G(z))] (7)
De acuerdo a lo mencionado en [10], la misma permite
realizar el computo de p
´
erdida de manera m
´
as r
´
apida.
IV. M
´
ETODOS
A. Generaci
´
on de datos
La TOA se utiliza para obtener im
´
agenes de alta resolu-
ci
´
on de tejido biol
´
ogico. En muchos casos, los resultados
obtenidos suelen mostrar estructuras con gran predominan-
cia de vasos sangu
´
ıneos. Teniendo en cuenta esto y la
finalidad de nuestra red, que es aumentar bases de datos
para TOA, se buscaron bancos de datos con este tipo de
caracter
´
ısticas. Dicho esto, se recopil
´
o informaci
´
on de
´
ındole
m
´
edica, particularmente de vasos sangu
´
ıneos (BV, por sus
siglas en ingl
´
es), compuesta por las bases de datos DRIVE
[18], STARE [19], RITE [20], ARIA [21] y RAVIR [22].
En la Fig. 4 se pueden visualizar muestras para cada caso.
(a) DRIVE - RITE (b) ARIA
(c) RAVIR (d) STARE
Figura 4: Ejemplos de im
´
agenes disponibles en las bases de
datos utlizadas en este trabajo.
Las bases de datos mencionadas ya cuentan con una
segmentaci
´
on de las im
´
agenes para hacer foco en los vasos
Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)
ISSN 2525-0159
65
http://elektron.fi.uba.ar
sangu
´
ıneos. Luego, se aplica una aumentaci
´
on sencilla,
compuesta de rotaciones verticales y horizontales. De esta
manera, el conjunto resultante cuenta con 6252 im
´
agenes
disponibles para entrenar, con una resoluci
´
on de 256 ×256
p
´
ıxeles. Finalmente, se convierte la imagen a escala de
grises, para asemejar a muestras de im
´
agenes OA. La base
de datos resultante, denominada de ac
´
a en m
´
as BV, se
separa en conjuntos de entrenamiento e inferencia, con una
relaci
´
on 90 % 10 % obteniendo 5626 y 626 im
´
agenes para
cada conjunto respectivamente. La Fig. 5 muestra algunos
ejemplos utilizados para el entrenamiento.
Figura 5: Ejemplo de las im
´
agenes usadas para el entrena-
miento de las redes neuronales.
B. Entrenamiento de red FastGAN
Como se mencion
´
o previamente, los datos utilizados para
el entrenamiento de nuestra red tienen una resoluci
´
on de
256
2
. Para ambas redes G y D se utiliza el optimizador
de Adam, parametrizado de la siguiente manera: lr (tasa
de aprendizaje) = 10
4
, β
1
= 0,5 y β
2
= 0,99. Otro
atributo importante resulta el tama
˜
no del ruido, en nuestro
caso un vector aleatorio de [0, 1] y dimensi
´
on 400x1. Para
ambas redes se define un par
´
ametro semilla que gobierna la
relaci
´
on y cantidad de filtros de cada capa convolucional. De
esta manera se puede adaptar simplemente la arquitectura
a necesidad. Los valores elegidos resultan ndf = 64 y
ngf = 64 para D y G respectivamente. Por
´
ultimo, se
entrena en mini-lotes de una imagen, durante 100,000 itera-
ciones. Cada 10,000 iteraciones se guardan los diccionarios
que contienen los par
´
ametros de cada red, tambi
´
en se
calculan las m
´
etricas de rendimiento. De esta manera, solo
se conservan dos modelos para ambas redes: el actual y
el mejor hist
´
orico. Los valores seleccionados provienen de
[10], a excepci
´
on del lr, el cu
´
al fue ajustado emp
´
ıricamente
seg
´
un los resultados obtenidos en distintos entrenamientos.
En cada iteraci
´
on se actualizan los pesos de G y D una
vez. Para el caso de D, su funci
´
on de p
´
erdida conlleva un
t
´
ermino calculado con im
´
agenes reales y otro con im
´
agenes
sint
´
eticas, provenientes de G. Para las reales se utiliza el
proceso de AE mencionado previamente, que procesa y
segmenta las mismas de distintas maneras. Estos resultados
son luego utilizados para calcular los diferentes t
´
erminos de
la funci
´
on de p
´
erdida correspondiente a im
´
agenes reales.
C. Estrategia de inferencia
La medici
´
on de rendimiento en generaci
´
on de im
´
agenes
sint
´
eticas con redes GAN resulta complejo [23]. En la
actualidad no existe un consenso general de cu
´
al o cu
´
ales
figuras de m
´
erito capturan de mejor manera las fortalezas y
limitaciones de distintos modelos. En muchos casos resulta
com
´
un un an
´
alisis visual de las muestras generadas por
estas redes, por lo menos en los entrenamientos iniciales.
En nuestro caso, y de acuerdo a lo mencionado en [10],
la figura elegida es la Fr
´
etchet Inception Distance (FID).
Esta mide el realismo sem
´
antico promedio de im
´
agenes
sint
´
eticas, realizando comparaciones contra un conjunto de
datos real [24]. En primer lugar se utiliza una red Inception
[25] pre-entrenada para extraer distintas caracter
´
ısticas de
las im
´
agenes. En nuestro caso, la implementaci
´
on utilizada
es la que provee Pytorch [26], que utiliza Inception V3. Los
vectores de caracter
´
ısticas resultantes poseen una distribu-
ci
´
on normal multivariada. Dicho esto, se calcula la distancia
de Fr
´
echet entre ambos vectores gaussianos, de la siguiente
manera:
d = ||µ
r
µ
f
||
2
+ T
r
cov
r
+ cov
f
+ 2
cov
r
· cov
f
(8)
donde µ
i
representa los valores medio de cada distribuci
´
on,
cov
i
la matriz de covarianza y T
r
la traza de la matriz
resultante. Los sub
´
ındices r y f hacen referencia a muestras
reales y ficticias. La distancia entre ambas medias es la
distancia Eucl
´
ıdea.
Para el entrenamiento de nuestra red GAN se calcul
´
o el
valor de FID cada 1,000 iteraciones. Cada vez se realiza el
siguiente proceso:
Se generan 1000 im
´
agenes con el generador G.
Se toman 5,626 im
´
agenes del conjunto de entrenamien-
to.
Se calcula la FID entre ambos conjuntos.
La certeza de FID es directamente proporcional a la
cantidad de muestras utilizadas para su c
´
alculo. Por esta
raz
´
on utilizamos el conjunto de entrenamiento completo. Las
1,000 im
´
agenes generadas por G resultan un compromiso
entre velocidad y calidad.
D. Reconstrucci
´
on de im
´
agenes TOA usando DL
Si bien se utiliz
´
o FID para corroborar la calidad de
las im
´
agenes sint
´
eticas generadas, esto no necesariamente
implica una correlaci
´
on real para mejoras de desempe
˜
no
en aplicaciones de TOA. En este sentido, se entren
´
o una
red neuronal con y sin los datos aumentados por nuestra
GAN. Se eligi
´
o el esquema de reconstrucci
´
on descripto en
[27] compuesto por un enfoque cl
´
asico y una red neuronal
encargada del post-procesamiento de las im
´
agenes OA. En
nuestro caso se opt
´
o por el m
´
etodo de reconstrucci
´
on DAS
y un modelo U-Net. El primero es el encargado de pasar del
dominio de datos medidos (se
˜
nales OA) al dominio imagen.
Mientras que el segundo es entrenado para reducir o eliminar
los artefactos u otros defectos introducidos por DAS. En la
Fig. 6 se muestran los pasos seguidos para entrenar la red
U-Net.
Para la simulaci
´
on de obtenci
´
on de sinogramas se utiliz
´
o
el esquema descripto en [28] y que se muestra en la Fig.
7.
´
Este consiste en un sistema para TOA 2-D implementado
con un sensor que rota alrededor de la regi
´
on imagen, lugar
donde est
´
a colocada una muestra uniformemente iluminada.
Este tipo de sistemas basados en un solo detector resultan
muy
´
utiles para estudios de prueba de concepto debido
Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)
ISSN 2525-0159
66
http://elektron.fi.uba.ar
Figura 6: Esquema utilizado en este trabajo para el entrena-
miento de la red neuronal U-Net.
a su simplicidad, bajo costo y efectividad [29]. En este
trabajo se tom
´
o una regi
´
on imagen cuadrada con un tama
˜
no
de 12,8 mm × 12,8 mm y una resoluci
´
on de 128 × 128
p
´
ıxeles. El sensor, supuesto puntual, se coloc
´
o sobre una
circunferencia de R
s
= 22,5 mm de radio y las se
˜
nales OA
se detectaron en N
s
= 32
´
angulos. La elecci
´
on de priorizar
un valor peque
˜
no de N
s
y N
t
se hizo en funci
´
on de reducir
la complejidad y el costo del sistema de detecci
´
on [30]. Para
la recopilaci
´
on de datos, el intervalo de tiempo t fue de
49 ns con N
t
= 512 muestras. La velocidad del sonido se
fij
´
o en v
s
= 1500 m/s y el medio se supuso homog
´
eneo
y sin absorci
´
on o dispersi
´
on del sonido. La respuesta en
frecuencia del transductor se model
´
o utilizando un filtro
pasabanda con frecuencias de corte superior e inferior de
0,1 MHz y 20 MHz, respectivamente.
Una vez definidos los par
´
ametros del sistema TOA, se
cre
´
o la matriz del operador directo A siguiendo los pasos
detallados en [28]. Luego, usando las im
´
agenes del conjunto
BV, se obtuvieron los sinogramas (ver Fig. 6). Por
´
ultimo,
se agrega un ruido blanco de manera que la relaci
´
on se
˜
nal
a ruido (SNR) resultante se encuentre en el rango entre
30 dB y 50 dB. Todas las simulaciones se llevaron a cabo
en Python.
Figura 7: Esquema del sistema TOA usado en las simula-
ciones. [28].
Como se mencion
´
o previamente, se utiliz
´
o una red U-Net
para la etapa de post-procesamiento. Estas redes reciben su
nombre por la forma de su estructura, donde poseen un ca-
mino descendiente, uno ascendiente y uno de conexi
´
on entre
ambos. El primero se denomina ruta de contracci
´
on y est
´
a
compuesto por distintas capas de convoluci
´
on que buscan
reducir la resoluci
´
on de la entrada pero aumentar la cantidad
de canales. De esta manera se capturan las caracter
´
ısticas
relevantes para cada resoluci
´
on, as
´
ı codificando los datos.
El otro se denomina ruta de extensi
´
on y est
´
a compuesto
por capas de convoluci
´
on transpuesta, las necesarias para
decodificar los datos hasta su resoluci
´
on original. El camino
que une a estos se denomina cuello de botella y es la capa
que representa el mayor punto de abstracci
´
on, respecto a
la entrada original. Por
´
ultimo, existen las skip-connections,
conexiones entre las distintas rutas que buscan acelerar el
entrenamiento y alivianar el problema del gradiente des-
vanecente. Existen muchos esquemas distintos de U-Net.
En este trabajo fue utilizada la Fully-Dense U-Net (FD-
UNet) [31]. Su particularidad es el uso de bloques densos
convolucionales. La entrada de cada uno de estos bloques
est
´
a compuesta de todas las salidas de capas anteriores
concatenadas. De esta manera, cada capa aprende mapas
de caracter
´
ısticas adicionales basados en el “conocimiento
colectivo” generado por las capas previas. Esta estrategia
incrementa la capacidad de representaci
´
on a trav
´
es del reuso
de caracter
´
ısticas.
Los hiperpar
´
ametros seleccionados fueron los siguientes:
lr = 5 · 10
4
y lotes de 15 muestras. La red se entren
´
o
por 50 ciclos. El conjunto de datos utilizado se separa en
entrenamiento (64 %), validaci
´
on (16 %) y prueba (20 %). El
segundo conjunto se utiliza para medir el desempe
˜
no de la
red durante el ciclo de entrenamiento y aplicar la t
´
ecnica de
detenci
´
on anticipada [32]. La red se entrena con la funci
´
on
de p
´
erdida de error cuadr
´
atico medio (MSE). Se entrenaron
dos FD-Unet id
´
enticas con conjuntos de datos distintos: (i)
usando solo las im
´
agenes de la base de datos BV y (ii)
agregando tambi
´
en los datos sint
´
eticos generados por nuestra
GAN. Debido a las restricciones en poder computacional y
espacio, solo se generaron 5,626 im
´
agenes sint
´
eticas. De
esta manera se obtuvo un conjunto de entrenamiento con el
doble de im
´
agenes totales, al que denominamos BV’.
Finalizado los entrenamientos de ambas redes, se calculan
cuatro figuras de m
´
erito para comparar su desempe
˜
no de
forma cuantitativa: la correlaci
´
on de Pearson (PC), la ra
´
ız
del error cuadr
´
atico medio (RMSE), la relaci
´
on ruido y se
˜
nal
pico (PSNR) y la similitud estructural (SSIM). Las mismas
son utilizadas ampliamente en el
´
ambito de cuantificaci
´
on
de im
´
agenes y se complementan entre ellas [28] [33]. Para
ello se utiliza el conjunto de prueba, que contiene aquellos
datos que nunca fueron utilizados durante el entrenamiento.
V. RESULTADOS
Como mencionamos previamente, la figura de m
´
erito
elegida para medir el desempe
˜
no de nuestra red GAN fue
la distancia FID. En la Fig. 8 podemos ver los resultados
obtenidos para el entrenamiento realizado.
En primer lugar podemos destacar la tendencia decre-
ciente de los valores obtenidos. Esto indica claramente la
mejora en las im
´
agenes generadas por la red, minimizando
las diferencias entre datos sint
´
eticos y reales en cada ciclo.
Los valores absolutos obtenidos no brindan una informaci
´
on
relevante, dado que estos var
´
ıan ampliamente seg
´
un el domi-
nio de los conjuntos de datos utilizados. No se encontraron
trabajos o referencias donde se utilice FID como m
´
etrica de
Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)
ISSN 2525-0159
67
http://elektron.fi.uba.ar
TABLA I: Figuras de m
´
erito para cada metodolog
´
ıa.
SSIM PC RMSE PSNR
DAS 0,145 ± 0,035 0,478 ± 0,027 0,415 ± 0,033 7,670 ± 0,751
FD-UNet 0,801 ± 0,089 0,910 ± 0,041 0,098 ± 0,034 20,711 ± 3,197
FD-UNet(Aug) 0,841 ± 0,076 0,933 ± 0,034 0,085 ± 0,030 22,040 ± 3,288
Figura 8: Valores de FID obtenidos para entrenamiento de
red GAN con la base de datos BV.
s
´
ıntesis para im
´
agenes de dominio m
´
edico. Por otro lado,
tambi
´
en podemos ver la saturaci
´
on de la red llegando a
los 100,000 ciclos de entrenamiento. Un mayor tiempo o
cantidad de iteraciones no conllevan a mejor calidad de
las im
´
agenes generadas, demarcando as
´
ı el l
´
ımite emp
´
ırico
de esta configuraci
´
on. Un barrido de los hiperpar
´
ametros
de la red podr
´
ıa generar mejores resultados, pero esto
no se llev
´
o a cabo debido a las limitaciones de recursos
computacionales. De todas maneras cabe destacar que un
aumento en la cantidad de iteraciones no gener
´
o un modo
colapso, demostrando la estabilidad de la red. Es posible
que la red haya extra
´
ıdo la completitud o mayor
´
ıa de la
informaci
´
on disponible en la base de datos proporcionada,
explicando as
´
ı la disminuci
´
on y eventual cese de mejoras en
su rendimiento. Una vez entrenada la red GAN se procedi
´
o
a aumentar el conjunto BV, generando BV’.
En la Fig. 9 se puede apreciar la evoluci
´
on de las
im
´
agenes al pasar por las distintas etapas detalladas en la
Fig. 6, para el caso donde se utiliz
´
o la base de datos BV’.
Comenzamos con un dato sint
´
etico proveniente de la red
GAN, con el que construimos un sinograma utilizando la
matriz A. Luego del agregado de ruido, se reconstruye la
imagen usando el m
´
etodo DAS (pasaje del dominio de datos
al dominio imagen). C
´
omo se observa en la imagen central
de la Fig. 9, la reconstrucci
´
on obtenida posee artefactos y
otros defectos mencionados previamente, que son esencial-
mente causados por el bajo muestreo espacial [27]. Este tipo
im
´
agenes son las entradas de la red FD-UNet. Luego de 50
iteraciones se obtiene la imagen post-procesada que presenta
una notable mejora respecto a la imagen devuelta por DAS.
Esto indica que la red U-Net realiza un trabajo eficiente en
la eliminaci
´
on de desperfectos.
De esta manera, se realizaron dos entrenamientos, uno con
la base de datos BV y otro con la base de datos aumentado
Imagen sint
´
etica
DAS FD-UNet
Figura 9: Imagen sint
´
etica perteneciente a la base de datos
BV’ (izq.), reconstrucci
´
on DAS (med.) e imagen post-
procesada con FD-UNet (der.).
BV’. Finalizados ambos, se procedi
´
o a analizar la calidad del
post-procesamiento de ambas redes utilizando el conjunto
de datos de inferencia apartado inicialmente, compuesto por
626 im
´
agenes no utilizadas hasta este momento. En la Fig.
10 podemos ver distintos casos de los resultados en ambas
redes al utilizar el mismo.
Imagen verdadera FD-UNet FD-UNet(Aug)
Figura 10: Im
´
agenes verdaderas (izq.), im
´
agenes procesadas
con FD-UNet entrenada con BV (med.) e im
´
agenes proce-
sadas con FD-UNet entrenada con BV’ (der.).
Como se puede apreciar a simple vista, los resultados
obtenidos para cada iteraci
´
on de la red FD-UNet resultan
similares. Esto se condice con los valores obtenidos para
cada figura de m
´
erito, presentados en la Tabla I. Si bien
hay una gran diferencia entre los resultados obtenidos para
reconstrucci
´
on con solo DAS, las diferencias entre cada
Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)
ISSN 2525-0159
68
http://elektron.fi.uba.ar
red de post-procesamiento son peque
˜
nas. Esto confirma dos
hip
´
otesis:
Hay una clara mejora en el proceso de reconstrucci
´
on
gracias a la etapa de post-procesamiento.
Hay una mejora tangible en el rendimiento de la etapa
de post-procesamiento debido a la aumentaci
´
on de
datos.
Si bien los valores obtenidos gracias al entrenamiento con
BV’ quedan dentro del rango de varianza de aquellos
obtenidos con el entrenamiento de BV, los valores medios
mejoran para todas las figuras de m
´
erito. Es importante
destacar que no se alcanz
´
o el l
´
ımite emp
´
ırico de cantidad de
im
´
agenes sint
´
eticas generadas. Se opt
´
o por generar la misma
cantidad de datos que los originales debido a limitaciones
de espacio de computo, pero la tendencia de las figuras de
m
´
erito fue creciente en pruebas con menos datos. De esta
manera queda entonces la posibilidad en futuros trabajos de
encontrar el l
´
ımite de nuestra red GAN. Lo que si podemos
afirmar es que las muestras generadas por nuestra red GAN
tienen un impacto real en aplicaciones de TOA. Si las
muestras sint
´
eticas hubiesen sido una aumentaci
´
on simple
de las originales, o la red hubiera aprendido a replicar la
base de datos BV, la diferencia entre entrenar a la red FD-
UNet con un conjunto o el otro ser
´
ıa despereciable o nula.
Dado que la red GAN genera nueva informaci
´
on a partir
de un ruido gaussiano, esto permite generar datos sint
´
eticos
que ayuden a mejorar el entrenamiento de nuestra red de
post-procesamiento.
VI. CONCLUSIONES
Este trabajo demuestra la factibilidad de utilizar redes
GAN para la generaci
´
on de muestras sint
´
eticas de TOA,
que luego pueden ser utilizadas para aumentar conjuntos
preexistentes y as
´
ı mejorar el rendimiento de redes neuro-
nales que se entrenen con los mismos. Tambi
´
en podemos
concluir que la FID es una m
´
etrica acertada para medir el
comportamiento de una red GAN al momento de generar
im
´
agenes a partir de ruido, donde no se cuenta con im
´
agenes
de entrada en la red a modo de referencia para comparar.
A continuaci
´
on se mencionan ciertas limitaciones que
podr
´
ıan ser solventadas en futuros trabajos, en b
´
usqueda
de mejores resultados. En primer lugar, el poder y espacio
de computo reducido impact
´
o en la generaci
´
on de datos
sint
´
eticos. Ser
´
ıa deseable seguir iterando sobre la cantidad
de muestras sint
´
eticas en el conjunto BV’, para encontrar el
l
´
ımite pr
´
actico de nuestra red GAN, aquel donde empiece
a generalizar y las im
´
agenes generadas dejen de aportar
informaci
´
on
´
util en el entrenamiento de la red U-Net. Por
otro lado, herramientas como barrido de par
´
ametros para
ambas redes tampoco fueron utilizadas. Por
´
ultimo, otro
tipo de caso que podr
´
ıa resultar de inter
´
es es la utilizaci
´
on
de un conjunto de datos BV’ que contenga menor cantidad
de datos reales que BV. Por ejemplo, se podr
´
ıa igualar la
cantidad de im
´
agenes en ambos conjuntos pero reducir la
cantidad total de muestras reales en el conjunto aumentado.
De esta manera la confianza en la calidad de las muestras
generadas ser
´
ıa todav
´
ıa mayor.
AGRADECIMIENTOS
Este trabajo fue financiado por la Universidad de Bue-
nos Aires (UBACYT 20020190100032BA), CONICET (PIP
11220200101826CO) y la Agencia I+D+i (PICT 2018-
04589, PICT 2020-01336).
REFERENCIAS
[1] C. Huang, K. Wang, L. Nie, and et al., “Full-wave iterative image
reconstruction in photoacoustic tomography with acoustically inho-
mogeneous media, IEEE Transactions on Medical Imaging, vol. 32,
pp. 1097–1110, 2013.
[2] S. Arridge, P. Beard, M. Betcke, and et al., Accelerated high-
resolution photoacoustic tomography via compressed sensing, Phy-
sics in medicine and biology, vol. 61, pp. 8908–8940, 2016.
[3] Y. E. Boink, M. J. Lagerwerf, W. Steenbergen, and et al., A frame-
work for directional and higher-order reconstruction in photoacoustic
tomography, Physics in Medicine & Biology, vol. 63, 2018.
[4] I. Goodfellow, Y. Bengio, and A. Courville, Deep Learning. The
MIT Press, 2016.
[5] A. Hauptmann and B. Cox, “Deep learning in photoacoustic to-
mography: Current approaches and future directions, Journal of
Biomedical Optics, vol. 25, 09 2020.
[6] O. Ronneberger, P. Fischer, and T. Brox, “U-Net: Convolutional
Networks for Biomedical Image Segmentation, arXiv preprint ar-
Xiv:1505.04597, 2015.
[7] S. Guan, A. A. Khan, S. Sikdar, and P. V. Chitnis, “Fully Dense UNet
for 2-D Sparse Photoacoustic Tomography Artifact Removal, IEEE
Journal of Biomedical and Health Informatics, vol. 24, no. 2, pp.
568–576, 2020.
[8] X. Ma, C. Peng, J. Yuan, Q. Cheng, G. Xu, X. Wang, and P. L. Carson,
“Multiple delay and sum with enveloping beamforming algorithm for
photoacoustic imaging, IEEE Trans. on Medical Imaging, vol. 39,
pp. 1812–1821, 2019.
[9] L. Torrey and J. Shavlik, “Transfer learning, Handbook of Research
on Machine Learning Applications, 01 2009.
[10] B. Liu, Y. Zhu, K. Song, and A. Elgammal, “Towards faster and
stabilized GAN training for high-fidelity few-shot image synthesis,
arXiv preprint arXiv:2101.04775, 2021.
[11] M. Arjovsky and L. Bottou, “Towards principled methods for training
generative adversarial networks, stat, vol. 1050, 01 2017.
[12] D. Zhang and A. Khoreva, “PA-GAN: Improving gan training by pro-
gressive augmentation, arXiv preprint arXiv:1901.10422, 01 2019.
[13] H. Zhang, T. Xu, H. Li, S. Zhang, X. Wang, X. Huang, and D. N.
Metaxas, “Stackgan: Text to photo-realistic image synthesis with
stacked generative adversarial networks, Proceedings of the IEEE
international conference on computer vision, pp. 5907–5915, 2017.
[14] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for
image recognition, Proceedings of the IEEE conference on computer
vision and pattern recognition, pp. 770–778, 2016.
[15] P. Isola, J.-Y. Zhu, T. Zhou, and A. Efros, “Image-to-image translation
with conditional adversarial networks, 07 2017, pp. 5967–5976.
[16] D. Hendrycks, M. Mazeika, S. Kadavath, and D. Song, “Using self-
supervised learning can improve model robustness and uncertainty,
Advances in Neural Information Processing Systems, pp. 15 663–
–15 674, 2019.
[17] J. Lim and J. C. Ye, “Geometric GAN, arXiv preprint ar-
Xiv:1705.02894, 05 2017.
[18] “DRIVE: Digital retinal images for vessel extraction, 2020. [Online].
Available: https://drive.grand-challenge.org/
[19] “STARE: Structured analysis of the retina, 2000. [Online]. Available:
https://cecas.clemson.edu/
ahoover/stare/
[20] “RITE: Retinal images vessel tree extraction, 2013. [Online].
Available: https://medicine.uiowa.edu/eye/rite-dataset
[21] “ARIA: Automated retinal image analysis, 2006. [Online]. Available:
http://www.damianjjfarnell.com/
[22] A. Hatamizadeh, H. Hosseini, N. Patel, J. Choi, C. Pole, C. Hoeferlin,
S. Schwartz, and D. Terzopoulos, “RAVIR: A dataset and methodo-
logy for the semantic segmentation and quantitative analysis of retinal
arteries and veins in infrared reflectance imaging, IEEE Journal of
Biomedical and Health Informatics, 2022.
[23] A. Borji, “Pros and cons of gan evaluation measures, Computer
Vision and Image Understanding, vol. 1793, pp. 41–65, 2019.
[24] M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, and S. Hochreiter,
“Gans trained by a two time-scale update rule converge to a local nash
equilibrium, Advances in neural information processing systems, pp.
6626–6637, 2017.
[25] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna, “Rethin-
king the inception architecture for computer vision, IEEE Conference
on Computer Vision and Pattern Recognition (CVPR), pp. 2818–2826,
2016.
Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)
ISSN 2525-0159
69
http://elektron.fi.uba.ar
[26] A. Paszke, S. Gross, F. Massa, A. Lerer, J. Bradbury, G. Chanan,
T. Killeen, Z. Lin, N. Gimelshein, L. Antiga et al., “Pytorch: An
imperative style, high-performance deep learning library, Advances
in neural information processing systems, vol. 32, 2019.
[27] M. G. Gonzalez, M. Vera, and L. R. Vega, “Combining band-
frequency separation and deep neural networks for optoacoustic
imaging, Optics and Lasers in Engineering, vol. 163, p. 107471,
2023.
[28] L. Hirsch, M. G. Gonzalez, and L. R. Vega, A comparative study
of time domain compressed sensing techniques for optoacoustic
imaging, IEEE Latin America Transactions, vol. 20, pp. 1018–1024,
2022.
[29] C. Tian, M. Pei, K. Shen, S. Liu, Z. Hu, and T. Feng, “Impact
of system factors on the performance of photoacoustic tomography
scanners, Phys. Rev. Applied, vol. 13, p. 014001, 2020.
[30] M. Haltmeier, M. Sandbichler, T. Berer, J. Bauer-Marschallinger,
P. Burgholzer, and L. Nguyen, A sparsification and reconstruction
strategy for compressed sensing photoacoustic tomography, Acoust.
Soc. Am., vol. 143, no. 6, p. 3838–3848, 2018.
[31] S. Guan, A. Khan, S. Sikdar, and P. Chitnis, “Fully dense unet for
2D sparse photoacoustic tomography artifact removal, IEEE Journal
of Biomedical and Health Informatics, vol. 24, pp. 568–576, 2020.
[32] W. Xing-xing and L. Jin-guo, A new early stopping algorithm for im-
proving neural network generalization, in 2009 Second International
Conference on Intelligent Computation Technology and Automation,
vol. 1, 2009, pp. 15–18.
[33] N. Awasthi, G. Jain, S. K. Kalva, M. Pramanik, and P. Yalavarthy,
“Deep neural network-based sinogram super-resolution and band-
width enhancement for limited-data photoacoustic tomography, IEEE
Transactions on Ultrasonics Ferroelectrics and Frequency Control,
vol. PP, 02 2020.
Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)
ISSN 2525-0159
70
http://elektron.fi.uba.ar

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia


Copyright (c) 2023 Alejandro Scopa Lopina

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.


Revista elektron,  ISSN-L 2525-0159
Facultad de Ingeniería. Universidad de Buenos Aires 
Paseo Colón 850, 3er piso
C1063ACV - Buenos Aires - Argentina
revista.elektron@fi.uba.ar
+54 (11) 528-50889