Estudio de redes generativas de confrontaci
´
on
para generaci
´
on de datos sint
´
eticos y su aplicaci
´
on
a tomograf
´
ıa optoac
´
ustica
Study of Generative Adversarial Networks for Generating Synthetic Data and its Application on
Optoacoustic Tomography
Alejandro D. Scopa Lopina
1
, Mart
´
ın G. Gonz
´
alez
, Mat
´
ıas Vera
Facultad de Ingenier
´
ıa, Universidad de Buenos Aires
Paseo Colon 850, C1063ACV, Buenos Aires, Argentina
Consejo Nacional de Investigaciones Cient
´
ıficas y T
´
ecnicas, (CONICET)
Godoy Cruz 2290, C1425FQB, Buenos Aires, Argentina
1
ascopa@fi.uba.ar
Resumen— En este trabajo se propone el uso de una
red generativa de confrontaci
´
on (GAN) para efectuar
un aumento de datos con el objetivo de mejorar la
reconstrucci
´
on de im
´
agenes en sistemas para tomograf
´
ıa
optoac
´
ustica (TOA). Se utiliz
´
o el modelo denominado
FastGAN que es una red compacta, capaz de generar
im
´
agenes de alta resoluci
´
on a partir de un conjunto de
datos reducidos. La calidad de los datos generados se
evalu
´
o a trav
´
es de dos m
´
etodos. Por un lado, se us
´
o la
distancia de inicio de Fr
´
echet (FID), observ
´
andose una
tendencia decreciente a largo de todo el entrenamiento
de la GAN. En el segundo m
´
etodo se entren
´
o una red
neuronal U-Net dise
˜
nada para un sistema de TOA
con y sin datos aumentados. En este caso, el modelo
entrenado con los datos extras aportados por la GAN
logr
´
o una mejora apreciable en las figuras de m
´
erito
asociadas a la reconstrucci
´
on.
Palabras clave: Tomograf
´
ıa optoac
´
ustica; Aprendizaje
profundo; Redes generativas de confrontaci
´
on; Datos
sint
´
eticos.
Abstract— This work proposes the use of a
Generative Adversarial Network (GAN) to perform
data augmentation with the goal of improving image
reconstruction in Optoacustic Tomography (OAT)
applications. We employ the FastGAN model, a compact
net capable of generating high resolution images from
small datasets. The quality of the generated data was
assessed by two methods. First, the Fr
´
echet distance
(FID) was measured, observing a decreasing trend
throughout the entire GAN training. Then, a U-Net
neural network designed for a OAT system with and
without augmented data was trained. In this case,
the model trained with the extra data generated by
the GAN achieved an appreciable improvement in the
figures of merit associated with the reconstruction.
Keywords: Optoacoustic Tomography; Deep Learning;
Generative Adversarial Networks; Synthetic Data.
I. INTRODUCCI
´
ON
La tomograf
´
ıa optoac
´
ustica (TOA) es un m
´
etodo de
obtenci
´
on de im
´
agenes m
´
edicas mediante el uso del efecto
optoac
´
ustico (OA). Un pulso de luz que incide en el tejido
biol
´
ogico blando se esparcir
´
a por el mismo y una parte ser
´
a
absorbida por mol
´
eculas presentes en la muestra biol
´
ogica,
conocidas como crom
´
oforos. La energ
´
ıa del crom
´
oforo
excitado se convierte luego en calor, que en el marco
de un proceso isoc
´
orico, termina generando un aumento
de presi
´
on. Esto se detecta a trav
´
es de distintos arreglos
de sensores de ultrasonido, generando sinogramas. Estos
son una representaci
´
on gr
´
afica de las se
˜
nales ac
´
usticas en
funci
´
on del tiempo medido por cada detector. Finalmente, a
trav
´
es de un proceso de reconstrucci
´
on, es posible recuperar
los datos de inter
´
es.
El proceso de reconstrucci
´
on en sistemas para TOA
conlleva dos problemas de inversi
´
on: el ac
´
ustico y el
´
optico.
En el primero se desea obtener la presi
´
on ac
´
ustica inicial,
mientras que en el segundo se intenta recuperar el coeficiente
de absorci
´
on
´
optico. El problema de inversi
´
on ac
´
ustica se
puede resolver en forma cerrada en condiciones ideales. Sin
embargo, en la mayor
´
ıa de los casos esto no es posible, dado
las heterogeneidades en la velocidad del sonido o las limi-
taciones de ancho de banda en las mediciones, por ejemplo.
Cuando adem
´
as consideramos la inversi
´
on
´
optica, la tarea
de reconstrucci
´
on se vuelve compleja. Existen soluciones
basadas en modelos iterativos, donde se busca incorporar
alg
´
un tipo de conocimiento previo en estos modelos para
minimizar la complejidad. De todas maneras, estas solucio-
nes terminan siendo lentas y computacionalmente intensivas
[1]–[3].
Con al advenimiento de nuevas ideas en el campo del
aprendizaje estad
´
ıstico, como ser las t
´
ecnicas de aprendizaje
profundo o deep learning (DL) [4], se ha generado un
c
´
umulo importante de m
´
etodos diversos y su aplicaci
´
on a
nuevos y viejos problemas. El problema de procesamiento
de im
´
agenes ha sido paradigm
´
atico en el sentido de que fue
Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)
ISSN 2525-0159
61
Recibido: 31/10/23; Aceptado: 06/12/23
Creative Commons License - Attribution-NonCommercial-
NoDerivatives 4.0 International (CC BY-NC-ND 4.0)
https://doi.org/10.37537/rev.elektron.7.2.185.2023
Original Article
uno de los primeros campos en donde DL ha mostrado su
enorme potencialidad, generando desempe
˜
nos nunca antes
vistos en diversos problemas como ser clasificaci
´
on, filtrado
(denoising), segmentaci
´
on, etc. En el
´
ambito de TOA, el es-
tado del arte se ha destacado por el empleo de arquitecturas
de aprendizaje profundo asociado a la familia de redes con-
volucionales [5]. Una arquitectura ampliamente reconocida
en este contexto es la U-Net [6], la cual se ha convertido
en la elecci
´
on preferida para la reconstrucci
´
on de im
´
agenes
TOA debido a su capacidad para capturar caracter
´
ısticas de
alta resoluci
´
on y su habilidad para tratar con problemas de
im
´
agenes m
´
edicas, como la escasez de datos y el ruido [7].
Su estructura combina una ruta de contracci
´
on y una ruta
de expansi
´
on, la cual permite obtener resultados precisos y
detallados. Adem
´
as, se han realizado diversos avances en la
mejora de la U-Net mediante la adaptaci
´
on de la arquitectura
para abordar desaf
´
ıos espec
´
ıficos de la TOA. Estos avances
contin
´
uan impulsando el estado del arte en la reconstrucci
´
on
de im
´
agenes de TOA, abriendo nuevas oportunidades para
la mejora de diagn
´
osticos y tratamientos m
´
edicos.
Actualmente, uno de los principales problemas es la
carencia de suficiente cantidad de datos para entrenar las
redes mencionadas anteriormente. Esta escasez resulta un
inconveniente particular de TOA, donde hoy en d
´
ıa no se
cuenta con un est
´
andar certificado de im
´
agenes m
´
edicas en
gran volumen, como si sucede por ejemplo para resonancias
magn
´
eticas (MRI) o tomograf
´
ıas computadas (CT). Dado
que las t
´
ecnicas de DL suelen desempe
˜
narse mejor o di-
rectamente requieren de un gran volumen de datos para su
entrenamiento, nos encontramos frente a una problem
´
atica
de inter
´
es com
´
un para muchos investigadores del campo. En
este sentido, en este trabajo se propone el estudio de redes
generativas de confrontaci
´
on (GAN, por sus siglas en ingl
´
es)
para crear muestras sint
´
eticas (aumentaci
´
on de datos) para
obtener pares de entradas y salidas que sirvan para entrenar
satisfactoriamente a las redes neuronales. De esta manera,
se puede lograr un mejor aprovechamiento de los escasos y
costosos datos experimentales para el refinamiento final de
sus par
´
ametros.
II. MARCO TE
´
ORICO TOA
La TOA es un m
´
etodo que proporciona mapas de absor-
ci
´
on
´
optica de alta resoluci
´
on mediante la detecci
´
on de ondas
de ultrasonido resultantes de la expansi
´
on t
´
ermica producida
por la irradiaci
´
on del tejido con pulsos cortos de luz. A
trav
´
es del fen
´
omeno OA se genera un pulso ac
´
ustico a partir
de la absorci
´
on de un pulso
´
optico. La incidencia de un pulso
de luz en un tejido biol
´
ogico se dispersa por el mismo, even-
tualmente abandon
´
andolo o siendo absorbido por mol
´
eculas
conocidas como crom
´
oforos, de los cuales la hemoglobina
es la m
´
as importante. La energ
´
ıa del crom
´
oforo excitado
luego se convierte en calor. Este proceso ocurre en la escala
de los nanosegundos, un tiempo mucho m
´
as corto que lo
que el tejido demora en moverse, es decir, que la densidad
de su masa local cambie (escala en microsegundos). De esta
manera, el calentamiento es isoc
´
orico y, por lo tanto, viene
acompa
˜
nado de un aumento en presi
´
on. El tejido es el
´
astico,
por lo que las regiones de alta presi
´
on terminan actuando
como fuentes de ondas ac
´
usticas. Las ondas ac
´
usticas son
sensibles a la velocidad del sonido y la densidad del medio y
estos par
´
ametros suelen variar con la posici
´
on. Sin embargo,
en tejidos blandos, las variaciones suelen ser peque
˜
nas y,
como rara vez se conocen de antemano, el medio suele
tratarse como ac
´
usticamente homog
´
eneo. Por la diferencia
en escala temporal, el incremento de presi
´
on se puede
considerar instant
´
aneo. Esto permite modelar la generaci
´
on
y propagaci
´
on de la onda OA como un problema con
condiciones iniciales conocidas [5].
Las mediciones de ondas ac
´
usticas generadas por el efecto
OA se realizan en una superficie S alrededor de una regi
´
on
que contiene el objeto a analizar. La superficie S no es un
contorno, por lo que no afecta el campo ac
´
ustico. Existen
varios operadores de muestreo para TOA, entre los m
´
as
destacables o utilizados:
Muestreo por puntos, donde la superficie S puede ser
una figura geom
´
etrica como un plano, un cilindro o
una esfera.
Mediciones de integrales espaciales del campo ac
´
ustico
a lo largo de planos, l
´
ıneas o patrones.
Mediciones a trav
´
es de un anillo de detectores enfoca-
dos en un plano.
Mediciones a trav
´
es de un arreglo lineal de detectores
enfocados en un plano.
Las se
˜
nales OA son de banda ancha por naturaleza,
t
´
ıpicamente mayor a los de un sensor de ultrasonido, por
lo que el rango de detecci
´
on de frecuencias es limitado.
Por otro lado, debido al tama
˜
no finito de los detectores de
ultrasonidos reales, tambi
´
en se filtran los n
´
umeros de onda
espaciales. Esto sucede dado que a medida que aumenta el
´
area, los detectores se vuelven m
´
as direccionales, es decir,
su
´
angulo de aceptaci
´
on disminuye.
A. Problema inverso
Como se mencion
´
o previamente, en la TOA existen dos
problemas inversos, uno correspondiente al operador directo
de la parte ac
´
ustica y otro al operador directo de la parte
´
optica. En este trabajo nos centramos en el primero, donde
f ser
´
a la presi
´
on ac
´
ustica inicial y g el sinograma.
Para resolver los problemas directos e inversos, contar
con ciertos operadores facilita el trabajo. En nuestro caso,
el operador de mayor relevancia es A, que representa un
mapeo lineal entre la distribuci
´
on de presi
´
on ac
´
ustica inicial
f y las mediciones ac
´
usticas g bajo el efecto del ruido ϵ. El
operador A mapea del espacio de im
´
agenes al espacio de
datos medidos.
g = A · f + ϵ (1)
Se ha demostrado que este problema converge si los datos
son suficientes. A continuaci
´
on se mencionan algunas de las
restricciones o problemas m
´
as comunes en el problema de
inversi
´
on ac
´
ustica:
Ruido siempre presente en cualquier medici
´
on real.
La respuesta de los detectores tiene un rango de
frecuencia finito.
Los detectores s
´
olo rodean parte de la muestra (limited
view).
Submuestreo en espacio o tiempo.
Por otro lado, tambi
´
en existen incertezas en los operado-
res. Si bien las distintas ecuaciones capturan los fen
´
omenos
f
´
ısicos de la TOA, las soluciones num
´
ericas de los mismos
Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)
ISSN 2525-0159
62
http://elektron.fi.uba.ar
implican ciertas diferencias. Por ejemplo, es habitual el uso
de simplificaciones para reducir el costo computacional.
Tambi
´
en existe una dependencia entre algunos par
´
ametros
reales que afectan a los operadores, pero que resulta com-
plejo definir o controlar en las mediciones.
B. M
´
etodos de reconstrucci
´
on
Para la TOA existen m
´
ultiples m
´
etodos cl
´
asicos de re-
construcci
´
on, esto es, t
´
ecnicas con un enfoque no basado en
DL. En este trabajo, haremos uso de la t
´
ecnica de delay-
and-sum (DAS), uno de los algoritmos de beamforming
m
´
as utilizados en reconstrucci
´
on de im
´
agenes OA [8]. Su
simplicidad permite su utilizaci
´
on en aplicaciones de tiempo
real, pero generalmente se encuentran ciertas limitaciones.
La aparici
´
on de artefactos intensos o de grandes l
´
obulos
laterales suele ser com
´
un en las im
´
agenes reconstruidas. En
nuestro caso esto no es un problema, ya que este m
´
etodo es
simplemente usado pasar del dominio de datos de medici
´
on
(sinograma) al dominio imagen.
El algoritmo busca reconstruir una imagen a trav
´
es de
presiones ac
´
usticas capturadas por distintos arreglos de
sensores. Para el caso en que la regi
´
on imagen se encuentre
contenida en el plano xy, y se use un arreglo de N
s
detectores distribuidos alrededor de la muestra, se tiene la
siguiente expresi
´
on [8]:
S
DAS
(x, y) =
N
s
X
i=1
S(i, t(x, y, i)) (2)
donde S
DAS
(x, y) es la se
˜
nal reconstruida en la posici
´
on
(x, y) y S(i, t) es la se
˜
nal recibida en el sensor i en el
tiempo t. La funci
´
on t(x, y, i) representa el retraso temporal
debido a la propagaci
´
on de la se
˜
nal OA generada en (x, y)
hasta el sensor i:
t(x, y, i) =
d(x, y, i)
v
s
(3)
donde v
s
es la velocidad del sonido y d(x, y, i) es la
distancia entre el punto medido en la regi
´
on imagen y el
sensor i. Dividiendo la regi
´
on imagen en p
´
ıxeles se puede
obtener la imagen reconstruida a trav
´
es de (2).
III. REDES NEURONALES DE CONFRONTACI
´
ON
A. Teor
´
ıa general
Las redes neuronales de tipo GAN nos permiten generar
o sintetizar im
´
agenes a partir de cierta familia de datos.
Est
´
an compuestas de dos redes que compiten entre s
´
ı, el
generador y el discriminador. La primera se encarga de
generar im
´
agenes, que luego son usadas como entrada de la
segunda red.
´
Esta debe detectar si provienen del generador o
no, es decir, distinguir entre muestras sint
´
eticas o reales. La
evaluaci
´
on del discriminador es luego utilizada para mejorar
la calidad del generador, dando lugar a esta competencia
entre ambas redes. Este tipo de red tiene un gran potencial
y rango de aplicaciones, desde procesamiento de im
´
agenes
en la forma de clasificadores o reconstructores, as
´
ı como
tambi
´
en en su habilidad de expandir conjuntos de datos exis-
tentes. Su contraparte m
´
as com
´
un es el costo computacional
que requieren y la cantidad de datos necesarios para obtener
resultados aceptables. Esto muchas veces termina limitando
su aplicaci
´
on en problemas reales, donde la informaci
´
on o
los recursos no abundan.
B. FastGAN
Como se mencion
´
o previamente, la TOA es una t
´
ecnica
donde la disponibilidad de conjuntos de datos de gran
tama
˜
no es escasa. La metodolog
´
ıa llamada transfer-learning
[9] con modelos pre-entrenados presenta una posible so-
luci
´
on a este problema, pero no siempre se cuenta con la
garant
´
ıa de poder encontrar un conjunto de datos compatible
con nuestro modelo. En algunos casos, el ajuste fino de este
tipo de redes puede incluso decantar en un peor rendimiento.
La red GAN presentada en este trabajo, de aqu
´
ı en adelan-
te denominada FastGAN [10], busca resolver o minimizar el
problema de escasez de datos para TOA u otras disciplinas
similares. La idea es presentar un proceso de generaci
´
on de
im
´
agenes de alta resoluci
´
on a partir de conjuntos de datos
acotados, que adem
´
as requiera poco poder computacional.
Estas condiciones de entrenamiento hacen que el modelo
sea vulnerable al sobreajuste y errores por el modo colapso
[11] [12]. Para evitar estos comportamientos es necesario un
generador G que pueda aprender r
´
apidamente y un discrimi-
nador D que pueda proveer informaci
´
on
´
util continuamente.
Para enfrentar estos desaf
´
ıos se propone:
Un m
´
odulo de excitaci
´
on por canales con skip-layers
(SLE), que aprovecha las activaciones en mapas de baja
resoluci
´
on para luego reutilizarlas en las respuestas de
los canales en los mapas de alta resoluci
´
on [10]. SLE
permite que el flujo del gradiente a trav
´
es de los pesos
de cada capa del modelo sea m
´
as robusto, permitiendo
un entrenamiento m
´
as r
´
apido.
Un discriminador D auto-supervisado que es entrenado
como codificador de caracter
´
ısticas con un decodi-
ficador extra. Este es forzado a aprender un mapa
de caracter
´
ısticas m
´
as descriptivo, cubriendo as
´
ı m
´
as
regiones de una imagen de entrada. De esta manera
podemos brindar se
˜
nales m
´
as comprehensivas a G para
su entrenamiento.
El dise
˜
no de la red resulta minimalista. Para cada resolu-
ci
´
on de G se utiliza una
´
unica capa de convoluci
´
on. En las
altas resoluciones ( 512 ×512) se utilizan tres canales de
entrada y salida para las capas convolucionales, tanto en G
como D. En la Fig. 1 podemos ver la estructura general del
generador.
Para la s
´
ıntesis de im
´
agenes de alta resoluci
´
on, resulta
inevitable la necesidad de un generador G profundo, con
muchas capas de convoluci
´
on. Esto lleva a un tiempo de
entrenamiento m
´
as largo que modelos m
´
as superficiales,
dado la cantidad de par
´
ametros y el efecto de flujo de
gradiente d
´
ebil [13]. La estructura residual ResBlock [14]
surge como propuesta a esta problem
´
atica de entrenamiento
en redes profundas. Se plantea la incorporaci
´
on de capas de
conexi
´
on o skip-layers, para mejorar el flujo de gradiente
entre capas. Si bien el uso de esta estructura es abundante,
conlleva un aumento en el costo computacional.
El m
´
odulo SLE reformula la incorporaci
´
on de skip-layers
de dos maneras. En primer lugar, ResBlock implementa
estas conexiones como adiciones t
´
ermino a t
´
ermino entre
las distintas funciones de activaci
´
on de cada capa. Esto
requiere que las dimensiones espaciales de cada funci
´
on
Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)
ISSN 2525-0159
63
http://elektron.fi.uba.ar