Estudio de redes generativas de confrontación para generación de datos sintéticos y su aplicación a tomografía optoacústica

Alejandro Scopa Lopina; Martín Germán González; Matías Vera

Estudio de redes generativas de confrontaci

para generaci

on de datos sint

eticos y su aplicaci

a tomograf

ıa optoac

ustica

Study of Generative Adversarial Networks for Generating Synthetic Data and its Application on

Optoacoustic Tomography

Alejandro D. Scopa Lopina

∗1

, Mart

ın G. Gonz

alez

∗†

, Mat

ıas Vera

∗†

∗

Facultad de Ingenier

ıa, Universidad de Buenos Aires

Paseo Colon 850, C1063ACV, Buenos Aires, Argentina

†

Consejo Nacional de Investigaciones Cient

ıﬁcas y T

ecnicas, (CONICET)

Godoy Cruz 2290, C1425FQB, Buenos Aires, Argentina

ascopa@fi.uba.ar

Resumen— En este trabajo se propone el uso de una

red generativa de confrontaci

on (GAN) para efectuar

un aumento de datos con el objetivo de mejorar la

reconstrucci

on de im

agenes en sistemas para tomograf

ıa

optoac

ustica (TOA). Se utiliz

o el modelo denominado

FastGAN que es una red compacta, capaz de generar

agenes de alta resoluci

on a partir de un conjunto de

datos reducidos. La calidad de los datos generados se

evalu

o a trav

es de dos m

etodos. Por un lado, se us

o la

distancia de inicio de Fr

echet (FID), observ

andose una

tendencia decreciente a largo de todo el entrenamiento

de la GAN. En el segundo m

etodo se entren

o una red

neuronal U-Net dise

nada para un sistema de TOA

con y sin datos aumentados. En este caso, el modelo

entrenado con los datos extras aportados por la GAN

logr

o una mejora apreciable en las ﬁguras de m

erito

asociadas a la reconstrucci

on.

Palabras clave: Tomograf

ıa optoac

ustica; Aprendizaje

profundo; Redes generativas de confrontaci

on; Datos

sint

eticos.

Abstract— This work proposes the use of a

Generative Adversarial Network (GAN) to perform

data augmentation with the goal of improving image

reconstruction in Optoacustic Tomography (OAT)

applications. We employ the FastGAN model, a compact

net capable of generating high resolution images from

small datasets. The quality of the generated data was

assessed by two methods. First, the Fr

echet distance

(FID) was measured, observing a decreasing trend

throughout the entire GAN training. Then, a U-Net

neural network designed for a OAT system with and

without augmented data was trained. In this case,

the model trained with the extra data generated by

the GAN achieved an appreciable improvement in the

ﬁgures of merit associated with the reconstruction.

Keywords: Optoacoustic Tomography; Deep Learning;

Generative Adversarial Networks; Synthetic Data.

I. INTRODUCCI

La tomograf

ıa optoac

ustica (TOA) es un m

etodo de

obtenci

on de im

agenes m

edicas mediante el uso del efecto

optoac

ustico (OA). Un pulso de luz que incide en el tejido

biol

ogico blando se esparcir

a por el mismo y una parte ser

absorbida por mol

eculas presentes en la muestra biol

ogica,

conocidas como crom

oforos. La energ

ıa del crom

oforo

excitado se convierte luego en calor, que en el marco

de un proceso isoc

orico, termina generando un aumento

de presi

on. Esto se detecta a trav

es de distintos arreglos

de sensores de ultrasonido, generando sinogramas. Estos

son una representaci

on gr

aﬁca de las se

nales ac

usticas en

funci

on del tiempo medido por cada detector. Finalmente, a

trav

es de un proceso de reconstrucci

on, es posible recuperar

los datos de inter

es.

El proceso de reconstrucci

on en sistemas para TOA

conlleva dos problemas de inversi

on: el ac

ustico y el

optico.

En el primero se desea obtener la presi

on ac

ustica inicial,

mientras que en el segundo se intenta recuperar el coeﬁciente

de absorci

optico. El problema de inversi

on ac

ustica se

puede resolver en forma cerrada en condiciones ideales. Sin

embargo, en la mayor

ıa de los casos esto no es posible, dado

las heterogeneidades en la velocidad del sonido o las limi-

taciones de ancho de banda en las mediciones, por ejemplo.

Cuando adem

as consideramos la inversi

optica, la tarea

de reconstrucci

on se vuelve compleja. Existen soluciones

basadas en modelos iterativos, donde se busca incorporar

alg

un tipo de conocimiento previo en estos modelos para

minimizar la complejidad. De todas maneras, estas solucio-

nes terminan siendo lentas y computacionalmente intensivas

[1]–[3].

Con al advenimiento de nuevas ideas en el campo del

aprendizaje estad

ıstico, como ser las t

ecnicas de aprendizaje

profundo o deep learning (DL) [4], se ha generado un

umulo importante de m

etodos diversos y su aplicaci

on a

nuevos y viejos problemas. El problema de procesamiento

de im

agenes ha sido paradigm

atico en el sentido de que fue

Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)

ISSN 2525-0159

Recibido: 31/10/23; Aceptado: 06/12/23

Creative Commons License - Attribution-NonCommercial-

NoDerivatives 4.0 International (CC BY-NC-ND 4.0)

https://doi.org/10.37537/rev.elektron.7.2.185.2023

Original Article

uno de los primeros campos en donde DL ha mostrado su

enorme potencialidad, generando desempe

nos nunca antes

vistos en diversos problemas como ser clasiﬁcaci

on, ﬁltrado

(denoising), segmentaci

on, etc. En el

ambito de TOA, el es-

tado del arte se ha destacado por el empleo de arquitecturas

de aprendizaje profundo asociado a la familia de redes con-

volucionales [5]. Una arquitectura ampliamente reconocida

en este contexto es la U-Net [6], la cual se ha convertido

en la elecci

on preferida para la reconstrucci

on de im

agenes

TOA debido a su capacidad para capturar caracter

ısticas de

alta resoluci

on y su habilidad para tratar con problemas de

agenes m

edicas, como la escasez de datos y el ruido [7].

Su estructura combina una ruta de contracci

on y una ruta

de expansi

on, la cual permite obtener resultados precisos y

detallados. Adem

as, se han realizado diversos avances en la

mejora de la U-Net mediante la adaptaci

on de la arquitectura

para abordar desaf

ıos espec

ıﬁcos de la TOA. Estos avances

contin

uan impulsando el estado del arte en la reconstrucci

de im

agenes de TOA, abriendo nuevas oportunidades para

la mejora de diagn

osticos y tratamientos m

edicos.

Actualmente, uno de los principales problemas es la

carencia de suﬁciente cantidad de datos para entrenar las

redes mencionadas anteriormente. Esta escasez resulta un

inconveniente particular de TOA, donde hoy en d

ıa no se

cuenta con un est

andar certiﬁcado de im

agenes m

edicas en

gran volumen, como si sucede por ejemplo para resonancias

magn

eticas (MRI) o tomograf

ıas computadas (CT). Dado

que las t

ecnicas de DL suelen desempe

narse mejor o di-

rectamente requieren de un gran volumen de datos para su

entrenamiento, nos encontramos frente a una problem

atica

de inter

es com

un para muchos investigadores del campo. En

este sentido, en este trabajo se propone el estudio de redes

generativas de confrontaci

on (GAN, por sus siglas en ingl

es)

para crear muestras sint

eticas (aumentaci

on de datos) para

obtener pares de entradas y salidas que sirvan para entrenar

satisfactoriamente a las redes neuronales. De esta manera,

se puede lograr un mejor aprovechamiento de los escasos y

costosos datos experimentales para el reﬁnamiento ﬁnal de

sus par

ametros.

II. MARCO TE

ORICO TOA

La TOA es un m

etodo que proporciona mapas de absor-

optica de alta resoluci

on mediante la detecci

on de ondas

de ultrasonido resultantes de la expansi

on t

ermica producida

por la irradiaci

on del tejido con pulsos cortos de luz. A

trav

es del fen

omeno OA se genera un pulso ac

ustico a partir

de la absorci

on de un pulso

optico. La incidencia de un pulso

de luz en un tejido biol

ogico se dispersa por el mismo, even-

tualmente abandon

andolo o siendo absorbido por mol

eculas

conocidas como crom

oforos, de los cuales la hemoglobina

es la m

as importante. La energ

ıa del crom

oforo excitado

luego se convierte en calor. Este proceso ocurre en la escala

de los nanosegundos, un tiempo mucho m

as corto que lo

que el tejido demora en moverse, es decir, que la densidad

de su masa local cambie (escala en microsegundos). De esta

manera, el calentamiento es isoc

orico y, por lo tanto, viene

acompa

nado de un aumento en presi

on. El tejido es el

astico,

por lo que las regiones de alta presi

on terminan actuando

como fuentes de ondas ac

usticas. Las ondas ac

usticas son

sensibles a la velocidad del sonido y la densidad del medio y

estos par

ametros suelen variar con la posici

on. Sin embargo,

en tejidos blandos, las variaciones suelen ser peque

nas y,

como rara vez se conocen de antemano, el medio suele

tratarse como ac

usticamente homog

eneo. Por la diferencia

en escala temporal, el incremento de presi

on se puede

considerar instant

aneo. Esto permite modelar la generaci

y propagaci

on de la onda OA como un problema con

condiciones iniciales conocidas [5].

Las mediciones de ondas ac

usticas generadas por el efecto

OA se realizan en una superﬁcie S alrededor de una regi

Ω que contiene el objeto a analizar. La superﬁcie S no es un

contorno, por lo que no afecta el campo ac

ustico. Existen

varios operadores de muestreo para TOA, entre los m

destacables o utilizados:

Muestreo por puntos, donde la superﬁcie S puede ser

una ﬁgura geom

etrica como un plano, un cilindro o

una esfera.

Mediciones de integrales espaciales del campo ac

ustico

a lo largo de planos, l

ıneas o patrones.

Mediciones a trav

es de un anillo de detectores enfoca-

dos en un plano.

Mediciones a trav

es de un arreglo lineal de detectores

enfocados en un plano.

Las se

nales OA son de banda ancha por naturaleza,

ıpicamente mayor a los de un sensor de ultrasonido, por

lo que el rango de detecci

on de frecuencias es limitado.

Por otro lado, debido al tama

no ﬁnito de los detectores de

ultrasonidos reales, tambi

en se ﬁltran los n

umeros de onda

espaciales. Esto sucede dado que a medida que aumenta el

area, los detectores se vuelven m

as direccionales, es decir,

angulo de aceptaci

on disminuye.

A. Problema inverso

Como se mencion

o previamente, en la TOA existen dos

problemas inversos, uno correspondiente al operador directo

de la parte ac

ustica y otro al operador directo de la parte

optica. En este trabajo nos centramos en el primero, donde

f ser

a la presi

on ac

ustica inicial y g el sinograma.

Para resolver los problemas directos e inversos, contar

con ciertos operadores facilita el trabajo. En nuestro caso,

el operador de mayor relevancia es A, que representa un

mapeo lineal entre la distribuci

on de presi

on ac

ustica inicial

f y las mediciones ac

usticas g bajo el efecto del ruido ϵ. El

operador A mapea del espacio de im

agenes al espacio de

datos medidos.

g = A · f + ϵ (1)

Se ha demostrado que este problema converge si los datos

son suﬁcientes. A continuaci

on se mencionan algunas de las

restricciones o problemas m

as comunes en el problema de

inversi

on ac

ustica:

Ruido siempre presente en cualquier medici

on real.

La respuesta de los detectores tiene un rango de

frecuencia ﬁnito.

Los detectores s

olo rodean parte de la muestra (limited

view).

Submuestreo en espacio o tiempo.

Por otro lado, tambi

en existen incertezas en los operado-

res. Si bien las distintas ecuaciones capturan los fen

omenos

ısicos de la TOA, las soluciones num

ericas de los mismos

Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)

ISSN 2525-0159

http://elektron.fi.uba.ar

implican ciertas diferencias. Por ejemplo, es habitual el uso

de simpliﬁcaciones para reducir el costo computacional.

Tambi

en existe una dependencia entre algunos par

ametros

reales que afectan a los operadores, pero que resulta com-

plejo deﬁnir o controlar en las mediciones.

B. M

etodos de reconstrucci

Para la TOA existen m

ultiples m

etodos cl

asicos de re-

construcci

on, esto es, t

ecnicas con un enfoque no basado en

DL. En este trabajo, haremos uso de la t

ecnica de delay-

and-sum (DAS), uno de los algoritmos de beamforming

as utilizados en reconstrucci

on de im

agenes OA [8]. Su

simplicidad permite su utilizaci

on en aplicaciones de tiempo

real, pero generalmente se encuentran ciertas limitaciones.

La aparici

on de artefactos intensos o de grandes l

obulos

laterales suele ser com

un en las im

agenes reconstruidas. En

nuestro caso esto no es un problema, ya que este m

etodo es

simplemente usado pasar del dominio de datos de medici

(sinograma) al dominio imagen.

El algoritmo busca reconstruir una imagen a trav

es de

presiones ac

usticas capturadas por distintos arreglos de

sensores. Para el caso en que la regi

on imagen se encuentre

contenida en el plano xy, y se use un arreglo de N

detectores distribuidos alrededor de la muestra, se tiene la

siguiente expresi

on [8]:

DAS

(x, y) =

i=1

S(i, t(x, y, i)) (2)

donde S

DAS

(x, y) es la se

nal reconstruida en la posici

(x, y) y S(i, t) es la se

nal recibida en el sensor i en el

tiempo t. La funci

on t(x, y, i) representa el retraso temporal

debido a la propagaci

on de la se

nal OA generada en (x, y)

hasta el sensor i:

t(x, y, i) =

d(x, y, i)

(3)

donde v

es la velocidad del sonido y d(x, y, i) es la

distancia entre el punto medido en la regi

on imagen y el

sensor i. Dividiendo la regi

on imagen en p

ıxeles se puede

obtener la imagen reconstruida a trav

es de (2).

III. REDES NEURONALES DE CONFRONTACI

A. Teor

ıa general

Las redes neuronales de tipo GAN nos permiten generar

o sintetizar im

agenes a partir de cierta familia de datos.

Est

an compuestas de dos redes que compiten entre s

ı, el

generador y el discriminador. La primera se encarga de

generar im

agenes, que luego son usadas como entrada de la

segunda red.

Esta debe detectar si provienen del generador o

no, es decir, distinguir entre muestras sint

eticas o reales. La

evaluaci

on del discriminador es luego utilizada para mejorar

la calidad del generador, dando lugar a esta competencia

entre ambas redes. Este tipo de red tiene un gran potencial

y rango de aplicaciones, desde procesamiento de im

agenes

en la forma de clasiﬁcadores o reconstructores, as

ı como

tambi

en en su habilidad de expandir conjuntos de datos exis-

tentes. Su contraparte m

as com

un es el costo computacional

que requieren y la cantidad de datos necesarios para obtener

resultados aceptables. Esto muchas veces termina limitando

su aplicaci

on en problemas reales, donde la informaci

on o

los recursos no abundan.

B. FastGAN

Como se mencion

o previamente, la TOA es una t

ecnica

donde la disponibilidad de conjuntos de datos de gran

tama

no es escasa. La metodolog

ıa llamada transfer-learning

[9] con modelos pre-entrenados presenta una posible so-

luci

on a este problema, pero no siempre se cuenta con la

garant

ıa de poder encontrar un conjunto de datos compatible

con nuestro modelo. En algunos casos, el ajuste ﬁno de este

tipo de redes puede incluso decantar en un peor rendimiento.

La red GAN presentada en este trabajo, de aqu

ı en adelan-

te denominada FastGAN [10], busca resolver o minimizar el

problema de escasez de datos para TOA u otras disciplinas

similares. La idea es presentar un proceso de generaci

on de

agenes de alta resoluci

on a partir de conjuntos de datos

acotados, que adem

as requiera poco poder computacional.

Estas condiciones de entrenamiento hacen que el modelo

sea vulnerable al sobreajuste y errores por el modo colapso

[11] [12]. Para evitar estos comportamientos es necesario un

generador G que pueda aprender r

apidamente y un discrimi-

nador D que pueda proveer informaci

util continuamente.

Para enfrentar estos desaf

ıos se propone:

Un m

odulo de excitaci

on por canales con skip-layers

(SLE), que aprovecha las activaciones en mapas de baja

resoluci

on para luego reutilizarlas en las respuestas de

los canales en los mapas de alta resoluci

on [10]. SLE

permite que el ﬂujo del gradiente a trav

es de los pesos

de cada capa del modelo sea m

as robusto, permitiendo

un entrenamiento m

as r

apido.

Un discriminador D auto-supervisado que es entrenado

como codiﬁcador de caracter

ısticas con un decodi-

ﬁcador extra. Este es forzado a aprender un mapa

de caracter

ısticas m

as descriptivo, cubriendo as

ı m

regiones de una imagen de entrada. De esta manera

podemos brindar se

nales m

as comprehensivas a G para

su entrenamiento.

El dise

no de la red resulta minimalista. Para cada resolu-

on de G se utiliza una

unica capa de convoluci

on. En las

altas resoluciones (≥ 512 ×512) se utilizan tres canales de

entrada y salida para las capas convolucionales, tanto en G

como D. En la Fig. 1 podemos ver la estructura general del

generador.

Para la s

ıntesis de im

agenes de alta resoluci

on, resulta

inevitable la necesidad de un generador G profundo, con

muchas capas de convoluci

on. Esto lleva a un tiempo de

entrenamiento m

as largo que modelos m

as superﬁciales,

dado la cantidad de par

ametros y el efecto de ﬂujo de

gradiente d

ebil [13]. La estructura residual ResBlock [14]

surge como propuesta a esta problem

atica de entrenamiento

en redes profundas. Se plantea la incorporaci

on de capas de

conexi

on o skip-layers, para mejorar el ﬂujo de gradiente

entre capas. Si bien el uso de esta estructura es abundante,

conlleva un aumento en el costo computacional.

El m

odulo SLE reformula la incorporaci

on de skip-layers

de dos maneras. En primer lugar, ResBlock implementa

estas conexiones como adiciones t

ermino a t

ermino entre

las distintas funciones de activaci

on de cada capa. Esto

requiere que las dimensiones espaciales de cada funci

Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)

ISSN 2525-0159

http://elektron.fi.uba.ar

Figura 1: Estructura del generador. Los recuadros naranjas representan mapas de caracter

ısticas, con su dimensi

on espacial

(se omiten los canales). Los recuadros y ﬂechas azules representan la misma estructura de sobremuestreo, los recuadros

rojos representan los m

odulos skip-layer excitation.

de activaci

on sean iguales. En cambio, con SLE se pro-

pone aplicar multiplicaciones de canal a canal entre las

activaciones, eliminando as

ı el alto costo computacional que

conllevan las convoluciones (una de las activaciones tiene

una dimensi

on espacial de 1

). Por otro lado, en general,

las skip-layers solo se utilizan entre capas de una misma

resoluci

on. En SLE las conexiones se realizan entre rangos

mucho m

as amplios, por ejemplo, entre 8

y 128

o 16

y 256

. Estas dos consideraciones conservan la mejora en

el ﬂujo de gradiente, minimizando el costo computacional.

Formalmente, deﬁnimos al m

odulo SLE como:

y = F (x

low

, {W

}) · x

hig h

(4)

donde x e y representan las entradas y salidas de los

mapas de caracter

ısticas del m

odulo SLE, respectivamente.

La funci

on F representa las operaciones aplicadas en x

low

(la entrada de baja resoluci

on) y W

los pesos a aprender.

En la Fig. 2 podemos ver en ejemplo entre dos entradas

de dimensi

on 8

y 128

. Primero, una capa de reducci

on o

average-pooling realiza un submuestreo de x

low

, reduciendo

la dimensi

on de salida a 4

. Este proceso se repite a trav

de una capa de convoluci

on, obteniendo una salida de 1

Luego pasamos por una capa LeakyReLU para modelar las

propiedades no lineales y utilizamos otra capa de convolu-

on para que la cantidad de canales coincida con x

hig h

Por

ultimo se aplica una funci

on Sigmoid y su resultado

se multiplica t

ermino a t

ermino a lo largo de cada canal

con x

hig h

. De esta manera, la dimensi

on de y y de x

hig h

coinciden.

La estructura del discriminador D puede verse en la Fig. 3,

donde la estrategia buscada es la siguiente: pensamos a la red

como un codiﬁcador, que a su vez es entrenada con peque

nos

decodiﬁcadores. Este estilo de entrenamiento es denominado

auto-encoding (AE) y obliga a D a extraer caracter

ısticas de

las im

agenes que luego cada decodiﬁcador aprovecha para

generar una buena reconstrucci

on. Estos decodiﬁcadores son

optimizados junto con D a trav

es de una funci

on de p

erdida

simple, que solo se entrena con muestras reales:

= E

f∼D

encode

(x),x∼I

real

[||D(f, d) −T (x)||] (5)

Figura 2: Estructura del m

odulo SLE.

La funci

on D representa la transformaci

on de los datos de

entrada a trav

es de los mapas de caracter

ısticas intermedios

del discriminador D (f ) y tambi

en de los bloques de

decodiﬁcaci

on (d). Por otro lado, la funci

on T representa

las transformaciones aplicadas a las im

agenes reales, en

este caso, el submuestreo y recorte. El sub

ındice r hace

referencia al proceso de reconstrucci

on llevado a cabo por

los decodiﬁcadores.

En nuestro caso se emplean dos decodiﬁcadores a la salida

de distintos mapas de caracter

ısticas, de resoluci

on 16

)

y 8

). Cada decodiﬁcador est

a compuesto por cuatro

capas de convoluci

on, que permiten obtener una resoluci

ﬁnal de 128

. En cada ciclo de entrenamiento se toma un

cuadrante aleatorio del mapa de caracter

ısticas entrante a

. La entrada de f

es el

ultimo mapa de caracter

ısticas

de la red. De esta manera obtenemos I

′

part

e I

′

de f

y f

mientras que a trav

es de un recorte y un submuestreo se

obtienen I

part

e I. Finalmente, D y los decodiﬁcadores son

Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)

ISSN 2525-0159

http://elektron.fi.uba.ar

Figura 3: Estructura del discriminador. Los recuadros y ﬂechas azules representan la misma estructura de submuestreo,

los recuadros verdes el mismo decodiﬁcador.

entrenados en conjunto, buscando minimizar (5) mediante

la comparaci

on entre estos conjuntos im

agenes.

Este tipo de aprendizaje se asegura de que D extraiga una

representaci

on m

as comprensiva de cada entrada, teniendo

en cuenta la composici

on general a trav

es de f

y detalles

particulares a trav

es de f

. De esta manera, nuestro discri-

minador combina el an

alisis de una imagen completa por

un lado y por otro el an

alisis de diferentes regiones, similar

a la metodolog

ıa utilizada en una red PatchGAN [15].

El m

etodo de AE es utilizado t

ıpicamente en aprendizaje

auto-supervisado y es reconocido por mejorar la robustez

de los modelos y la habilidad de generalizaci

on [16]. En

el contexto de redes GAN, el hecho de contar con un

discriminador D regularizado a trav

es de estrategias de en-

trenamiento auto-supervisado incrementa signiﬁcativamente

la calidad de s

ıntesis de G. Particularmente, AE resulta la

estrategia que genera mejores resultados.

Si bien la estrategia de un entrenamiento auto-supervisado

para D se lleva a cabo a trav

es de AE, la soluci

on propuesta

es distinta a la t

ıpica combinaci

on de GAN y esta metodo-

log

ıa. Generalmente, G se entrena como un decodiﬁcador

sobre un espacio latente de D. En este caso, el modelo pro-

puesto es una GAN pura con un esquema de entrenamiento

mucho m

as simple. El entrenamiento mediante AE es solo

utilizado para regularizar D, donde G no est

a involucrado.

Como funci

on de p

erdida se utiliz

o una versi

on de la

hinge loss adaptada para GANs para entrenar D y G de

forma iterativa [17]:

= − E

x∼I

real

[min(0, −1 + D(x))]

− E

ˆx∼G(z)

[min(0, −1 − D(ˆx))] (6)

+ L

= − E

z∼N

[D(G(z))] (7)

De acuerdo a lo mencionado en [10], la misma permite

realizar el computo de p

erdida de manera m

as r

apida.

IV. M

ETODOS

A. Generaci

on de datos

La TOA se utiliza para obtener im

agenes de alta resolu-

on de tejido biol

ogico. En muchos casos, los resultados

obtenidos suelen mostrar estructuras con gran predominan-

cia de vasos sangu

ıneos. Teniendo en cuenta esto y la

ﬁnalidad de nuestra red, que es aumentar bases de datos

para TOA, se buscaron bancos de datos con este tipo de

caracter

ısticas. Dicho esto, se recopil

o informaci

on de

ındole

edica, particularmente de vasos sangu

ıneos (BV, por sus

siglas en ingl

es), compuesta por las bases de datos DRIVE

[18], STARE [19], RITE [20], ARIA [21] y RAVIR [22].

En la Fig. 4 se pueden visualizar muestras para cada caso.

(a) DRIVE - RITE (b) ARIA

Figura 4: Ejemplos de im

agenes disponibles en las bases de

datos utlizadas en este trabajo.

Las bases de datos mencionadas ya cuentan con una

segmentaci

on de las im

agenes para hacer foco en los vasos

Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)

ISSN 2525-0159

http://elektron.fi.uba.ar

sangu

ıneos. Luego, se aplica una aumentaci

on sencilla,

compuesta de rotaciones verticales y horizontales. De esta

manera, el conjunto resultante cuenta con 6252 im

agenes

disponibles para entrenar, con una resoluci

on de 256 ×256

ıxeles. Finalmente, se convierte la imagen a escala de

grises, para asemejar a muestras de im

agenes OA. La base

de datos resultante, denominada de ac

a en m

as BV, se

separa en conjuntos de entrenamiento e inferencia, con una

relaci

on 90 % −10 % obteniendo 5626 y 626 im

agenes para

cada conjunto respectivamente. La Fig. 5 muestra algunos

ejemplos utilizados para el entrenamiento.

Figura 5: Ejemplo de las im

agenes usadas para el entrena-

miento de las redes neuronales.

B. Entrenamiento de red FastGAN

Como se mencion

o previamente, los datos utilizados para

el entrenamiento de nuestra red tienen una resoluci

on de

256

. Para ambas redes G y D se utiliza el optimizador

de Adam, parametrizado de la siguiente manera: lr (tasa

de aprendizaje) = 10

−4

, β

= 0,5 y β

= 0,99. Otro

atributo importante resulta el tama

no del ruido, en nuestro

caso un vector aleatorio de [0, 1] y dimensi

on 400x1. Para

ambas redes se deﬁne un par

ametro semilla que gobierna la

relaci

on y cantidad de ﬁltros de cada capa convolucional. De

esta manera se puede adaptar simplemente la arquitectura

a necesidad. Los valores elegidos resultan ndf = 64 y

ngf = 64 para D y G respectivamente. Por

ultimo, se

entrena en mini-lotes de una imagen, durante 100,000 itera-

ciones. Cada 10,000 iteraciones se guardan los diccionarios

que contienen los par

ametros de cada red, tambi

en se

calculan las m

etricas de rendimiento. De esta manera, solo

se conservan dos modelos para ambas redes: el actual y

el mejor hist

orico. Los valores seleccionados provienen de

[10], a excepci

on del lr, el cu

al fue ajustado emp

ıricamente

seg

un los resultados obtenidos en distintos entrenamientos.

En cada iteraci

on se actualizan los pesos de G y D una

vez. Para el caso de D, su funci

on de p

erdida conlleva un

ermino calculado con im

agenes reales y otro con im

agenes

sint

eticas, provenientes de G. Para las reales se utiliza el

proceso de AE mencionado previamente, que procesa y

segmenta las mismas de distintas maneras. Estos resultados

son luego utilizados para calcular los diferentes t

erminos de

la funci

on de p

erdida correspondiente a im

agenes reales.

C. Estrategia de inferencia

La medici

on de rendimiento en generaci

on de im

agenes

sint

eticas con redes GAN resulta complejo [23]. En la

actualidad no existe un consenso general de cu

al o cu

ales

ﬁguras de m

erito capturan de mejor manera las fortalezas y

limitaciones de distintos modelos. En muchos casos resulta

com

un un an

alisis visual de las muestras generadas por

estas redes, por lo menos en los entrenamientos iniciales.

En nuestro caso, y de acuerdo a lo mencionado en [10],

la ﬁgura elegida es la Fr

etchet Inception Distance (FID).

Esta mide el realismo sem

antico promedio de im

agenes

sint

eticas, realizando comparaciones contra un conjunto de

datos real [24]. En primer lugar se utiliza una red Inception

[25] pre-entrenada para extraer distintas caracter

ısticas de

las im

agenes. En nuestro caso, la implementaci

on utilizada

es la que provee Pytorch [26], que utiliza Inception V3. Los

vectores de caracter

ısticas resultantes poseen una distribu-

on normal multivariada. Dicho esto, se calcula la distancia

de Fr

echet entre ambos vectores gaussianos, de la siguiente

manera:

d = ||µ

− µ

+ T



cov

+ cov

+ 2

√

cov

· cov



(8)

donde µ

representa los valores medio de cada distribuci

on,

cov

la matriz de covarianza y T

la traza de la matriz

resultante. Los sub

ındices r y f hacen referencia a muestras

reales y ﬁcticias. La distancia entre ambas medias es la

distancia Eucl

ıdea.

Para el entrenamiento de nuestra red GAN se calcul

o el

valor de FID cada 1,000 iteraciones. Cada vez se realiza el

siguiente proceso:

Se generan 1000 im

agenes con el generador G.

Se toman 5,626 im

agenes del conjunto de entrenamien-

to.

Se calcula la FID entre ambos conjuntos.

La certeza de FID es directamente proporcional a la

cantidad de muestras utilizadas para su c

alculo. Por esta

raz

on utilizamos el conjunto de entrenamiento completo. Las

1,000 im

agenes generadas por G resultan un compromiso

entre velocidad y calidad.

D. Reconstrucci

on de im

agenes TOA usando DL

Si bien se utiliz

o FID para corroborar la calidad de

las im

agenes sint

eticas generadas, esto no necesariamente

implica una correlaci

on real para mejoras de desempe

en aplicaciones de TOA. En este sentido, se entren

o una

red neuronal con y sin los datos aumentados por nuestra

GAN. Se eligi

o el esquema de reconstrucci

on descripto en

[27] compuesto por un enfoque cl

asico y una red neuronal

encargada del post-procesamiento de las im

agenes OA. En

nuestro caso se opt

o por el m

etodo de reconstrucci

on DAS

y un modelo U-Net. El primero es el encargado de pasar del

dominio de datos medidos (se

nales OA) al dominio imagen.

Mientras que el segundo es entrenado para reducir o eliminar

los artefactos u otros defectos introducidos por DAS. En la

Fig. 6 se muestran los pasos seguidos para entrenar la red

U-Net.

Para la simulaci

on de obtenci

on de sinogramas se utiliz

el esquema descripto en [28] y que se muestra en la Fig.

Este consiste en un sistema para TOA 2-D implementado

con un sensor que rota alrededor de la regi

on imagen, lugar

donde est

a colocada una muestra uniformemente iluminada.

Este tipo de sistemas basados en un solo detector resultan

muy

utiles para estudios de prueba de concepto debido

Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)

ISSN 2525-0159

http://elektron.fi.uba.ar

Figura 6: Esquema utilizado en este trabajo para el entrena-

miento de la red neuronal U-Net.

a su simplicidad, bajo costo y efectividad [29]. En este

trabajo se tom

o una regi

on imagen cuadrada con un tama

de 12,8 mm × 12,8 mm y una resoluci

on de 128 × 128

ıxeles. El sensor, supuesto puntual, se coloc

o sobre una

circunferencia de R

= 22,5 mm de radio y las se

nales OA

se detectaron en N

= 32

angulos. La elecci

on de priorizar

un valor peque

no de N

y N

se hizo en funci

on de reducir

la complejidad y el costo del sistema de detecci

on [30]. Para

la recopilaci

on de datos, el intervalo de tiempo ∆t fue de

49 ns con N

= 512 muestras. La velocidad del sonido se

ﬁj

o en v

= 1500 m/s y el medio se supuso homog

eneo

y sin absorci

on o dispersi

on del sonido. La respuesta en

frecuencia del transductor se model

o utilizando un ﬁltro

pasabanda con frecuencias de corte superior e inferior de

0,1 MHz y 20 MHz, respectivamente.

Una vez deﬁnidos los par

ametros del sistema TOA, se

cre

o la matriz del operador directo A siguiendo los pasos

detallados en [28]. Luego, usando las im

agenes del conjunto

BV, se obtuvieron los sinogramas (ver Fig. 6). Por

ultimo,

se agrega un ruido blanco de manera que la relaci

on se

nal

a ruido (SNR) resultante se encuentre en el rango entre

30 dB y 50 dB. Todas las simulaciones se llevaron a cabo

en Python.

Figura 7: Esquema del sistema TOA usado en las simula-

ciones. [28].

Como se mencion

o previamente, se utiliz

o una red U-Net

para la etapa de post-procesamiento. Estas redes reciben su

nombre por la forma de su estructura, donde poseen un ca-

mino descendiente, uno ascendiente y uno de conexi

on entre

ambos. El primero se denomina ruta de contracci

on y est

compuesto por distintas capas de convoluci

on que buscan

reducir la resoluci

on de la entrada pero aumentar la cantidad

de canales. De esta manera se capturan las caracter

ısticas

relevantes para cada resoluci

on, as

ı codiﬁcando los datos.

El otro se denomina ruta de extensi

on y est

a compuesto

por capas de convoluci

on transpuesta, las necesarias para

decodiﬁcar los datos hasta su resoluci

on original. El camino

que une a estos se denomina cuello de botella y es la capa

que representa el mayor punto de abstracci

on, respecto a

la entrada original. Por

ultimo, existen las skip-connections,

conexiones entre las distintas rutas que buscan acelerar el

entrenamiento y alivianar el problema del gradiente des-

vanecente. Existen muchos esquemas distintos de U-Net.

En este trabajo fue utilizada la Fully-Dense U-Net (FD-

UNet) [31]. Su particularidad es el uso de bloques densos

convolucionales. La entrada de cada uno de estos bloques

est

a compuesta de todas las salidas de capas anteriores

concatenadas. De esta manera, cada capa aprende mapas

de caracter

ısticas adicionales basados en el “conocimiento

colectivo” generado por las capas previas. Esta estrategia

incrementa la capacidad de representaci

on a trav

es del reuso

de caracter

ısticas.

Los hiperpar

ametros seleccionados fueron los siguientes:

lr = 5 · 10

−4

y lotes de 15 muestras. La red se entren

por 50 ciclos. El conjunto de datos utilizado se separa en

entrenamiento (64 %), validaci

on (16 %) y prueba (20 %). El

segundo conjunto se utiliza para medir el desempe

no de la

red durante el ciclo de entrenamiento y aplicar la t

ecnica de

detenci

on anticipada [32]. La red se entrena con la funci

de p

erdida de error cuadr

atico medio (MSE). Se entrenaron

dos FD-Unet id

enticas con conjuntos de datos distintos: (i)

usando solo las im

agenes de la base de datos BV y (ii)

agregando tambi

en los datos sint

eticos generados por nuestra

GAN. Debido a las restricciones en poder computacional y

espacio, solo se generaron 5,626 im

agenes sint

eticas. De

esta manera se obtuvo un conjunto de entrenamiento con el

doble de im

agenes totales, al que denominamos BV’.

Finalizado los entrenamientos de ambas redes, se calculan

cuatro ﬁguras de m

erito para comparar su desempe

no de

forma cuantitativa: la correlaci

on de Pearson (PC), la ra

ız

del error cuadr

atico medio (RMSE), la relaci

on ruido y se

nal

pico (PSNR) y la similitud estructural (SSIM). Las mismas

son utilizadas ampliamente en el

ambito de cuantiﬁcaci

de im

agenes y se complementan entre ellas [28] [33]. Para

ello se utiliza el conjunto de prueba, que contiene aquellos

datos que nunca fueron utilizados durante el entrenamiento.

V. RESULTADOS

Como mencionamos previamente, la ﬁgura de m

erito

elegida para medir el desempe

no de nuestra red GAN fue

la distancia FID. En la Fig. 8 podemos ver los resultados

obtenidos para el entrenamiento realizado.

En primer lugar podemos destacar la tendencia decre-

ciente de los valores obtenidos. Esto indica claramente la

mejora en las im

agenes generadas por la red, minimizando

las diferencias entre datos sint

eticos y reales en cada ciclo.

Los valores absolutos obtenidos no brindan una informaci

relevante, dado que estos var

ıan ampliamente seg

un el domi-

nio de los conjuntos de datos utilizados. No se encontraron

trabajos o referencias donde se utilice FID como m

etrica de

Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)

ISSN 2525-0159

http://elektron.fi.uba.ar

TABLA I: Figuras de m

erito para cada metodolog

ıa.

SSIM PC RMSE PSNR

DAS 0,145 ± 0,035 0,478 ± 0,027 0,415 ± 0,033 7,670 ± 0,751

FD-UNet 0,801 ± 0,089 0,910 ± 0,041 0,098 ± 0,034 20,711 ± 3,197

FD-UNet(Aug) 0,841 ± 0,076 0,933 ± 0,034 0,085 ± 0,030 22,040 ± 3,288

Figura 8: Valores de FID obtenidos para entrenamiento de

red GAN con la base de datos BV.

ıntesis para im

agenes de dominio m

edico. Por otro lado,

tambi

en podemos ver la saturaci

on de la red llegando a

los 100,000 ciclos de entrenamiento. Un mayor tiempo o

cantidad de iteraciones no conllevan a mejor calidad de

las im

agenes generadas, demarcando as

ı el l

ımite emp

ırico

de esta conﬁguraci

on. Un barrido de los hiperpar

ametros

de la red podr

ıa generar mejores resultados, pero esto

no se llev

o a cabo debido a las limitaciones de recursos

computacionales. De todas maneras cabe destacar que un

aumento en la cantidad de iteraciones no gener

o un modo

colapso, demostrando la estabilidad de la red. Es posible

que la red haya extra

ıdo la completitud o mayor

ıa de la

informaci

on disponible en la base de datos proporcionada,

explicando as

ı la disminuci

on y eventual cese de mejoras en

su rendimiento. Una vez entrenada la red GAN se procedi

a aumentar el conjunto BV, generando BV’.

En la Fig. 9 se puede apreciar la evoluci

on de las

agenes al pasar por las distintas etapas detalladas en la

Fig. 6, para el caso donde se utiliz

o la base de datos BV’.

Comenzamos con un dato sint

etico proveniente de la red

GAN, con el que construimos un sinograma utilizando la

matriz A. Luego del agregado de ruido, se reconstruye la

imagen usando el m

etodo DAS (pasaje del dominio de datos

al dominio imagen). C

omo se observa en la imagen central

de la Fig. 9, la reconstrucci

on obtenida posee artefactos y

otros defectos mencionados previamente, que son esencial-

mente causados por el bajo muestreo espacial [27]. Este tipo

agenes son las entradas de la red FD-UNet. Luego de 50

iteraciones se obtiene la imagen post-procesada que presenta

una notable mejora respecto a la imagen devuelta por DAS.

Esto indica que la red U-Net realiza un trabajo eﬁciente en

la eliminaci

on de desperfectos.

De esta manera, se realizaron dos entrenamientos, uno con

la base de datos BV y otro con la base de datos aumentado

Imagen sint

etica

DAS FD-UNet

Figura 9: Imagen sint

etica perteneciente a la base de datos

BV’ (izq.), reconstrucci

on DAS (med.) e imagen post-

procesada con FD-UNet (der.).

BV’. Finalizados ambos, se procedi

o a analizar la calidad del

post-procesamiento de ambas redes utilizando el conjunto

de datos de inferencia apartado inicialmente, compuesto por

626 im

agenes no utilizadas hasta este momento. En la Fig.

10 podemos ver distintos casos de los resultados en ambas

redes al utilizar el mismo.

Imagen verdadera FD-UNet FD-UNet(Aug)

Figura 10: Im

agenes verdaderas (izq.), im

agenes procesadas

con FD-UNet entrenada con BV (med.) e im

agenes proce-

sadas con FD-UNet entrenada con BV’ (der.).

Como se puede apreciar a simple vista, los resultados

obtenidos para cada iteraci

on de la red FD-UNet resultan

similares. Esto se condice con los valores obtenidos para

cada ﬁgura de m

erito, presentados en la Tabla I. Si bien

hay una gran diferencia entre los resultados obtenidos para

reconstrucci

on con solo DAS, las diferencias entre cada

Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)

ISSN 2525-0159

http://elektron.fi.uba.ar

red de post-procesamiento son peque

nas. Esto conﬁrma dos

hip

otesis:

Hay una clara mejora en el proceso de reconstrucci

gracias a la etapa de post-procesamiento.

Hay una mejora tangible en el rendimiento de la etapa

de post-procesamiento debido a la aumentaci

on de

datos.

Si bien los valores obtenidos gracias al entrenamiento con

BV’ quedan dentro del rango de varianza de aquellos

obtenidos con el entrenamiento de BV, los valores medios

mejoran para todas las ﬁguras de m

erito. Es importante

destacar que no se alcanz

o el l

ımite emp

ırico de cantidad de

agenes sint

eticas generadas. Se opt

o por generar la misma

cantidad de datos que los originales debido a limitaciones

de espacio de computo, pero la tendencia de las ﬁguras de

erito fue creciente en pruebas con menos datos. De esta

manera queda entonces la posibilidad en futuros trabajos de

encontrar el l

ımite de nuestra red GAN. Lo que si podemos

aﬁrmar es que las muestras generadas por nuestra red GAN

tienen un impacto real en aplicaciones de TOA. Si las

muestras sint

eticas hubiesen sido una aumentaci

on simple

de las originales, o la red hubiera aprendido a replicar la

base de datos BV, la diferencia entre entrenar a la red FD-

UNet con un conjunto o el otro ser

ıa despereciable o nula.

Dado que la red GAN genera nueva informaci

on a partir

de un ruido gaussiano, esto permite generar datos sint

eticos

que ayuden a mejorar el entrenamiento de nuestra red de

post-procesamiento.

VI. CONCLUSIONES

Este trabajo demuestra la factibilidad de utilizar redes

GAN para la generaci

on de muestras sint

eticas de TOA,

que luego pueden ser utilizadas para aumentar conjuntos

preexistentes y as

ı mejorar el rendimiento de redes neuro-

nales que se entrenen con los mismos. Tambi

en podemos

concluir que la FID es una m

etrica acertada para medir el

comportamiento de una red GAN al momento de generar

agenes a partir de ruido, donde no se cuenta con im

agenes

de entrada en la red a modo de referencia para comparar.

A continuaci

on se mencionan ciertas limitaciones que

podr

ıan ser solventadas en futuros trabajos, en b

usqueda

de mejores resultados. En primer lugar, el poder y espacio

de computo reducido impact

o en la generaci

on de datos

sint

eticos. Ser

ıa deseable seguir iterando sobre la cantidad

de muestras sint

eticas en el conjunto BV’, para encontrar el

ımite pr

actico de nuestra red GAN, aquel donde empiece

a generalizar y las im

agenes generadas dejen de aportar

informaci

util en el entrenamiento de la red U-Net. Por

otro lado, herramientas como barrido de par

ametros para

ambas redes tampoco fueron utilizadas. Por

ultimo, otro

tipo de caso que podr

ıa resultar de inter

es es la utilizaci

de un conjunto de datos BV’ que contenga menor cantidad

de datos reales que BV. Por ejemplo, se podr

ıa igualar la

cantidad de im

agenes en ambos conjuntos pero reducir la

cantidad total de muestras reales en el conjunto aumentado.

De esta manera la conﬁanza en la calidad de las muestras

generadas ser

ıa todav

ıa mayor.

AGRADECIMIENTOS

Este trabajo fue ﬁnanciado por la Universidad de Bue-

nos Aires (UBACYT 20020190100032BA), CONICET (PIP

11220200101826CO) y la Agencia I+D+i (PICT 2018-

04589, PICT 2020-01336).

REFERENCIAS

[1] C. Huang, K. Wang, L. Nie, and et al., “Full-wave iterative image

reconstruction in photoacoustic tomography with acoustically inho-

mogeneous media,” IEEE Transactions on Medical Imaging, vol. 32,

pp. 1097–1110, 2013.

[2] S. Arridge, P. Beard, M. Betcke, and et al., “Accelerated high-

resolution photoacoustic tomography via compressed sensing,” Phy-

sics in medicine and biology, vol. 61, pp. 8908–8940, 2016.

[3] Y. E. Boink, M. J. Lagerwerf, W. Steenbergen, and et al., “A frame-

work for directional and higher-order reconstruction in photoacoustic

tomography,” Physics in Medicine & Biology, vol. 63, 2018.

[4] I. Goodfellow, Y. Bengio, and A. Courville, Deep Learning. The

MIT Press, 2016.

[5] A. Hauptmann and B. Cox, “Deep learning in photoacoustic to-

mography: Current approaches and future directions,” Journal of

Biomedical Optics, vol. 25, 09 2020.

[6] O. Ronneberger, P. Fischer, and T. Brox, “U-Net: Convolutional

Networks for Biomedical Image Segmentation,” arXiv preprint ar-

Xiv:1505.04597, 2015.

[7] S. Guan, A. A. Khan, S. Sikdar, and P. V. Chitnis, “Fully Dense UNet

for 2-D Sparse Photoacoustic Tomography Artifact Removal,” IEEE

Journal of Biomedical and Health Informatics, vol. 24, no. 2, pp.

568–576, 2020.

[8] X. Ma, C. Peng, J. Yuan, Q. Cheng, G. Xu, X. Wang, and P. L. Carson,

“Multiple delay and sum with enveloping beamforming algorithm for

photoacoustic imaging,” IEEE Trans. on Medical Imaging, vol. 39,

pp. 1812–1821, 2019.

[9] L. Torrey and J. Shavlik, “Transfer learning,” Handbook of Research

on Machine Learning Applications, 01 2009.

[10] B. Liu, Y. Zhu, K. Song, and A. Elgammal, “Towards faster and

stabilized GAN training for high-ﬁdelity few-shot image synthesis,”

arXiv preprint arXiv:2101.04775, 2021.

[11] M. Arjovsky and L. Bottou, “Towards principled methods for training

generative adversarial networks,” stat, vol. 1050, 01 2017.

[12] D. Zhang and A. Khoreva, “PA-GAN: Improving gan training by pro-

gressive augmentation,” arXiv preprint arXiv:1901.10422, 01 2019.

[13] H. Zhang, T. Xu, H. Li, S. Zhang, X. Wang, X. Huang, and D. N.

Metaxas, “Stackgan: Text to photo-realistic image synthesis with

stacked generative adversarial networks,” Proceedings of the IEEE

international conference on computer vision, pp. 5907–5915, 2017.

[14] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for

image recognition,” Proceedings of the IEEE conference on computer

vision and pattern recognition, pp. 770–778, 2016.

[15] P. Isola, J.-Y. Zhu, T. Zhou, and A. Efros, “Image-to-image translation

with conditional adversarial networks,” 07 2017, pp. 5967–5976.

[16] D. Hendrycks, M. Mazeika, S. Kadavath, and D. Song, “Using self-

supervised learning can improve model robustness and uncertainty,”

Advances in Neural Information Processing Systems, pp. 15 663–

–15 674, 2019.

[17] J. Lim and J. C. Ye, “Geometric GAN,” arXiv preprint ar-

Xiv:1705.02894, 05 2017.

[18] “DRIVE: Digital retinal images for vessel extraction,” 2020. [Online].

Available: https://drive.grand-challenge.org/

[19] “STARE: Structured analysis of the retina,” 2000. [Online]. Available:

https://cecas.clemson.edu/

∼

ahoover/stare/

[20] “RITE: Retinal images vessel tree extraction,” 2013. [Online].

Available: https://medicine.uiowa.edu/eye/rite-dataset

[21] “ARIA: Automated retinal image analysis,” 2006. [Online]. Available:

http://www.damianjjfarnell.com/

[22] A. Hatamizadeh, H. Hosseini, N. Patel, J. Choi, C. Pole, C. Hoeferlin,

S. Schwartz, and D. Terzopoulos, “RAVIR: A dataset and methodo-

logy for the semantic segmentation and quantitative analysis of retinal

arteries and veins in infrared reﬂectance imaging,” IEEE Journal of

Biomedical and Health Informatics, 2022.

[23] A. Borji, “Pros and cons of gan evaluation measures,” Computer

Vision and Image Understanding, vol. 1793, pp. 41–65, 2019.

[24] M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, and S. Hochreiter,

“Gans trained by a two time-scale update rule converge to a local nash

equilibrium,” Advances in neural information processing systems, pp.

6626–6637, 2017.

[25] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna, “Rethin-

king the inception architecture for computer vision,” IEEE Conference

on Computer Vision and Pattern Recognition (CVPR), pp. 2818–2826,

2016.

Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)

ISSN 2525-0159

http://elektron.fi.uba.ar

[26] A. Paszke, S. Gross, F. Massa, A. Lerer, J. Bradbury, G. Chanan,

T. Killeen, Z. Lin, N. Gimelshein, L. Antiga et al., “Pytorch: An

imperative style, high-performance deep learning library,” Advances

in neural information processing systems, vol. 32, 2019.

[27] M. G. Gonzalez, M. Vera, and L. R. Vega, “Combining band-

frequency separation and deep neural networks for optoacoustic

imaging,” Optics and Lasers in Engineering, vol. 163, p. 107471,

2023.

[28] L. Hirsch, M. G. Gonzalez, and L. R. Vega, “A comparative study

of time domain compressed sensing techniques for optoacoustic

imaging,” IEEE Latin America Transactions, vol. 20, pp. 1018–1024,

2022.

[29] C. Tian, M. Pei, K. Shen, S. Liu, Z. Hu, and T. Feng, “Impact

of system factors on the performance of photoacoustic tomography

scanners,” Phys. Rev. Applied, vol. 13, p. 014001, 2020.

[30] M. Haltmeier, M. Sandbichler, T. Berer, J. Bauer-Marschallinger,

P. Burgholzer, and L. Nguyen, “A sparsiﬁcation and reconstruction

strategy for compressed sensing photoacoustic tomography,” Acoust.

Soc. Am., vol. 143, no. 6, p. 3838–3848, 2018.

[31] S. Guan, A. Khan, S. Sikdar, and P. Chitnis, “Fully dense unet for

2D sparse photoacoustic tomography artifact removal,” IEEE Journal

of Biomedical and Health Informatics, vol. 24, pp. 568–576, 2020.

[32] W. Xing-xing and L. Jin-guo, “A new early stopping algorithm for im-

proving neural network generalization,” in 2009 Second International

Conference on Intelligent Computation Technology and Automation,

vol. 1, 2009, pp. 15–18.

[33] N. Awasthi, G. Jain, S. K. Kalva, M. Pramanik, and P. Yalavarthy,

“Deep neural network-based sinogram super-resolution and band-

width enhancement for limited-data photoacoustic tomography,” IEEE

Transactions on Ultrasonics Ferroelectrics and Frequency Control,

vol. PP, 02 2020.

Revista elektron, Vol. 7, No. 2, pp. 61-70 (2023)

ISSN 2525-0159

http://elektron.fi.uba.ar

Enlaces de Referencia

Por el momento, no existen enlaces de referencia

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

Revista elektron, ISSN-L 2525-0159
Facultad de Ingeniería. Universidad de Buenos Aires
Paseo Colón 850, 3er piso
C1063ACV - Buenos Aires - Argentina
revista.elektron@fi.uba.ar
+54 (11) 528-50889

Nombre de usuario
Clave
Recordar mis datos