Вы находитесь на странице: 1из 13

Herramientas para genética y genómica: perfiles

INTRODUCCIÓN La base genética de la enfermedad está determinada por

la herencia de genes que contienen secuencias específicas de ADN. La expresión


fenotípica de estos genes, a través de la síntesis de proteínas específicas, implica
la interacción con señales ambientales que desencadenan la activación de genes
particulares.

Según el dogma central de la biología, el ácido ribonucleico (ARN) se transcribe a


partir de una plantilla de ADN; El ARN mensajero (ARNm) se traduce luego en
proteína ( figura 1 ). La transcripción y traducción subyacen a la expresión génica.

Aproximadamente del 3 al 5 por ciento de los genes están activos en una célula en
particular, a pesar de que todas las células tienen la misma información contenida
en su ADN. La mayor parte del genoma se reprime selectivamente, una propiedad
que se rige por la regulación de la expresión génica, principalmente a nivel de
transcripción (es decir, la producción de ARN mensajero a partir del ADN). En
respuesta a una perturbación celular, se producen cambios en la expresión génica
que dan como resultado la expresión de cientos de productos génicos y la
supresión de otros. Esta heterogeneidad molecular puede afectar cuándo y cómo
se presenta clínicamente una enfermedad en un individuo con predisposición
genética a una afección y cómo los individuos con una enfermedad determinada
responderán a tratamientos específicos.

Los análisis de la expresión génica pueden ser clínicamente útiles para clasificar,
diagnosticar, pronosticar y adaptar el tratamiento a los determinantes genéticos
subyacentes de la respuesta farmacológica.

Este tema se centrará en el papel del ARNm en la célula, las plataformas para
perfilar la expresión de ARNm, los desafíos en la interpretación de los datos de
estos análisis y las aplicaciones clínicas emergentes de las mediciones de
expresión génica. Una visión general de la genética molecular en oncología clínica
se presenta por separado. (Ver "Principios de genética molecular" .)

ARN EN FUNCIÓN CELULAR Existen varias clases de ácido ribonucleico

(ARN). El ARN mensajero (ARNm) es el ARN que se traduce en proteína. Los


ARN no codificantes no se traducen en proteínas y cumplen otras funciones en la
célula. Las clases de ARN no codificantes incluyen las siguientes [ 1-6 ]:
●Transferir ARN (ARNt)
●ARN ribosomales (ARNr)
●Pequeños ARN nucleares (snRNA)
●ARN nucleolar pequeños (snoRNA)
●MicroRNAs
●ARN de interacción con Piwi (piRNA)
●ARN no codificantes largos (lncRNA), que incluyen la subclase de ARN no
codificantes intergénicos grandes (lincRNA)

El ARNm representa aproximadamente el 1 por ciento del ARN total en una célula
[ 7 ] y se transcribe de aproximadamente 20,000 a 25,000 genes que codifican
proteínas en el genoma humano [ 8 ]. Después de que el ARNm se transcribe
desde el ADN, generalmente sufre modificaciones adicionales, incluida la adición
de una tapa de metil-guanosina (tapa 5 '), la adición de una serie de adeninas al
extremo 3' del ARN (cola poli-A) y el empalme de intrones ( figura 2 ) [ 1 ]. El
ARNm se transporta desde el núcleo al citoplasma, donde se traduce en
proteína. El ARNm sirve como un intermediario transitorio entre el ADN y la
proteína y se degrada en minutos a horas [ 1 ].

Los microARN (miARN) son ARN pequeños, endógenos, no codificantes (longitud


18 a 24 nucleótidos) que regulan la expresión génica uniéndose a las regiones no
traducidas de ARNm e induciendo la degradación de ARNm o inhibiendo la
traducción de proteínas, reduciendo a su vez la expresión génica. La elaboración
de perfiles de miRNA se puede hacer utilizando métodos similares a los utilizados
para los mRNA. Se encuentra disponible una base de datos de búsqueda de
miRNAs caracterizados ( www.mirbase.org/ ).

Los lncRNA son ARN no codificantes con diversas funciones definidas por su
longitud de> 200 nucleótidos. Los lincRNA son un subconjunto de los lncRNA
definidos por la falta de superposición con los genes que codifican las proteínas
[ 5 ]. Sin embargo, los genes que codifican proteínas también pueden producir
variantes de transcripción no codificantes, aumentando aún más la diversidad de
lncRNA. Se desconoce la relevancia funcional de la gran mayoría de los> 19,000
lncRNAs, pero la capacidad de diferentes lncRNAs para ajustarse a diversas
estructuras o interacciones parece influir en muchos procesos celulares [ 6,9 ]. Al
igual que con los miRNA, los lncRNA pueden perfilarse utilizando técnicas
similares a las utilizadas para los mRNA.

MEDICIÓN DE LA EXPRESIÓN DE GENES Dado que el ARNm representa

el puente funcional entre el ADN y la proteína, las alteraciones en el ARNm


pueden servir como marcadores para la activación o inhibición de un gen
particular.

El desafío en la medición de ARN se relaciona con la susceptibilidad de los ARN a


la degradación por ribonucleasas (RNasas). Los métodos de detección de ARN
aprovechan la estructura monocatenaria del ARN y su complementariedad con el
ADN del que se transcribió.

Perfiles de expresión de genes individuales o paneles de genes


pequeños : antes del desarrollo de la tecnología de secuenciación de
microarrays y genomas completos, los métodos disponibles para medir la
expresión de genes incluían:
●Northern blot (ver 'Northern blot' a continuación)
●Ensayo de protección de ribonucleasa (ver 'Ensayo de protección de
ribonucleasa' a continuación)
●Hibridación in situ (ver 'Hibridación in situ' a continuación)
●Reacción en cadena de la polimerasa cuantitativa de transcripción inversa
(RT-PCR) (ver 'Reacción en cadena de la polimerasa de transcripción inversa
en tiempo real' a continuación)
●Conjuntos de ADNc manchados (consulte 'Conjuntos de ADNc manchados'
a continuación)

Una comparación de estos métodos se resume en una tabla ( tabla 1 ).

Northern blot : las transferencias Northern permiten determinar tanto la


presencia de una molécula de ARN como su tamaño [ 10 ]. Las moléculas de ARN
de una muestra de paciente se separan primero en función del tamaño utilizando
electroforesis en gel. Las moléculas de ARN separadas por tamaño se transfieren
y se reticulan a una membrana de nylon. El ARN de interés se detecta incubando
la membrana con una sonda de ADN monocatenaria marcada que es
complementaria a este ARN. Las sondas unidas al ARN de interés se pueden
detectar utilizando quimioluminiscencia o autorradiografía.

Ensayo de protección de ribonucleasa : mientras que la transferencia Northern


utiliza sondas de ADN complementarias, el ensayo de protección de ribonucleasa
(RPA) utiliza sondas de ARN antisentido, denominadas riboprobes [ 7 ]. Estas
sondas son moléculas de ARN radiomarcadas monocatenarias complementarias
al ARN de interés. La ribosonda se incuba con el ARN de la muestra y se une al
ARN complementario para formar complejos de ARN bicatenarios. La incubación
de la mezcla con ribonucleasas degrada el ARN monocatenario no unido tanto de
la muestra como del exceso de sonda. Los complejos de ARN bicatenarios
restantes se separan por tamaño mediante electroforesis y se detectan mediante
autorradiografía.

Hibridación in situ : la hibridación in situ (ISH) utiliza una sonda de ácido


nucleico para detectar cualquier otro ácido nucleico en una sección de tejido. ISH
puede localizar el ARN de interés a nivel anatómico o celular. La sección del tejido
se fija para preservar la morfología del tejido y la integridad del ácido nucleico
[ 11,12 ]. La muestra se trata con proteasas para eliminar las proteínas unidas al
ARN de interés [ 11,12 ]. Una sonda marcada se hibrida con la muestra y se
detecta mediante autorradiografía o quimioluminiscencia [ 12 ]. La hibridación in
situ utilizando una sonda marcada con fluorescencia también se denomina
hibridación fluorescente in situ (FISH). El uso de FISH para detectar mutaciones
genéticas se discute por separado. (Ver"Herramientas para la genética y la
genómica: citogenética y genética molecular", sección sobre 'Hibridación
fluorescente in situ' .)
Reacción en cadena de transcripción inversa de la polimerasa en tiempo
real - reacción en cadena de transcripción inversa de la polimerasa en tiempo
real (RT-PCR) es un enfoque relativamente simple que se puede utilizar para
someter a ensayo los números de pequeños o grandes de genes de una sola
muestra [ 13 ]. Después de aislar el ARN de una muestra, los ADN
complementarios (ADNc) se sintetizan por transcripción inversa con una ADN
polimerasa dependiente de ARN. Esta mezcla de ADNc se combina luego con una
ADN polimerasa dependiente de ADN y cebadores oligonucleotídicos marcados
con fluorescencia [ 14] Estos cebadores son secuencias cortas de nucleótidos
complementarios a una porción del ADNc y permiten la amplificación. La
fluorescencia aumenta a medida que el ADNc de interés se amplifica con PCR. La
intensidad de fluorescencia se controla y se cuenta el número total de ciclos de
PCR [ 7 ].

El punto en el que el ciclador de PCR puede distinguir la fluorescencia relacionada


con la amplificación génica del fondo es el umbral del ciclo, y este número puede
usarse para estimar la cantidad de inicio relativa del ARN de interés [ 13 ]. Se
requiere una cuidadosa selección de cebadores para evitar la amplificación de
genes relacionados [ 7 ]. (Consulte "Herramientas para la genética y la genómica:
reacción en cadena de la polimerasa" ).

Matrices de ADNc manchado : a diferencia de la transferencia Northern, RPA o


ISH, las matrices de ADNc manchado son capaces de probar los niveles de
expresión relativos, entre dos condiciones, de varios cientos de genes. Con un
mayor conocimiento de qué secuencias se expresan del genoma, se hizo posible
crear sondas de ADNc dirigidas a las secuencias de ADN expresadas a partir de
las cuales se transcribe el ARN.

Las sondas de ADNc se amplifican mediante PCR y se colocan sobre un


portaobjetos de vidrio [ 15 ]. Luego se aísla el ARN de dos muestras que
representan diferentes condiciones. El ARNm de cada muestra se aísla y se marca
con uno de los dos tintes fluorescentes (verde o rojo) [ 16 ]. Las muestras se
mezclan y se hibridan conjuntamente con las sondas de ADNc en el portaobjetos
de vidrio [ 15 ]. Este enfoque compara directamente la expresión génica en la
primera condición con la segunda condición y permite la detección de tantos
genes como sondas en la matriz. Sin embargo, la reproducibilidad es limitada en
todos los arreglos debido a la necesidad de detectar manualmente las sondas en
las diapositivas.

Perfiles de expresión génica en todo el genoma : las plataformas para perfilar


la expresión génica aprovechan el mayor conocimiento de la secuencia del
genoma humano y requieren cantidades más pequeñas de ARN de partida. Las
plataformas actuales para perfilar la expresión génica incluyen:
●Conjuntos de oligonucleótidos (microarrays)
●Secuencia de transcriptoma

Una comparación de estos métodos se resume en una tabla ( tabla 1 ).


Si bien estas tecnologías se desarrollaron originalmente utilizando muestras
preparadas a partir de tejidos "a granel", o se aisló ARN de muestras compuestas
de múltiples tipos de células, también está disponible el perfil de expresión a nivel
de células individuales. Este enfoque para la creación de perfiles de expresión
proporciona información única sobre cómo las células individuales y los tipos de
células contribuyen a la salud y la enfermedad humana más allá de lo que es
posible con la secuenciación masiva. Por ejemplo, la secuenciación de muestras
clínicas con una mezcla de tipos de células no podrá determinar si las diferencias
de expresión génica entre el tejido sano y el tejido enfermo se deben a cambios en
la abundancia de tipos celulares o a cambios en los niveles de expresión génica
en tipo de célula. La técnica de perfil más común para células individuales, la
secuenciación de ARN de células individuales (scRNA-seq), se describe a
continuación. (Ver'Secuenciación de células individuales' a continuación.)

Conjuntos de oligonucleótidos (microarrays) : los conjuntos de


oligonucleótidos funcionan según un principio similar a los conjuntos de ADNc
manchado, pero difieren en cómo se producen. En lugar de detectar sondas en un
portaobjetos de vidrio, las sondas cortas se sintetizan directamente en el
portaobjetos [ 17,18 ]. Dependiendo del fabricante comercial, las sondas varían de
aproximadamente 20 a 60 pares de bases de longitud. Varios tipos de matrices
están disponibles comercialmente.

La preparación de la muestra comienza con el aislamiento del ARN del tejido de


interés, lo que resulta en una extracción que contiene todos los genes transcritos
en el tejido en el momento en que se aísla el ARN. El ARN se transcribe
inversamente en ADNc y se amplifica utilizando la técnica de reacción en cadena
de la polimerasa (PCR). Finalmente, se incorpora un marcador de biotina a través
de un proceso de transcripción in vitro, que convierte el ADNc en ADNc marcado.

Se aplica una sola muestra del cRNA marcado a cada matriz. La hibridación se
produce entre el cRNA marcado de la muestra y las sondas complementarias en la
matriz. Esto es seguido por la unión a un fluoróforo conjugado con avidina y una
etapa de lavado que elimina cualquier material no unido. El fluoróforo es excitado
por un escáner láser acoplado a una computadora que captura los fluoróforos de
la imagen vinculados a las moléculas objetivo hibridadas en la matriz, permitiendo
así la detección de la expresión de miles de genes simultáneamente.

En general, cuanto mayor sea la cantidad de ARNm de un gen particular (es decir,
mayor es la expresión de ese gen), más material marcado con fluorescencia
correspondiente a ese gen se unirá a sondas complementarias en la matriz. La
fluorescencia de fondo o la unión inespecífica pueden limitar la detección de
transcripciones poco expresadas. La detección basada en sondas para la
expresión génica limita el análisis a los genes que se conocen.

Secuencia de transcriptoma : una alternativa para medir la expresión génica es


la secuenciación directa y la cuantificación de las moléculas de ARN. Este método
para medir la expresión génica también se ha denominado "RNA-seq",
"secuenciación paralela masiva", "secuenciación de próxima generación (NGS)" o
"secuenciación profunda", y hay varias plataformas comerciales disponibles. Los
detalles de cada sistema varían. En general, la muestra se prepara para que
muchas reacciones de secuenciación ocurran simultáneamente y produzca
millones de lecturas de secuencia de ARN obtenidas por escaneo láser [ 19 ]. NGS
se discute con más detalle por separado. (Ver "Secuenciación de ADN de próxima
generación (NGS): Principios y aplicaciones clínicas" .)

La secuencia del transcriptoma permite una mejor detección de las transcripciones


de baja abundancia, así como la detección de nuevas transcripciones y
polimorfismos dentro de la secuencia de una transcripción. Los avances en las
técnicas de procesamiento de muestras también permiten la preservación de la
identidad de las hebras sentido y antisentido [ 20 ].

Secuenciación de células individuales : existen múltiples protocolos


disponibles para la secuenciación de células individuales. En general, estos
sistemas comienzan con el aislamiento de células individuales separadas
manualmente (por ejemplo, por dilución en serie o en micropocillos), por
clasificación celular activada por fluorescencia (FACS) o por tecnologías
automatizadas basadas en microfluídica [ 21-23 ]. A menudo, esto es seguido por
un procedimiento de confirmación, como la microscopía, para garantizar que las
células individuales estén realmente aisladas. Esto ayuda a evitar conclusiones
espurias basadas en la evaluación de cámaras que están vacías o contienen
múltiples celdas. Después de la separación, las células se lisan, la fracción de
ARN se convierte en ADNc por transcripción inversa, y el ADNc se amplifica y
secuencia [ 21,23] La microfluídica y otras tecnologías basadas en placas de
micropocillos, junto con el código de barras de la transcripción, que etiqueta la
célula de origen, permiten la secuenciación paralela de grandes cantidades de
células individuales [ 24-26 ].

Análisis e interpretación de la expresión génica en todo el genoma en el


tejido a granel : la secuenciación del transcriptoma ha comenzado a superar los
microarrays como la plataforma más utilizada para el perfil de expresión génica de
muestras clínicas. A medida que disminuye el costo de la secuencia, se espera
que aumente el uso de esta plataforma. Tanto la secuenciación como los
microarrays pueden analizar grandes cantidades de genes con un rendimiento
relativamente alto. Por lo general, los investigadores que participan en los
experimentos de transcriptome perfiles están interesados en comparar la
expresión génica en diferentes condiciones [ 27 ]. Si bien existen muchos
enfoques para el análisis de datos con el fin de lograr este objetivo, generalmente
hay varios pasos analíticos que primero se deben tomar ( figura 3 ).

Hay cuatro consideraciones generales al abordar el análisis e interpretación de


datos de perfiles de transcriptoma:

●Preprocesamiento de datos sin procesar (consulte 'Preprocesamiento de


datos sin procesar' a continuación)
●Almacenamiento y análisis de datos (consulte 'Almacenamiento y análisis de
datos' a continuación)
●Problema de comparación múltiple (consulte 'El problema de comparación
múltiple' a continuación)
●Interpretación biológica (ver 'Interpretación biológica' a continuación)

Preprocesamiento de datos sin procesar : el preprocesamiento prepara los


datos sin procesar para el análisis estadístico. Los pasos de preprocesamiento
incluyen la cuantificación de los niveles de expresión y la evaluación de la calidad
de los datos sin procesar. Los niveles de expresión de los genes se cuantifican de
manera diferente para microarrays y secuenciación de transcriptomas. Para
microarrays, un proceso llamado normalización ajusta las intensidades de
fluorescencia medidas para que sean comparables en diferentes experimentos. La
evaluación de la calidad elimina microarrays de baja calidad, lecturas de
secuencia mal alineadas o mediciones atípicas. El preprocesamiento prepara los
datos para el análisis estadístico.

Cuantificación de la expresión : para el análisis de datos de microarrays, cada


microarray puede considerarse un experimento separado que contiene cantidades
ligeramente diferentes de ARN inicial y diferentes eficiencias de etiquetado
[ 27 ]. La normalización de los datos ajusta las intensidades de fluorescencia que
representan la cantidad de ARN unido a cada sonda para que estas intensidades
sean comparables en diferentes matrices. Existen varios métodos para normalizar
datos de microarrays, que incluyen:

●Escala: ajusta las intensidades por un factor constante para que el nivel de
expresión promedio en las microarrays sea similar.
●Normalización cuantil: ajusta la distribución de intensidades a través de
microarrays. Esto se logra clasificando las intensidades de la sonda de mayor
a menor para cada matriz. Se asigna un valor numérico para representar esta
intensidad en una matriz individual en función del comportamiento en todas
las matrices y el rango de esa sonda en la matriz individual.
●Suavizado de diagrama de dispersión ponderado localmente (BAJO): ajusta
el brillo o la oscuridad de diferentes etiquetas fluorescentes para
experimentos de matriz de dos colores.

Para la secuenciación del transcriptoma, cada muestra genera millones de


lecturas de secuenciación, que se utilizan para estimar los niveles de expresión de
cada gen o isoforma. Primero, las lecturas de secuenciación de alta calidad se
alinean con el genoma de referencia utilizando uno de los muchos alineadores de
secuencia disponibles [ 28 ]. A continuación, se calculan los niveles de expresión
de cada gen o isoforma, generalmente contando las lecturas alineadas con un gen
o isoforma particular. Para la secuenciación masiva, hay varios métodos
disponibles para la normalización, que incluyen:

●Normalización de la longitud del gen / transcripción : para el más común


de esta familia de métodos, las lecturas en una muestra se normalizan
primero para la profundidad de secuenciación. Las lecturas normalizadas en
profundidad se dividen por la longitud del gen correspondiente o isoforma en
kilobases. Esto produce lecturas por kilobase por millón de lecturas (RPKM)
[ 28 ]. Este método ha caído en gran medida en desgracia para los análisis de
secuenciación masiva debido a los sesgos que genera en los análisis de
expresión diferencial entre muestras [ 29 ].
●Media recortada de valores M (TMM) : este método utiliza el promedio
ponderado de las relaciones de expresión logarítmica para cada gen
calculado para todas las muestras contra una muestra de referencia (valores
M). Se desechan los genes con valores atípicos, y se establece un promedio
ponderado para todos los valores M para cada muestra [ 29,30 ].
●DESeq : un factor de escala por muestra se calcula como la mediana de las
proporciones del recuento de lectura de cada gen sobre su media geométrica
en todas las muestras [ 31 ].
●Modelado de varianza a nivel de observación (voom) : en el método
voom, los recuentos de registros se normalizan primero para la profundidad
de secuenciación [ 32 ]. Luego, se genera un peso de precisión que incorpora
la tendencia de la varianza media para cada observación normalizada, y tanto
los recuentos normalizados como los pesos de precisión se ingresan en la
tubería de análisis. Este método es particularmente útil para tamaños de
muestra pequeños o conjuntos de datos donde la profundidad de secuencia
entre muestras es muy variable.

La secuenciación de una sola célula utiliza procesos similares para la


cuantificación de la expresión como la secuenciación masiva, con la advertencia
de que el procedimiento de normalización debe tener en cuenta la alta proporción
de recuentos de lectura cero. Esta llamada "inflación cero" es el resultado de dos
factores:

●No todas las células expresan los mismos genes.


●Las transcripciones de abundancia relativamente baja con frecuencia no se
capturan / secuencian en ninguna celda.

Si bien muchos métodos de normalización de scRNA-seq utilizan factores de


escala como se describe para la secuenciación masiva y los microarrays, se han
desarrollado métodos adicionales para gestionar la inflación cero y otros sesgos
inherentes a los datos de secuenciación de células individuales [ 33 ]. Esta es un
área activa de desarrollo y estudio de métodos. (Ver 'Secuenciación de células
individuales' más arriba).

Evaluación de la calidad - evaluación de la calidad se produce tanto antes


como después de la normalización de datos.

●La evaluación de calidad previa a la normalización evalúa la calidad de los


datos sin procesar antes del preprocesamiento. Para microarrays, se
inspecciona la matriz en sí para asegurarse de que no haya burbujas,
rasguños u otros artefactos en la matriz. Algunos arreglos comerciales
también contienen controles insertados durante el procesamiento de la
muestra (controles de "inserción") para garantizar que todos los pasos que
condujeron a la hibridación fueron exitosos. Para la secuencia del
transcriptoma, cada llamada de par de bases y lectura de secuencia individual
se considera un experimento separado que debe ser controlado por la calidad
[ 28 ]. Esto se realiza con herramientas como FastQC o NGSQC. Las lecturas
de secuencia se pueden "recortar"28,34 ].
●La evaluación de calidad posterior a la normalización evalúa los datos
procesados de una muestra de secuencia de microarrays o transcriptomas en
relación con otros en el experimento. Esto ayuda a identificar muestras
atípicas o diferencias en lotes de microarrays o secuenciación. Las muestras
identificadas como significativamente diferentes de otras pueden ajustarse
estadísticamente o excluirse del análisis.

Transformación de datos : muchos procedimientos estadísticos comunes


suponen una distribución normal y continua de datos. Los niveles de expresión
génica de microarrays o secuenciación de transcriptomas pueden transformarse
matemáticamente, a menudo utilizando una escala logarítmica, de modo que se
distribuyan normalmente. Los datos de secuencia del transcriptoma, que se
compone de recuentos de lectura en lugar de valores numéricos continuos, se
pueden filtrar para incluir solo recuentos de lectura más altos que pueden
aproximarse a datos continuos. Alternativamente, los datos de secuenciación
pueden modelarse utilizando una distribución más adecuada para los datos de
conteo, como la distribución binomial negativa. El preprocesamiento también
puede incluir el filtrado de conjuntos de sondas de baja calidad o genes con baja
variabilidad en todas las muestras en el experimento.

Almacenamiento y análisis de datos - Microarray y los experimentos de


secuenciación del transcriptoma requieren herramientas computacionales para
almacenar datos sin procesar, analizar la expresión génica, y asegurar la
uniformidad a través de diferentes laboratorios.

Almacenamiento de datos : las intensidades de fluorescencia generadas


escaneando una matriz de oligonucleótidos o secuenciando una celda de flujo con
un escáner láser dan como resultado un archivo de imagen. La mayoría de las
revistas científicas especifican que los datos sin procesar se pongan a disposición
del público como requisito para su publicación [ 35 ]. Un archivo de datos sin
procesar de microarrays típico, llamado archivo CEL, es de 0.1 a 1 gigabytes (GB)
por arreglo [ 19] Un archivo de datos sin procesar basado en mensajes de texto
típico de secuenciación, llamado archivo FASTQ, es de aproximadamente 1 a 5
GB por muestra. Por lo tanto, estos experimentos generan una gran cantidad de
datos que deben almacenarse. Más allá del almacenamiento de datos sin
procesar, los archivos de datos también incluyen las variables clínicas asociadas
con cada muestra y los niveles de expresión preprocesados evaluados de calidad
normalizados para cada matriz. Esto a menudo se logra con el uso de una base de
datos capaz de almacenar e integrar tanto datos de expresión génica como
variables clínicas.

Análisis de datos : existen varios niveles posibles de análisis de datos, que van
desde simples pruebas estadísticas que se pueden realizar con paquetes de
software comerciales, hasta análisis avanzados y el desarrollo de nuevos
algoritmos. Se implementan análisis avanzados y algoritmos novedosos con una
variedad de lenguajes de programación, como Perl y Python, y software
computacional, como R [ 36 ] y Matlab [ 37 ]. La flexibilidad para escribir, modificar
y compartir algoritmos utilizando estas herramientas los hace particularmente
adecuados para el análisis de datos de expresión génica.

●Expresión diferencial : uno de los análisis más comunes realizados en los


datos de expresión génica es determinar qué genes están alterados en una
condición en comparación con otra. Esto se puede lograr realizando una
prueba t, ANOVA o modelo lineal para datos continuos, o modelos binomiales
para datos de conteo.
●Predicción de clase : en este tipo de análisis, las muestras de dos
condiciones se dividen en un conjunto de entrenamiento y un conjunto de
prueba. Una lista de genes que distingue las dos condiciones se deriva del
conjunto de muestras de entrenamiento, y la precisión de esta firma de
expresión génica se evalúa en el conjunto de muestras de prueba.
●Descubrimiento de clase : los datos de expresión génica de todo el
genoma se pueden usar para explorar nuevos fenotipos moleculares. Al
evaluar los genes en todas las muestras, independientemente de su fenotipo
clínico, se puede determinar qué muestras están más estrechamente
relacionadas entre sí en función de la expresión génica sola. Las muestras
que comparten patrones similares de expresión génica pueden representar
subtipos de la enfermedad no reconocidos previamente.
●Análisis de red : la cantidad de genes analizados por microarrays y
secuenciación de transcriptomas permite aprovechar todo el conjunto de
datos para hacer nuevas predicciones sobre cómo podrían interactuar los
genes. Estos enfoques a menudo operan bajo la premisa de que genes
altamente correlacionados en una red de interacciones gen-gen están
involucrados en las mismas vías biológicas o superpuestas. Un enfoque, el
Análisis de red de coexpresión de genes ponderados (WGCNA), funciona
agrupando genes altamente correlacionados, definidos como "módulos",
dentro de una red de genes [ 38 ]. Los datos de expresión génica de todo el
genoma también pueden integrarse con otros tipos de datos, como la
metilación del ADN, la proteómica y la metabolómica [ 34 ].

Además de estos tipos generales de análisis de datos de expresión génica, la


secuenciación del transcriptoma también permite análisis más avanzados, como el
descubrimiento de nuevas transcripciones o isoformas, la detección de empalmes
alternativos y la reconstrucción de novo del transcriptoma [ 34 ].

Análisis de células individuales - RNAseq de células individuales (scRNAseq)


permite la identificación de células específicas o tipos de células y sus funciones
interrogando firmas moleculares específicos de la célula [ 21 ]. La identificación del
tipo de célula a menudo se realiza mediante métodos de agrupación que explotan
el modelado de clase latente para identificar células con patrones de expresión
génica similares. Las versiones modificadas de las herramientas para la
secuenciación masiva permiten la expresión diferencial y los análisis de red para
caracterizar las diferencias específicas de las células en la expresión y función de
genes. Los métodos para el análisis scRNAseq todavía están en su infancia y son
un campo de estudio activo (ver 'Secuenciación de células individuales'
más arriba).

El problema de la comparación múltiple : los análisis estadísticos de varios


miles de genes plantean problemas únicos en la interpretación de los resultados
estadísticos debido a la gran cantidad de pruebas realizadas. Esto se debe a que
cada prueba estadística tiene una pequeña posibilidad de llegar a la conclusión de
que una asociación está presente cuando no existe tal asociación, y cuando miles
de genes se prueban con un microarray, se puede producir un número
inaceptablemente alto de asociaciones falsas positivas. . Una visión general de los
principios estadísticos relevantes para el problema de comparación múltiple se
presenta por separado. (Ver "Prueba, valores p y prueba de hipótesis" .)

Interpretación biológica : el paso final en el análisis de datos de expresión


génica es interpretar los resultados en un contexto biológicamente
significativo. Darle sentido biológico a toda una lista de genes derivados de perfiles
de transcriptoma es uno de los aspectos más desafiantes del análisis. Si bien
existen muchas estrategias para lograr este objetivo, a continuación se analizan
dos enfoques generales. A menudo se requieren estudios adicionales para validar
las predicciones biológicas que se realizan a partir de la micromatriz o los datos de
secuenciación.

Comparación con otros de expresión de genes en todo el genoma conjuntos


de datos - Existen varias herramientas para la comparación de la expresión
génica de conjuntos de datos, incluyendo grandes bases de datos que contienen
datos de expresión génica para buscar una expresión genética compartida
[ 39,40 ], sondas de genes alternativos [ 41 ], y las herramientas analíticas que
incorporan asociaciones fenotípicas [ 42-44 ].

Enriquecimiento clasificación - análisis conjunto de genes de enriquecimiento


(GSEA) es un método por el cual los datos de la expresión génica está clasificado
por la asociación con fenotipos, y se utiliza como un medio para identificar las vías
biológicamente relevantes [ 42,43 ]. Otras técnicas proporcionan otros
mecanismos para enriquecer rutas o categorías funcionales [ 45 ] o para visualizar
interacciones publicadas previamente entre genes de interés [ 46] La visualización
de datos utilizando mapas de calor, que organizan muestras por columnas y genes
por filas de acuerdo con la similitud en la expresión génica, también son útiles para
determinar qué grupos de genes o muestras comparten patrones de expresión
similares. El análisis de variación del conjunto de genes (GSVA) utiliza un enfoque
similar para identificar el enriquecimiento de la ruta en un conjunto de datos de
expresión génica [ 47 ].
DESCRIPCIÓN GENERAL DE LAS APLICACIONES CLÍNICAS El perfil de

expresión génica en muestras clínicas tiene el potencial de ser utilizado para el


cribado, diagnóstico, pronóstico y optimización de regímenes de tratamiento. A
medida que las plataformas para medir la expresión génica continúan
evolucionando, los enfoques personalizados para el diagnóstico y el tratamiento
de enfermedades humanas complejas encontrarán cada vez más su lugar en la
práctica clínica habitual.

La promesa de utilizar el perfil de expresión génica para identificar a las personas


en riesgo de enfermedad aún no se ha alcanzado por completo. Sin embargo, en
ciertas circunstancias, esta herramienta se ha incorporado en la evaluación clínica
o el pronóstico de rutina.

Diagnóstico : los ejemplos del uso de perfiles de expresión génica para dirigirse
a pacientes seleccionados para un monitoreo más conservador y pruebas de
diagnóstico menos invasivas incluyen los siguientes:
●El ensayo Oncotype Dx se utiliza para guiar la evaluación y el manejo de
subconjuntos de pacientes con cáncer de seno
●La vigilancia de biopsia endomiocárdica de rutina se usa para pacientes con
trasplante cardíaco para detectar la presencia de rechazo celular agudo. Un
estudio del perfil de expresión génica del ácido ribonucleico (ARN) de células
mononucleares de sangre periférica en receptores de trasplante de corazón
reveló que un perfil de expresión génica de 11 podría predecir la presencia de
rechazo [ 48 ]. El uso de este perfil de expresión génica tiene el potencial de
disminuir el número de pacientes trasplantados que necesitarían someterse a
una biopsia miocárdica invasiva para confirmar el diagnóstico de rechazo.
● Losfumadores sospechosos de tener cáncer de pulmón debido a una
tomografía computarizada (TC) de tórax anormal a menudo necesitan
someterse a procedimientos de diagnóstico invasivos, más allá de la
broncoscopia, para lograr un diagnóstico final. Una firma de expresión génica
resultante del perfil de expresión génica del epitelio de la vía aérea
histológicamente normal obtenida durante la broncoscopia fue capaz de
distinguir entre fumadores con y sin cáncer de pulmón [ 49 ]. La combinación
de los resultados de este biomarcador de expresión génica con variables
clínicas, en un modelo clínico-genómico integrado, mejoró el potencial
discriminatorio para predecir el cáncer de pulmón [ 50] El refinamiento de esta
firma utilizando un conjunto de datos independiente y la aplicación en un
ensayo prospectivo de validación multicéntrico dio como resultado un
biomarcador de diagnóstico con un valor predictivo negativo del 91 por ciento
en pacientes con una probabilidad de prueba pulmonar intermedia previa
[ 51,52 ]. El perfil de expresión génica puede ayudar a estratificar a los
pacientes con una tomografía computarizada de tórax anormal que deben
someterse a pruebas de diagnóstico invasivas para un posible cáncer de
pulmón y aquellos para quienes la vigilancia por imágenes sería
adecuada. (Consulte "Detección de cáncer de pulmón" ).
●Los nódulos tiroideos se evalúan con frecuencia mediante biopsias por
aspiración con aguja fina, pero este enfoque a veces produce resultados
indeterminados y el requisito de cirugía de tiroides para lograr un diagnóstico
definitivo. Un biomarcador de diagnóstico resultante del perfil de expresión
génica de los aspirados de nódulos tiroideos indeterminados demostró una
sensibilidad del 92 por ciento y un alto valor predictivo negativo, lo que
sugiere que los pacientes con resultados indeterminados de un aspirado con
aguja fina de un nódulo tiroideo pueden controlarse de manera menos
invasiva, evitando potencialmente una cirugía innecesaria [ 53 ].

Pronóstico : la aplicación más avanzada del perfil de expresión génica es


predecir el resultado de la enfermedad. El riesgo de ciertas terapias podría ser
mayor que el beneficio potencial para los pacientes con alto riesgo de recaída o
con un pronóstico desfavorable, mientras que los riesgos podrían ser mayores que
los beneficios para los pacientes con un pronóstico relativamente bueno. El perfil
de expresión génica ha sido útil para dirigir la terapia apropiada para pacientes
con leucemia aguda, cáncer de próstata, cáncer de colon, cáncer de mama,
carcinoma de pulmón y linfoma.

También se ha encontrado que los miARN están desregulados en varios tumores


sólidos y neoplasias hematológicas

Una revisión sistemática de 2012 de los estudios disponibles que examinan las
asociaciones entre los perfiles de miARN y el pronóstico del cáncer encontró
asociaciones entre ciertos miARN y los malos resultados, incluida la disminución
de la supervivencia general, pero observó varias fuentes potenciales de sesgo
[ 67 ]. Se necesitará más trabajo para validar el uso de estos hallazgos en
aplicaciones clínicas.

RESUMEN

●Existen diversos métodos para medir el ácido ribonucleico (ARN) para


evaluar la expresión génica. Estos métodos difieren en sus requisitos para la
cantidad de ARN inicial, su sensibilidad para detectar el ARN de interés y los
requisitos computacionales para el análisis de datos.
●Si bien los perfiles de matriz de oligonucleótidos y la secuenciación de ARN
son plataformas de descubrimiento de biomarcadores de uso común, existen
numerosos desafíos y dificultades en el análisis e interpretación del gran
volumen de datos generados.
●El perfil de expresión génica está emergiendo como un enfoque potencial
para el diagnóstico y pronóstico de enfermedades humanas complejas. Sin
embargo, persisten varias barreras importantes, incluida la validación de estos
biomarcadores en estudios prospectivos multicéntricos para demostrar su
reproducibilidad y precisión en múltiples sitios y operadores.

Вам также может понравиться