En el instituto de medicina experimental (IMEX) se cuenta con un servicio de bioinformática que tiene como objetivo el asesoramiento a los diferentes grupos de investigación sobre métodos modernos de biología computacional que les permitan alcanzar sus metas científicas. La bioinformática tiene un papel transversal, por lo que colabora con el resto de los laboratorios aportando un alto valor agregado a las actividades de investigación y desarrollo.
Responsable: Martín Ledesma, PhD
E-mail: imex.bioinf@gmail.com
Prestaciones del Servicio de Bioinformática del IMEX
Código del STAN:
Detalle: El servicio incluye el procesamiento de datos provenientes de lecturas de Whole Genome Sequencing (WGS). Análisis de calidad, filtrado y preprocesamiento de las lecturas, alineamiento, llamado de variantes (SNVs + indels y variantes estructurales) y anotación de variantes. El resultado incluye un link con los archivos bam, vcf y Excel. Los archivos se conservan durante 3 meses.
Metodología: Se realiza un análisis de calidad de lecturas mediante FASTQC/FASTX-TOOLKIT. El alineamiento se lleva a cabo utilizando el genoma de referencia (GRCh38/hg38 o b37/hg19) utilizando el paquete BWA. El pre-procesamiento y llamado de variantes, se hacen utilizando el conjunto de herramientas de GATK en el caso de los SNVs + indels y con los programas Structural variation and indel analysis by assembly (SvABA), LUMPY y el algoritmo de GATK structural variants calling. Finalmente, la anotación de las variantes se hace con SnpEff o Variant Effect Predictor tools (VEP).
Bases de datos utilizadas: Las bases utilizadas para la anotación de variantes por defecto son: gnomAD v4.1.0, AlphaMissense, dbNSFP4.5a, CADD, DisGeNet. En caso de requerir anotaciones con base de datos en particular el tiempo de entrega puede variar.
Precio del servicio: Consultar
Detalle: El servicio incluye el procesamiento de datos provenientes de lecturas de Whole Exome Sequencing (WES), Paneles de genes clínicos a partir de ADN en formato fastq y paneles virtuales si se solicitan los genes a seleccionar. Análisis de calidad, filtrado y preprocesamiento de las lecturas, alineamiento, llamado de variantes (SNVs + indels) y anotación de variantes. El resultado incluye un link con los archivos bam, vcf y Excel en un tiempo no mayor a 48 hs. Los archivos se conservan durante 3 meses.
Metodología: Se realiza un análisis de calidad de lecturas mediante FASTQC/FASTX-TOOLKIT. El alineamiento se lleva a cabo utilizando el genoma de referencia (GRCh38/hg38 o b37/hg19) utilizando el paquete BWA. El pre-procesamiento y llamado de variantes, se hacen utilizando el conjunto de herramientas de GATK y de acuerdo con las buenas prácticas indicadas por el Broad Institute. Finalmente, la anotación de las variantes se hace con SnpEff o Variant Effect Predictor tools (VEP).
Bases de datos utilizadas: Las bases utilizadas para la anotación de variantes por defecto son: gnomAD v4.1.0, AlphaMissense, dbNSFP4.5a, CADD, DisGeNet. En caso de requerir anotaciones con base de datos en particular el tiempo de entrega puede variar.
Precio del servicio: Consultar
Código del STAN:
Detalle: El servicio incluye el procesamiento de datos provenientes de lecturas de RNAseq, incluyendo análisis de calidad, filtrado, alineamiento, conteo de reads, análisis de expresión diferencial de genes y análisis de enriquecimiento de vías. El servicio incluye un informe html con la tabla de genes diferenciales, sus medidas de resumen estadísticas, gráfico de estimación de dispersiones, histograma de p-valores ajustados, gráfico de PCA y volcano plot. Las vías enriquecidas se visualizan por medio de dotplots y gráficos de redes. Los archivos se conservan durante 3 meses.
Metodología: Se realiza el análisis de calidad de lecturas mediante FASTQC/FASTX-TOOLKIT, el filtrado de bases se hace utilizando Trimmommatic. El alineamiento con el genoma de referencia humanos (GRCh38/hg38 o b37/hg19) o murino (mm39) se lleva a cabo utilizando el programa STAR. Con el paquete GenomicAligments se obtienen los valores de cuentas de los reads y el análisis diferencial se hace con el paquete DESeq2 ambos de R. El análisis de enriquecimiento de vías se hace con el paquete clusterProfiler de R.
Bases de datos utilizadas: Las bases utilizadas para la anotación de variantes por defecto son Gene ontology (GO), Kyoto Encyclopedia of Genes and Genomes (KEGG), Reactome Pathway Database (Reactoma) y Disease Ontology (DO).
Precio del servicio: consultar
Código del STAN:
Detalle: El servicio incluye el procesamiento de datos crudos (archivos idat) provenientes de lecturas de Illumina Infinium GSA (Illumina iScan Platform) o archivos con genotipo (archivo vcf), incluyendo la anotación de las variantes detectadas, determinación de B Allele Frequency (BAF), Log R Ratio (LRR) por cromosoma y análisis de asociación de genoma completo (GWAS) basado en los SNVs detectados en grupos de casos determinados, utilizando algoritmos de machine learning y bases de datos de SNVs. Los archivos se conservan durante 3 meses.
Metodología: La genotipificación de los archivos crudos idat se realiza sobre el genoma de referencia humanos (GRCh38/hg38 o b37/hg19) dependiendo de la plataforma de microarray utilizada utilizando Illumina Microarray Analytics Array Analysis CLI v2, para los archivos vcf genotipificados con GRCh37, se realiza una conversión al GRCh38 con el algoritmo de liftover de picard (GATK). La anotación de las variantes se hace con SnpEff o Variant Effect Predictor tools (VEP), el análisis GWAS se realiza en R e incluye un análisis diferencial discriminante binario y PCA, filtrado de SNVs patogénicos en función de frecuencias observadas.
Bases de datos utilizadas: Las bases utilizadas para la anotación de variantes por defecto son: gnomAD v4.1.0, AlphaMissense, dbNSFP4.5a, CADD, DisGeNet. En caso de requerir anotaciones con base de datos en particular el tiempo de entrega puede variar.
Precio del servicio: consultar
Código del STAN:
Detalle: El servicio incluye el procesamiento de matrices de cuentas pre-procesadas disponibles en bases de datos públicas. Esto abarca el filtrado de datos basado en un umbral (cut-off) para células, reads y porcentaje de lecturas mitocondriales. Posteriormente, se realiza la normalización, integración, clustering y anotación de células. El resultado del servicio puede facilitar la búsqueda de expresión diferencial de transcritos entre células específicas de muestras provenientes de distintos contextos fisiológicos y patológicos, así como la correlación de transcritos entre diversas células.
Metodología: Todos los análisis se realizan utilizando el paquete Seurat en el software RStudio. La anotación se lleva a cabo con el paquete SingleR.
Precio del servicio: consultar
Código del STAN:
Precio del servicio: consultar
Prestaciones internas de la Unidad de Bioinformática-IMEX
Detalle: El servicio incluye el procesamiento de datos provenientes de lecturas de NGS, incluyendo análisis de calidad de lecturas, filtrado y preprocesamiento de lecturas, alineamiento con su genoma de referencia, caracterización de variantes estructurales (SV), ensamblado de novo, optimización del ensamblado, predicción y anotación de genes, búsqueda de genes codificantes o regiones genómicas de interés.
Metodología: Análisis de calidad de lecturas mediante FASTQC/FASTX-TOOLKIT, filtrado de lecturas utilizando Trimmommatic. Se utilizan distintas herramientas para realizar el ensamblado de novo (SPAdes, ABBySS, Flye, Unicycler) y también para la caracterización de las SV (Lumpy, SvABA, Manta). Para la búsqueda de regiones o genes de interés se utilizan las herramientas BLAST y HMMER utilizando bases de datos en base a cada necesidad en particular. Análisis filogenéticos basados en ANI o genes de interés.
Detalle: El servicio incluye el procesamiento de datos provenientes de lecturas de NGS, incluyendo análisis de calidad de lecturas, filtrado y pre-procesamiento de lecturas, filtrado de lecturas del hospedador, clasificación taxonómica de lecturas, ensamblado y predicción de genes.
Metodología: Análisis de calidad de lecturas mediante FASTQC/FASTX-TOOLKIT, filtrado de lecturas utilizando Trimmommatic o FASTX TOOLKIT. El perfil taxonómico se realiza con las herramientas Kaiju, Kraken o Centrifuge. El ensamblado se realiza con metaSPAdes, MEGAHIT. Realización de binning con las herramientas MetaBAT o CONCOCT.
Especificaciones técnicas
Computadoras de alta performance para el análisis de datos masivos: 1 Motherboard Asus Z370-P Prime 1151, 1 Disco SSD Sata 120gb Kingston A400, 1 Disco Rigido de 6T Seagate Ironwolf 7200 256MB NAS RAID, 1 placa de video GF Gigabyte GTX 1060 mini lTX OC 3GB DDDR5, 1 Fuente de 700W Gigabyte 8700h 80 plus bronce, 1 Micro Intel Core I7 8700k 4.70ghz Cofee Lake 1151, 3 memoria DDR4 16GB 2400 Mushkin Blackline.