Pipeline de Llamada de Variantes para una CRO Farma de Madrid
Visión general
De qué trata este proyecto.
Diseña el pipeline en Nextflow con DSL2: pre-procesamiento FASTQ (fastp), alineamiento a GRCh38 (bwa-mem2), marcado de duplicados (Picard MarkDuplicates), BQSR (Base Quality Score Recalibration), llamada de variantes con HaplotypeCaller en modo GVCF, joint genotyping y filtrado VQSR. Empaqueta cada paso en su contenedor (BioContainers) y produce un MultiQC report. Valida sobre 3 muestras NA12878 (Genome in a Bottle) contra el truth set conocido — sensibilidad SNV > 99% y precisión > 99%. Entrega pipeline, configuración SLURM y guía de operación.
El Briefing
Lo que harás y lo que demostrarás.
Implementar un pipeline Nextflow de llamada de variantes alineado a GATK4 best practices con sensibilidad y precisión > 99% sobre NA12878 y trazabilidad por muestra.
Earning criteria — what you'll demonstrate
- Diseñar workflows de bioinformática reproducibles con Nextflow
- Aplicar GATK4 best practices para llamada de variantes germinales
- Validar pipelines contra truth sets oficiales (NA12878 GIAB)
- Producir trazabilidad por muestra apta para auditoría externa
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero de Datos
Construir un pipeline reproducible y auditable con orquestación, contenedores y validación es exactamente el músculo de un ingeniero de datos en sectores regulados — la transición a bioinformática es directa.
Este proyecto afina
- nextflow
- workflow-orchestration
- data-validation
Ingeniero de Software
Diseñar pipelines modulares contenedorizados con validación frente a truth sets es el patrón estándar de testing de sistemas científicos — habilidad transferible a cualquier ingeniería de software con cargas computacionales.
Este proyecto afina
- bioinformatics
- containerization
- data-validation