JP
Jacob Pfeil
Author with expertise in Genomic Landscape of Cancer and Mutational Signatures
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
6
(33% Open Access)
Cited by:
25
h-index:
11
/
i10-index:
11
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
29

A Community Challenge to Predict Clinical Outcomes After Immune Checkpoint Blockade in Non-Small Cell Lung Cancer

M. Mason et al.Dec 8, 2022
Abstract Purpose Predictive biomarkers of immune checkpoint inhibitors (ICIs) efficacy are currently lacking for non-small cell lung cancer (NSCLC). Here, we describe the results from the Anti–PD-1 Response Prediction DREAM Challenge, a crowdsourced initiative that enabled the assessment of predictive models by using data from two randomized controlled clinical trials (RCTs) of ICIs in first-line metastatic NSCLC. Methods Participants developed and trained models using public resources. These were evaluated with data from the CheckMate 026 trial ( NCT02041533 ), according to the model-to-data paradigm to maintain patient confidentiality. The generalizability of the models with the best predictive performance was assessed using data from the CheckMate 227 trial ( NCT02477826 ). Both trials were phase III RCTs with a chemotherapy control arm, which supported the differentiation between predictive and prognostic models. Isolated model containers were evaluated using a bespoke strategy that considered the challenges of handling transcriptome data from clinical trials. Results A total of 59 teams participated, with 417 models submitted. Multiple predictive models, as opposed to a prognostic model, were generated for predicting overall survival, progression-free survival, and progressive disease status with ICIs. Variables within the models submitted by participants included tumor mutational burden (TMB), programmed death ligand 1 (PD-L1) expression, and gene-expression–based signatures. The bestperforming models showed improved predictive power over reference variables, including TMB or PD-L1. Conclusion This DREAM Challenge is the first successful attempt to use protected phase III clinical data for a crowdsourced effort towards generating predictive models for ICIs clinical outcomes and could serve as a blueprint for similar efforts in other tumor types and disease states, setting a benchmark for future studies aiming to identify biomarkers predictive of ICIs efficacy. Context summary Key objective Not all patients with non-small cell lung cancer (NSCLC) eligible for immune checkpoint inhibitor (ICIs) respond to treatment, but accurate predictive biomarkers of ICIs clinical outcomes are currently lacking. This crowdsourced initiative enabled the robust assessment of predictive models using data from two randomized clinical trials of first-line ICI in metastatic NSCLC. Knowledge generated Models submitted indicate that a combination of programmed death ligand 1 (PD-L1), tumor mutational burden (TMB), and immune gene signatures might be able to identify patients more likely to respond to ICIs. TMB and PD-L1 seemed important to predict progression-free survival and overall survival. Mechanisms including apoptosis, T-cell crosstalk, and adaptive immune resistance appeared essential to predict response. Relevance
29
Citation2
0
Save
0

ProTECT: Prediction of T-cell Epitopes for Cancer Therapy

Arjun Rao et al.Jul 9, 2019
Somatic mutations in cancers affecting protein coding genes can give rise to potentially therapeutic neoepitopes. These neoepitopes can guide Adoptive Cell Therapies (ACTs) and Peptide Vaccines (PVs) to selectively target tumor cells using autologous patient cytotoxic T-cells. Currently, researchers have to independently align their data, call somatic mutations and determine the patient HLA haplotype to use existing neoepitope prediction tools. We present ProTECT, a fully automated, reproducible, scalable, and efficient end-to-end analysis pipeline to identify and rank therapeutically relevant tumor neoepitopes in terms of immunogenicity starting directly from raw patient sequencing data, or from pre-processed data. The ProTECT pipeline encompasses alignment, HLA haplotyping, mutation calling (single nucleotide variants, short insertions and deletions, and gene fusions), peptide:MHC (pMHC) binding prediction, and ranking of final candidates. We demonstrate ProTECT on 326 samples from the TCGA Prostate Adenocarcinoma cohort, and compare it with published tools. ProTECT can be run on a standalone computer, a local cluster, or on a compute cloud using a Mesos backend. ProTECT is highly scalable and can process TCGA data in under 30 minutes per sample when run in large batches. ProTECT is freely available at https://www.github.com/BD2KGenomics/protect.
0

Framework for determining accuracy of RNA sequencing data for gene expression profiling of single samples

Holly Beale et al.Jul 30, 2019
Background: The clinical value of identifying aberrant gene expression in tumors is becoming increasingly evident. In order for multi-gene expression analysis to achieve wider adoption and eventually be developed as a Clinical Laboratory Improvement Amendments (CLIA)-approved test, the input sample requirements, sensitivity, specificity and reference ranges must be quantified. Methods: We analyzed paired-end Illumina RNA sequencing (RNA-Seq) data from 1088 tumor samples from 29 projects. We categorized reads based on where and how well they map to the genome, as well as their PCR duplicate status. We subsampled 5 deeply sequenced samples, identified exceptionally highly expressed genes and samples with similar gene expression profiles. Results: We addressed variability in RNA-Seq dataset composition by defining reference ranges for four types of reads found in sequencing data: unmapped (0-13%); mapped duplicate (2-66%); mapped non exonic (0-26%) and mapped, exonic, non-duplicate (MEND, 27-76%). With 20 million MEND reads, we detected over-expressed genes ("up-outlier" genes) with a median sensitivity of 96.1% and specificity of 99.8%; sample similarity had 96.6% sensitivity and 100.0% specificity. Conclusions: This strategy for measuring RNA-Seq data content and identifying thresholds could be applied to a clinical test of a single sample, specifying minimum inputs and defining the sensitivity and specificity. We estimate that a sample sequenced to the depth of 70 million total reads will typically have sufficient data for accurate gene expression analysis.
0

tauX: A Gene Expression Ratio Strategy to Improve Machine Learning Applications in Precision Medicine

Jacob Pfeil et al.Jul 4, 2024
Machine learning algorithms identify patterns that would otherwise be difficult to observe in high-dimensional molecular and clinical data. For this reason, machine learning has the potential to have a profound impact on clinical decision making and drug target discovery. Nevertheless, there remain considerable technical challenges in adapting these tools for clinical use. These challenges include clinical feature engineering, model selection, and defining optimal strategies for model training. For cancer care, RNA sequencing of patient tumor biopsies has already proven to be a powerful molecular assay to characterize tumor-intrinsic and -extrinsic phenotypes influencing therapeutic response. To improve the predictive performance of RNA-sequencing data, we developed the tauX machine learning framework to refine gene expression features and improve the performance of machine learning algorithms. The tauX framework uses aggregated ratios of positively and negatively associated predictive genes to simplify the prediction task. We showed a significant improvement in predictive performance using a large database of synthetic gene expression profiles. We also show how the tauX framework can be used to elucidate the mechanisms of response and resistance to checkpoint blockade therapy using data from the Stand Up to Cancer (SU2C) Lung Response Cohort and The Cancer Genome Atlas (TCGA). The tauX strategy achieved superior predictive performance compared to models built upon established feature engineering strategies or widely used cancer gene expression signatures. The tauX framework is available as a freely deployable docker container (https://hub.docker.com/r/pfeiljx/taux).