JW
John West
Author with expertise in Prediction of Peptide-MHC Binding Affinity
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
3
(67% Open Access)
Cited by:
2
h-index:
8
/
i10-index:
7
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Precision neoantigen discovery using large-scale immunopeptidomes and composite modeling of MHC peptide presentation

Rachel Pyke et al.May 1, 2021
+11
G
J
R
Abstract Major histocompatibility complex (MHC)-bound peptides that originate from tumor-specific genetic alterations, known as neoantigens, are an important class of anti-cancer therapeutic targets. Accurately predicting peptide presentation by MHC complexes is a key aspect of discovering therapeutically relevant neoantigens. Technological improvements in mass-spectrometry-based immunopeptidomics and advanced modeling techniques have vastly improved MHC presentation prediction over the past two decades. However, improvement in the sensitivity and specificity of prediction algorithms is needed for clinical applications such as the development of personalized cancer vaccines, the discovery of biomarkers for response to checkpoint blockade and the quantification of autoimmune risk in gene therapies. Toward this end, we generated allele-specific immunopeptidomics data using 25 mono-allelic cell lines and created Systematic HLA Epitope Ranking Pan Algorithm (SHERPA™), a pan-allelic MHC-peptide algorithm for predicting MHC-peptide binding and presentation. In contrast to previously published large-scale mono-allelic data, we used an HLA-null K562 parental cell line and a stable transfection of HLA alleles to better emulate native presentation. Our dataset includes five previously unprofiled alleles that expand MHC binding pocket diversity in the training data and extend allelic coverage in underprofiled populations. To improve generalizability, SHERPA systematically integrates 128 mono-allelic and 384 multi-allelic samples with publicly available immunoproteomics data and binding assay data. Using this dataset, we developed two features that empirically estimate the propensities of genes and specific regions within gene bodies to engender immunopeptides to represent antigen processing. Using a composite model constructed with gradient boosting decision trees, multiallelic deconvolution and 2.15 million peptides encompassing 167 alleles, we achieved a 1.44 fold improvement of positive predictive value compared to existing tools when evaluated on independent mono-allelic datasets and a 1.15 fold improvement when evaluating on tumor samples. With a high degree of accuracy, SHERPA has the potential to enable precision neoantigen discovery for future clinical applications.
0
Citation1
0
Save
10

Validated machine learning algorithm with sub-clonal sensitivity reveals widespread pan-cancer human leukocyte antigen loss of heterozygosity

Rachel Pyke et al.May 22, 2021
+9
C
S
R
Abstract Human leukocyte antigen loss of heterozygosity (HLA LOH) allows cancer cells to escape immune recognition by deleting HLA alleles, causing the suppressed presentation of tumor neoantigens that would otherwise bind to them. Despite its importance in immunotherapy response, few methods exist to detect HLA LOH, and their accuracy is not well understood. Here, we develop DASH ( D eletion of A llele- S pecific H LAs), a novel machine learning-based algorithm to detect HLA LOH from paired tumor-normal sequencing data. Through validation with cell line mixtures and patient-specific digital PCR, we demonstrate increased sensitivity compared to previously published tools and pave the way for clinical utility. Using DASH on 611 patients across 15 tumor types, we found that 18% of patients had HLA LOH. Moreover, we show inflated HLA LOH rates compared to genome-wide LOH and correlations between CD274 (PD-L1) expression and MSI status, suggesting the HLA LOH is a key immune resistance strategy.
10
Citation1
0
Save
0

A variant by any name: quantifying annotation discordance across tools and clinical databases

Jennifer Yen et al.May 18, 2016
+5
A
S
J
Background: Clinical genomic testing is dependent on the robust identification and reporting of variant-level information in relation to disease. With the shift to high-throughput sequencing, a major challenge for clinical diagnostics is the cross-identification of variants called on their genomic position to resources that rely on transcript- or protein-based descriptions. Methods: We evaluated the accuracy of three tools (SnpEff, Variant Effect Predictor and Variation Reporter) that generate transcript and protein-based variant nomenclature from genomic coordinates according to guidelines by the Human Genome Variation Society (HGVS). Our evaluation was based on comparisons to a manually-curated list of 127 test variants of various types drawn from data sources, each with HGVS-compliant transcript and protein descriptors. We further evaluated the concordance between annotations generated by Snpeff and Variant Effect Predictor with those in major germline and cancer databases: ClinVar and COSMIC, respectively. Results: We find that there is substantial discordance between the annotation tools and databases in the description of insertion and/or deletions. Accuracy based on our ground truth set was between 80-90% for coding and 50-70% for protein variants, numbers that are not adequate for clinical reporting. Exact concordance for SNV syntax was over 99.5% between ClinVar and Variant Effect Predictor (VEP) and SnpEff, but less than 90% for non-SNV variants. For COSMIC, exact concordance for coding and protein SNVs were between 65 and 88%, and less than 15% for insertions. Across the tools and datasets, there was a wide range of equivalent expressions describing protein variants. Conclusion: Our results reveal significant inconsistency in variant representation across tools and databases. These results highlight the urgent need for the adoption and adherence to uniform standards in variant annotation, with consistent reporting on the genomic reference, to enable accurate and efficient data-driven clinical care.