SB
Serafim Batzoglou
Author with expertise in RNA Sequencing Data Analysis
Codexis (United States), Illumina (United States), Stanford University
+ 8 more
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
18
(33% Open Access)
Cited by:
16
h-index:
61
/
i10-index:
102
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Strain-resolved microbiome sequencing reveals mobile elements that drive bacterial competition on a clinical timescale

Alex Bishara et al.May 6, 2020
+10
Е
E
A
Abstract Although shotgun short-read sequencing has facilitated the study of strain-level architecture within complex microbial communities, existing metagenomic approaches often cannot capture structural differences between closely related co-occurring strains. Recent methods, which employ read cloud sequencing and specialized assembly techniques, provide significantly improved genome drafts and show potential to capture these strain-level differences. Here, we apply this read cloud metagenomic approach to longitudinal stool samples from a patient undergoing hematopoietic cell transplantation. The patient’s microbiome is profoundly disrupted and is eventually dominated by Bacteroides caccae . Comparative analysis of B. caccae genomes obtained using read cloud sequencing together with metagenomic RNA sequencing allows us to predict that particular mobile element integrations result in increased antibiotic resistance, which we further support using in vitro antibiotic susceptibility testing. Thus, we find read cloud sequencing to be useful in identifying strain-level differences that underlie differential fitness.
0
Citation10
0
Save
2

Functionally distinct BMP1 isoforms show an opposite pattern of abundance in plasma from non-small cell lung cancer subjects and controls

Maureen Donovan et al.Oct 24, 2023
+12
J
Y
M
Abstract Advancements in deep plasma proteomics are enabling high-resolution measurement of plasma proteoforms, which may reveal a rich source of novel biomarkers previously concealed by aggregated protein methods. Here, we analyze 188 plasma proteomes from non-small cell lung cancer subjects (NSCLC) and controls to identify NSCLC-associated protein isoforms by examining differentially abundant peptides as a proxy for isoform-specific exon usage. We find four proteins comprised of peptides with opposite patterns of abundance between cancer and control subjects. One of these proteins, BMP1, has known isoforms that can explain this differential pattern, for which the abundance of the NSCLC-associated isoform increases with stage of NSCLC progression. The presence of cancer and control-associated isoforms suggests differential regulation of BMP1 isoforms. The identified BMP1 isoforms have known functional differences, which may reveal insights into mechanisms impacting NSCLC disease progression.
2
Citation5
0
Save
0

Identification of Novel Biomarkers for Alzheimer′s Disease and Related Dementias Using Unbiased Plasma Proteomics

Benjamin Lacar et al.Jan 8, 2024
+12
A
S
B
Alzheimer's disease (AD) and related dementias (ADRD) is a complex disease with multiple pathophysiological drivers that determine clinical symptomology and disease progression. These diseases develop insidiously over time, through many pathways and disease mechanisms and continue to have a huge societal impact for affected individuals and their families. While emerging blood-based biomarkers, such as plasma p-tau181 and p-tau217, accurately detect Alzheimer neuropthology and are associated with faster cognitive decline, the full extension of plasma proteomic changes in ADRD remains unknown. Earlier detection and better classification of the different subtypes may provide opportunities for earlier, more targeted interventions, and perhaps a higher likelihood of successful therapeutic development. In this study, we aim to leverage unbiased mass spectrometry proteomics to identify novel, blood-based biomarkers associated with cognitive decline. 1,786 plasma samples from 1,005 patients were collected over 12 years from partcipants in the Massachusetts Alzheimer's Disease Research Center Longitudinal Cohort Study. Patient metadata includes demographics, final diagnoses, and clinical dementia rating (CDR) scores taken concurrently. The Proteograph™ Product Suite (Seer, Inc.) and liquid-chromatography mass-spectrometry (LC-MS) analysis were used to process the plasma samples in this cohort and generate unbiased proteomics data. Data-independent acquisition (DIA) mass spectrometry results yielded 36,259 peptides and 4,007 protein groups. Linear mixed effects models revealed 138 differentially abundant proteins between AD and healthy controls. Machine learning classification models for AD diagnosis identified potential candidate biomarkers including MBP, BGLAP, and APoD. Cox regression models were created to determine the association of proteins with disease progression and suggest CLNS1A, CRISPLD2, and GOLPH3 as targets of further investigation as potential biomarkers. The Proteograph workflow provided deep, unbiased coverage of the plasma proteome at a speed that enabled a cohort study of almost 1,800 samples, which is the largest, deep, unbiased proteomics study of ADRD conducted to date.
0
Citation1
0
Save
0

Genome-wide reconstruction of complex structural variants using read clouds

Noah Spies et al.May 6, 2020
+7
A
Z
N
Recently developed methods that utilize partitioning of long genomic DNA fragments, and barcoding of shorter fragments derived from them, have succeeded in retaining long-range information in short sequencing reads. These so-called read cloud approaches represent a powerful, accurate, and cost-effective alternative to single-molecule long-read sequencing. We developed software, GROC-SVs, that takes advantage of read clouds for structural variant detection and assembly. We apply the method to two 10x Genomics data sets, one chromothriptic sarcoma with several spatially separated samples, and one breast cancer cell line, all Illumina-sequenced to high coverage. Comparison to short-fragment data from the same samples, and validation by mate-pair data from a subset of the sarcoma samples, demonstrate substantial improvement in specificity of breakpoint detection compared to short-fragment sequencing, at comparable sensitivity, and vice versa. The embedded long-range information also facilitates sequence assembly of a large fraction of the breakpoints; importantly, consecutive breakpoints that are closer than the average length of the input DNA molecules can be assembled together and their order and arrangement reconstructed, with some events exhibiting remarkable complexity. These features facilitated an analysis of the structural evolution of the sarcoma. In the chromothripsis, rearrangements occurred before copy number amplifications, and using the phylogenetic tree built from point mutation data we show that single nucleotide variants and structural variants are not correlated. We predict significant future advances in structural variant science using 10x data analyzed with GROC-SVs and other read cloud-specific methods.
1

Nanoparticle Enrichment Mass-Spectrometry Proteomics Identifies Protein Altering Variants for Precise pQTL Mapping

Karsten Suhre et al.Oct 24, 2023
+9
H
G
K
ABSTRACT Genome-wide association studies (GWAS) with proteomics generate hypotheses on protein function and offer genetic evidence for drug target prioritization. Although most protein quantitative loci (pQTLs) have so far been identified by high-throughput affinity proteomics platforms, these methods also have some limitations, such as uncertainty about target identity, non-specific binding of aptamers, and inability to handle epitope-modifying variants that affect affinity binding. Mass spectrometry (MS) proteomics has the potential to overcome these challenges and broaden the scope of pQTL studies. Here, we employ the recently developed MS-based Proteograph™ workflow ( Seer, Inc .) to quantify over 18,000 unique peptides from almost 3,000 proteins in more than 320 blood samples from a multi-ethnic cohort. We implement a bottom-up MS-proteomics approach for the detection and quantification of blood-circulating proteins in the presence of protein altering variants (PAVs). We identify 184 PAVs located in 137 genes that are significantly associated with their corresponding variant peptides in MS data (MS-PAVs). Half of these MS-PAVs (94) overlap with cis -pQTLs previously identified by affinity proteomics pQTL studies, thus confirming the target specificity of the affinity binders. An additional 54 MS-PAVs overlap with trans -pQTLs (and not cis -pQTLs) in affinity proteomics studies, thus identifying the putatively causal cis -encoded protein and providing experimental evidence for its presence in blood. The remaining 36 MS-PAVs have not been previously reported and include proteins that may be inaccessible to affinity proteomics, such as a variant in the incretin pro-peptide (GIP) that associates with type 2 diabetes and cardiovascular disease. Overall, our study introduces a novel approach for analyzing MS-based proteomics data within the GWAS context, provides new insights relevant to genetics-based drug discovery, and highlights the potential of MS-proteomics technologies when applied at population scale. Highlights This is the first pQTL study that uses the Proteograph ™ ( Seer Inc .) mass spectrometry-based proteomics workflow. We introduce a novel bottom-up proteomics approach that accounts for protein altering variants in the detection of pQTLs. We confirm the target and potential epitope effects of affinity binders for cis- pQTLs from affinity proteomics studies. We establish putatively causal proteins for known affinity proteomics trans -pQTLs and confirm their presence in blood. We identify novel protein altering variants in proteins of clinical relevance that may not be accessible to affinity proteomics. Graphical abstract
0

Privacy-Preserving Read Mapping Using Locality Sensitive Hashing and Secure Kmer Voting

Victoria Popic et al.May 6, 2020
S
V
The recent explosion in the amount of available genome sequencing data imposes high computational demands on the tools designed to analyze it. Low-cost cloud computing has the potential to alleviate this burden. However, moving personal genome data analysis to the cloud raises serious privacy concerns. Read alignment is a critical and computationally intensive first step of most genomic data analysis pipelines. While significant effort has been dedicated to optimize the sensitivity and runtime efficiency of this step, few approaches have addressed outsourcing this computation securely to an untrusted party. The few secure solutions that have been proposed either do not scale to whole genome sequencing datasets or are not competitive with the state of the art in read mapping. In this paper, we present BALAUR, a privacy-preserving read mapping algorithm based on locality sensitive hashing and secure kmer voting. BALAUR securely outsources a significant portion of the computation to the public cloud by formulating the alignment task as a voting scheme between encrypted read and reference kmers. Our approach can easily handle typical genome-scale datasets and is highly competitive with non-cryptographic state-of-the-art read aligners in both accuracy and runtime performance on simulated and real read data. Moreover, our approach is significantly faster than state-of-the-art read aligners in long read mapping.
0

Visualization and analysis of single-cell RNA-seq data by kernel-based similarity learning

Bo Wang et al.May 6, 2020
+2
E
J
B
Single-cell RNA-seq technologies enable high throughput gene expression measurement of individual cells, and allow the discovery of heterogeneity within cell populations. Measurement of cell-to-cell gene expression similarity is critical to identification, visualization and analysis of cell populations. However, single-cell data introduce challenges to conventional measures of gene expression similarity because of the high level of noise, outliers and dropouts. Here, we propose a novel similarity-learning framework, SIMLR (single-cell interpretation via multi-kernel learning), which learns an appropriate distance metric from the data for dimension reduction, clustering and visualization applications. Benchmarking against state-of-the-art methods for these applications, we used SIMLR to re-analyse seven representative single-cell data sets, including high-throughput droplet-based data sets with tens of thousands of cells. We show that SIMLR greatly improves clustering sensitivity and accuracy, as well as the visualization and interpretability of the data.
6

Enhanced competitive protein exchange at the nano-bio interface enables ultra-deep coverage of the human plasma proteome

Daniel Hornburg et al.Oct 24, 2023
+16
M
S
D
Abstract We have developed a scalable system that leverages protein-nano interactions to overcome current limitations of deep plasma proteomics in large cohorts. Introducing proprietary engineered nanoparticles (NPs) into a biofluid such as blood plasma leads to the formation of a selective and reproducible protein corona at the particle-protein interface, driven by the relationship between protein-NP affinity and protein abundance. Here we demonstrate the importance of tuning the protein to NP-surface ratio (P/NP), which determines the competition between proteins for binding. We demonstrate how optimized P/NP ratio affects protein corona composition, ultimately enhancing performance of a fully automated NP-based deep proteomic workflow (Proteograph). By limiting the available binding surface of NPs and increasing the binding competition, we identify 1.2 – 1.7x more proteins with only 1% false discovery rate on the surface of each NP, and up to 3x compared to a standard neat plasma proteomics workflow. Moreover, increased competition means proteins are more consistently identified and quantified across replicates, yielding precise quantification and improved coverage of the plasma proteome when using multiple physicochemically distinct NPs. In summary, by optimizing NPs and assay conditions, we capture a larger and more diverse set of proteins, enabling deep proteomic studies at scale.
0

GATTACA: Lightweight Metagenomic Binning With Compact Indexing Of Kmer Counts And MinHash-based Panel Selection

Victoria Popic et al.May 6, 2020
S
M
V
V
We introduce GATTACA, a framework for rapid and accurate binning of metagenomic contigs from a single or multiple metagenomic samples into clusters associated with individual species. The clusters are computed using co-abundance profiles within a set of reference metagnomes; unlike previous methods, GATTACA estimates these profiles from k-mer counts stored in a highly compact index. On multiple synthetic and real benchmark datasets, GATTACA produces clusters that correspond to distinct bacterial species with an accuracy that matches earlier methods, while being up to 20x faster when the reference panel index can be computed offline and 6x faster for online co-abundance estimation. Leveraging the MinHash technique to quickly compare metagenomic samples, GATTACA also provides an efficient way to identify publicly-available metagenomic data that can be incorporated into the set of reference metagenomes to further improve binning accuracy. Thus, enabling easy indexing and reuse of publicly-available metagenomic datasets, GATTACA makes accurate metagenomic analyses accessible to a much wider range of researchers.
0

Culture-free generation of microbial genomes from human and marine microbiomes

Alex Bishara et al.May 6, 2020
+6
M
E
A
Our understanding of natural microbial communities is shaped by the careful investigation of a relatively small number of isolated and cultured organisms, and by analysis of genomic sequences obtained by culture-free metagenomic sequencing approaches. Metagenomic shotgun sequencing has facilitated partial reconstruction of strain-level community structure and functional repertoire. Unfortunately, it remains difficult to cost-effectively produce high quality genome drafts for individual microbes without isolation and culture. Recent molecular techniques that partition long DNA fragments and then barcode short fragments derived from them produce "read clouds", which are short-read sequences containing long-range information. Here, we present a novel application of a read cloud technique to microbiome samples, as well as Athena, a de novo assembler that uses these barcodes to produce improved metagenomic assemblies. We apply our approach to sequence human stool samples from two healthy individuals, and compare it to existing short read and synthetic long read metagenomic sequencing approaches. We find that read cloud metagenomic sequencing and Athena assembly produce the most complete individual genome drafts. These genome drafts are also highly contiguous (>200kb N50, <10 contigs), even for bacteria that have relatively low (20x) raw short read sequence coverage. We also apply this approach to a significantly more complex marine sediment sample and obtain 23 genome drafts with valuable 16S ribosomal RNA taxonomic marker sequences, nine of which are complete genome drafts. Read cloud metagenomic sequencing allows culture-free generation of high quality microbial genome drafts using only a single shotgun experiment.
Load More