ST
Sarah Taliun
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
24
(54% Open Access)
Cited by:
2,889
h-index:
23
/
i10-index:
35
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

Sequencing of 53,831 diverse genomes from the NHLBI TOPMed Program

Daniel Taliun et al.Feb 10, 2021
Abstract The Trans-Omics for Precision Medicine (TOPMed) programme seeks to elucidate the genetic architecture and biology of heart, lung, blood and sleep disorders, with the ultimate goal of improving diagnosis, treatment and prevention of these diseases. The initial phases of the programme focused on whole-genome sequencing of individuals with rich phenotypic data and diverse backgrounds. Here we describe the TOPMed goals and design as well as the available resources and early insights obtained from the sequence data. The resources include a variant browser, a genotype imputation server, and genomic and phenotypic data that are available through dbGaP (Database of Genotypes and Phenotypes) 1 . In the first 53,831 TOPMed samples, we detected more than 400 million single-nucleotide and insertion or deletion variants after alignment with the reference genome. Additional previously undescribed variants were detected through assembly of unmapped reads and customized analysis in highly variable loci. Among the more than 400 million detected variants, 97% have frequencies of less than 1% and 46% are singletons that are present in only one individual (53% among unrelated individuals). These rare variants provide insights into mutational processes and recent human evolutionary history. The extensive catalogue of genetic variation in TOPMed studies provides unique opportunities for exploring the contributions of rare and noncoding sequence variants to phenotypic variation. Furthermore, combining TOPMed haplotypes with modern imputation methods improves the power and reach of genome-wide association studies to include variants down to a frequency of approximately 0.01%.
1
Citation1,370
0
Save
1

Efficiently controlling for case-control imbalance and sample relatedness in large-scale genetic association studies

Wei Zhou et al.Aug 8, 2018
In genome-wide association studies (GWAS) for thousands of phenotypes in large biobanks, most binary traits have substantially fewer cases than controls. Both of the widely used approaches, the linear mixed model and the recently proposed logistic mixed model, perform poorly; they produce large type I error rates when used to analyze unbalanced case-control phenotypes. Here we propose a scalable and accurate generalized mixed model association test that uses the saddlepoint approximation to calibrate the distribution of score test statistics. This method, SAIGE (Scalable and Accurate Implementation of GEneralized mixed model), provides accurate P values even when case-control ratios are extremely unbalanced. SAIGE uses state-of-art optimization strategies to reduce computational costs; hence, it is applicable to GWAS for thousands of phenotypes by large biobanks. Through the analysis of UK Biobank data of 408,961 samples from white British participants with European ancestry for > 1,400 binary phenotypes, we show that SAIGE can efficiently analyze large sample data, controlling for unbalanced case-control ratios and sample relatedness. SAIGE (Scalable and Accurate Implementation of GEneralized mixed model) is a generalized mixed model association test that can efficiently analyze large data sets while controlling for unbalanced case-control ratios and sample relatedness, as shown by applying SAIGE to the UK Biobank data for > 1,400 binary phenotypes.
1
Citation1,026
0
Save
0

Rare coding variants in ten genes confer substantial risk for schizophrenia

Tarjinder Singh et al.Apr 8, 2022
Rare coding variation has historically provided the most direct connections between gene function and disease pathogenesis. By meta-analysing the whole exomes of 24,248 schizophrenia cases and 97,322 controls, we implicate ultra-rare coding variants (URVs) in 10 genes as conferring substantial risk for schizophrenia (odds ratios of 3–50, P < 2.14 × 10−6) and 32 genes at a false discovery rate of <5%. These genes have the greatest expression in central nervous system neurons and have diverse molecular functions that include the formation, structure and function of the synapse. The associations of the NMDA (N-methyl-d-aspartate) receptor subunit GRIN2A and AMPA (α-amino-3-hydroxy-5-methyl-4-isoxazole propionic acid) receptor subunit GRIA3 provide support for dysfunction of the glutamatergic system as a mechanistic hypothesis in the pathogenesis of schizophrenia. We observe an overlap of rare variant risk among schizophrenia, autism spectrum disorders1, epilepsy and severe neurodevelopmental disorders2, although different mutation types are implicated in some shared genes. Most genes described here, however, are not implicated in neurodevelopment. We demonstrate that genes prioritized from common variant analyses of schizophrenia are enriched in rare variant risk3, suggesting that common and rare genetic risk factors converge at least partially on the same underlying pathogenic biological processes. Even after excluding significantly associated genes, schizophrenia cases still carry a substantial excess of URVs, which indicates that more risk genes await discovery using this approach. Whole-exome sequencing identifies ten risk genes for schizophrenia implicated by rare protein-coding variants, a subset of which overlap with risk genes in other neurodevelopmental disorders.
0
Citation472
0
Save
1

Genome-wide association study of cardiac troponin I in the general population

Marta Moksnes et al.May 7, 2021
Circulating cardiac troponin proteins are associated with structural heart disease and predict incident cardiovascular disease in the general population. However, the genetic contribution to cardiac troponin I (cTnI) concentrations and its causal effect on cardiovascular phenotypes are unclear. We combine data from two large population-based studies, the Trøndelag Health Study and the Generation Scotland Scottish Family Health Study, and perform a genome-wide association study of high-sensitivity cTnI concentrations with 48 115 individuals. We further use two-sample Mendelian randomization to investigate the causal effects of circulating cTnI on acute myocardial infarction (AMI) and heart failure (HF). We identified 12 genetic loci (8 novel) associated with cTnI concentrations. Associated protein-altering variants highlighted putative functional genes: CAND2, HABP2, ANO5, APOH, FHOD3, TNFAIP2, KLKB1 and LMAN1. Phenome-wide association tests in 1688 phecodes and 83 continuous traits in UK Biobank showed associations between a genetic risk score for cTnI and cardiac arrhythmias, metabolic and anthropometric measures. Using two-sample Mendelian randomization, we confirmed the non-causal role of cTnI in AMI (5948 cases, 355 246 controls). We found indications for a causal role of cTnI in HF (47 309 cases and 930 014 controls), but this was not supported by secondary analyses using left ventricular mass as outcome (18 257 individuals). Our findings clarify the biology underlying the heritable contribution to circulating cTnI and support cTnI as a non-causal biomarker for AMI in the general population. Using genetically informed methods for causal inference helps inform the role and value of measuring cTnI in the general population.
1
Citation12
0
Save
1

Cross-platform transcriptional profiling identifies common and distinct molecular pathologies in Lewy Body diseases

Rahel Feleke et al.Apr 22, 2021
Abstract Parkinson’s disease (PD), Parkinson’s disease with dementia (PDD) and dementia with Lewy bodies (DLB) are three clinically, genetically and neuropathologically overlapping neurodegenerative diseases collectively known as the Lewy body diseases (LBDs). A variety of molecular mechanisms have been implicated in PD pathogenesis, but the mechanisms underlying PDD and DLB remain largely unknown, a knowledge gap that presents an impediment to the discovery of disease-modifying therapies. Transcriptomic profiling can contribute to addressing this gap, but remains limited in the LBDs. Here, we applied paired bulk-tissue and single-nucleus RNA-sequencing to anterior cingulate cortex samples derived from 28 individuals, including healthy controls, PD, PDD and DLB cases (n = 7 per group), to transcriptomically profile the LBDs. Using this approach, we (i) found transcriptional alterations in multiple cell types across the LBDs; (ii) discovered evidence for widespread dysregulation of RNA splicing, particularly in PDD and DLB; (iii) identified potential splicing factors, with links to other dementia-related neurodegenerative diseases, coordinating this dysregulation; and (iv) identified transcriptomic commonalities and distinctions between the LBDs that inform understanding of the relationships between these three clinical disorders. Together, these findings have important implications for the design of RNA-targeted therapies for these diseases and highlight a potential molecular “window” of therapeutic opportunity between the initial onset of PD and subsequent development of Lewy body dementia.
1
Citation5
0
Save
20

APOE ɛ2 vs APOE ɛ4 dosage shows sex-specific links to hippocampus-default network subregion co-variation

Chloé Savignac et al.Mar 15, 2022
Abstract Alzheimer’s disease and related dementias (ADRD) are marked by intracellular tau aggregates in the medial-temporal lobe (MTL) and extracellular amyloid aggregates in the default network (DN). Here, we sought to clarify ADRD-related co-dependencies between the MTL’s most vulnerable structure, the hippocampus (HC), and the highly associative DN at a subregion resolution. We confronted the effects of APOE ɛ2 and ɛ4, rarely investigated together, with their impact on HC-DN co-variation regimes at the population level. In a two-pronged decomposition of structural brain scans from ∼40,000 UK Biobank participants, we located co-deviating structural patterns in HC and DN subregions as a function of ADRD family risk. Across the disclosed HC-DN signatures, recurrent deviations in the CA1, CA2/3, molecular layer, fornix’s fimbria, and their cortical partners related to ADRD risk. Phenome-wide profiling of HC-DN co- variation expressions from these population signatures revealed male-specific associations with air-pollution, and female-specific associations with cardiovascular traits. We highlighted three main factors associated with brain- APOE associations across the different gene variants: happiness, and satisfaction with friendships, and with family. We further showed that APOE ɛ2/2 interacts preferentially with HC-DN co-variation patterns in estimating social lifestyle in males and physical activity in females. Our findings reinvigorate the often-neglected interplay between APOE ɛ2 dosage and sex, which we have linked to fine-grained structural divergences indicative of ADRD susceptibility.
20
Citation3
0
Save
0

Exploring Various Polygenic Risk Scores for Skin Cancer in the Phenomes of the Michigan Genomics Initiative and the UK Biobank with a Visual Catalog:PRSWeb

Lars Fritsche et al.Aug 4, 2018
Abstract Polygenic risk scores (PRS) are designed to serve as a single summary measure, condensing information from a large number of genetic variants associated with a disease. They have been used for stratification and prediction of disease risk. The construction of a PRS often depends on the purpose of the study, the available data/summary estimates, and the underlying genetic architecture of a disease. In this paper, we consider several choices for constructing a PRS using summary data obtained from various publicly-available sources including the UK Biobank and evaluate their abilities to predict outcomes derived from electronic health records (EHR). Weexamine the three most common skin cancer subtypes in the USA: basal cellcarcinoma, cutaneous squamous cell carcinoma, and melanoma. The genetic risk profiles of subtypes may consist of both shared and unique elements and we construct PRS to understand the common versus distinct etiology. This study is conducted using data from 30,702 unrelated, genotyped patients of recent European descent from the Michigan Genomics Initiative (MGI), a longitudinal biorepository effort within Michigan Medicine. Using these PRS for various skin cancer subtypes, we conduct a phenome-wide association study (PheWAS) within the MGI data to evaluate their association with secondary traits. PheWAS results are then replicated using population-based UK Biobank data. We develop an accompanying visual catalog called PRSweb that provides detailed PheWAS results and allows users to directly compare different PRS construction methods. The results of this study can provide guidance regarding PRS construction in future PRS-PheWAS studies using EHR data involving disease subtypes. Author summary In the study of genetically complex diseases, polygenic risk scores synthesize information from multiple genetic risk factors to provide insight into a patient’s risk of developing a disease based on his/her genetic profile. These risk scores can be explored in conjunction with health and disease information available in the electronic medical records. They may be associated with diseases that may be related to or precursors of the underlying disease of interest. Limited work is available guiding risk score construction when the goal is to identify associations across the medical phenome. In this paper, we compare different polygenic risk score construction methods in terms of their relationships with the medical phenome. We further propose methods for using these risk scores to decouple the shared and unique genetic profiles of related diseases and to explore related diseases’ shared and unique secondary associations. Leveraging and harnessing the rich data resources of the Michigan Genomics Initiative, a biorepository effort at Michigan Medicine, and the larger population-based UK Biobank study, we investigated the performance of genetic risk profiling methods for the three most common types of skin cancer: melanoma, basal cell carcinoma and squamous cell carcinoma.
0
Citation1
0
Save
0

Sequencing of 53,831 diverse genomes from the NHLBI TOPMed Program

Daniel Taliun et al.Mar 6, 2019
The Trans-Omics for Precision Medicine (TOPMed) program seeks to elucidate the genetic architecture and disease biology of heart, lung, blood, and sleep disorders, with the ultimate goal of improving diagnosis, treatment, and prevention. The initial phases of the program focus on whole genome sequencing of individuals with rich phenotypic data and diverse backgrounds. Here, we describe TOPMed goals and design as well as resources and early insights from the sequence data. The resources include a variant browser, a genotype imputation panel, and sharing of genomic and phenotypic data via dbGaP. In 53,581 TOPMed samples, >400 million single-nucleotide and insertion/deletion variants were detected by alignment with the reference genome. Additional novel variants are detectable through assembly of unmapped reads and customized analysis in highly variable loci. Among the >400 million variants detected, 97% have frequency <1% and 46% are singletons. These rare variants provide insights into mutational processes and recent human evolutionary history. The nearly complete catalog of genetic variation in TOPMed studies provides unique opportunities for exploring the contributions of rare and non-coding sequence variants to phenotypic variation. Furthermore, combining TOPMed haplotypes with modern imputation methods improves the power and extends the reach of nearly all genome-wide association studies to include variants down to ~0.01% in frequency.
0

Efficiently controlling for case-control imbalance and sample relatedness in large-scale genetic association studies

Wei Zhou et al.Nov 1, 2017
In genome-wide association studies (GWAS) for thousands of phenotypes in large biobanks, most binary traits have substantially fewer cases than controls. Both of the widely used approaches, linear mixed model and the recently proposed logistic mixed model, perform poorly -- producing large type I error rates -- in the analysis of phenotypes with unbalanced case-control ratios. Here we propose a scalable and accurate generalized mixed model association test that uses the saddlepoint approximation (SPA) to calibrate the distribution of score test statistics. This method, SAIGE, provides accurate p-values even when case-control ratios are extremely unbalanced. It utilizes state-of-art optimization strategies to reduce computational time and memory cost of generalized mixed model. The computation cost linearly depends on sample size, and hence can be applicable to GWAS for thousands of phenotypes by large biobanks. Through the analysis of UK-Biobank data of 408,961 white British European-ancestry samples, we show that SAIGE can efficiently analyze large sample data, controlling for unbalanced case-control ratios and sample relatedness.
0

Scalable generalized linear mixed model for region-based association tests in large biobanks and cohorts

Wei Zhou et al.Mar 20, 2019
With very large sample sizes, population-based cohorts and biobanks provide an exciting opportunity to identify genetic components of complex traits. To analyze rare variants, gene or region-based multiple variant aggregate tests are commonly used to increase association test power. However, due to the substantial computation cost, existing region-based rare variant tests cannot analyze hundreds of thousands of samples while accounting for confounders, such as population stratification and sample relatedness. Here we propose a scalable generalized mixed model region-based association test that can handle large sample sizes and accounts for unbalanced case-control ratios for binary traits. This method, SAIGE-GENE, utilizes state-of-the-art optimization strategies to reduce computational and memory cost, and hence is applicable to exome-wide and genome-wide region-based analysis for hundreds of thousands of samples. Through the analysis of the HUNT study of 69,716 Norwegian samples and the UK Biobank data of 408,910 White British samples, we show that SAIGE-GENE can efficiently analyze large sample data (N > 400,000) with type I error rates well controlled.
Load More