CL
Christoph Lange
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
24
(71% Open Access)
Cited by:
2,656
h-index:
66
/
i10-index:
150
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

A Common Genetic Variant Is Associated with Adult and Childhood Obesity

Alan Herbert et al.Apr 13, 2006
+20
M
N
A
Obesity is a heritable trait and a risk factor for many common diseases such as type 2 diabetes, heart disease, and hypertension. We used a dense whole-genome scan of DNA samples from the Framingham Heart Study participants to identify a common genetic variant near the INSIG2 gene associated with obesity. We have replicated the finding in four separate samples composed of individuals of Western European ancestry, African Americans, and children. The obesity-predisposing genotype is present in 10% of individuals. Our study suggests that common genetic polymorphisms are important determinants of obesity.
0
Citation734
0
Save
0

Genome-wide Association Analysis Reveals Putative Alzheimer's Disease Susceptibility Loci in Addition to APOE

Lars Bertram et al.Oct 31, 2008
+21
A
M
L
Alzheimer's disease (AD) is a genetically complex and heterogeneous disorder. To date four genes have been established to either cause early-onset autosomal-dominant AD (APPPSEN1, and PSEN21–4) or to increase susceptibility for late-onset AD (APOE5). However, the heritability of late-onset AD is as high as 80%,6 and much of the phenotypic variance remains unexplained to date. We performed a genome-wide association (GWA) analysis using 484,522 single-nucleotide polymorphisms (SNPs) on a large (1,376 samples from 410 families) sample of AD families of self-reported European descent. We identified five SNPs showing either significant or marginally significant genome-wide association with a multivariate phenotype combining affection status and onset age. One of these signals (p = 5.7 × 10−14) was elicited by SNP rs4420638 and probably reflects APOE-ɛ4, which maps 11 kb proximal (r2 = 0.78). The other four signals were tested in three additional independent AD family samples composed of nearly 2700 individuals from almost 900 families. Two of these SNPs showed significant association in the replication samples (combined p values 0.007 and 0.00002). The SNP (rs11159647, on chromosome 14q31) with the strongest association signal also showed evidence of association with the same allele in GWA data generated in an independent sample of ∼1,400 AD cases and controls (p = 0.04). Although the precise identity of the underlying locus(i) remains elusive, our study provides compelling evidence for the existence of at least one previously undescribed AD gene that, like APOE-ɛ4, primarily acts as a modifier of onset age.
0
Citation470
0
Save
0

Variants in FAM13A are associated with chronic obstructive pulmonary disease

Michael Cho et al.Feb 21, 2010
+23
B
N
M
Michael Cho and colleagues report a genome-wide association study for chronic obstructive pulmonary disease, identifying a susceptibility locus at chromosome 4q22.1 in FAM13A. We performed a genome-wide association study for chronic obstructive pulmonary disease (COPD) in three population cohorts, including 2,940 cases and 1,380 controls who were current or former smokers with normal lung function. We identified a new susceptibility locus at 4q22.1 in FAM13A and replicated this association in one case-control group (n = 1,006) and two family-based cohorts (n = 3,808) (rs7671167, combined P = 1.2 × 10−11, combined odds ratio in case-control studies 0.76, 95% confidence interval 0.69–0.83).
0
Citation383
0
Save
0

Genome‐wide association scan of quantitative traits for attention deficit hyperactivity disorder identifies novel associations and confirms candidate gene associations

Jessica Lasky‐Su et al.Sep 26, 2008
+23
B
B
J
Abstract Attention deficit hyperactivity disorder (ADHD) is a complex condition with environmental and genetic etiologies. Up to this point, research has identified genetic associations with candidate genes from known biological pathways. In order to identify novel ADHD susceptibility genes, 600,000 SNPs were genotyped in 958 ADHD proband‐parent trios. After applying data cleaning procedures we examined 429,981 autosomal SNPs in 909 family trios. We generated six quantitative phenotypes from 18 ADHD symptoms to be used in genome‐wide association analyses. With the PBAT screening algorithm, we identified 2 SNPs, rs6565113 and rs552655 that met the criteria for significance within a specified phenotype. These SNPs are located in intronic regions of genes CDH13 and GFOD1, respectively. CDH13 has been implicated previously in substance use disorders. We also evaluated the association of SNPs from a list of 37 ADHD candidate genes that was specified a priori. These findings, along with association P ‐values with a magnitude less than 10 −5 , are discussed in this manuscript. Seventeen of these candidate genes had association P ‐values lower then 0.01: SLC6A1, SLC9A9, HES1, ADRB2, HTR1E, DDC, ADRA1A, DBH, DRD2, BDNF, TPH2, HTR2A, SLC6A2, PER1, CHRNA4, SNAP25, and COMT. Among the candidate genes, SLC9A9 had the strongest overall associations with 58 association test P ‐values lower than 0.01 and multiple association P ‐values at a magnitude of 10 −5 in this gene. In sum, these findings identify novel genetic associations at viable ADHD candidate genes and provide confirmatory evidence for associations at previous candidate genes. Replication of these results is necessary in order to confirm the proposed genetic variants for ADHD. © 2008 Wiley‐Liss, Inc.
0
Citation373
0
Save
0

Genomewide Association betweenGLCCI1and Response to Glucocorticoid Therapy in Asthma

Kelan Tantisira et al.Sep 26, 2011
+21
M
J
K
The response to treatment for asthma is characterized by wide interindividual variability, with a significant number of patients who have no response. We hypothesized that a genomewide association study would reveal novel pharmacogenetic determinants of the response to inhaled glucocorticoids.
0
Citation341
0
Save
0

MMP12,Lung Function, and COPD in High-Risk Populations

Gary Hunninghake et al.Dec 17, 2009
+23
Y
M
G
Genetic variants influencing lung function in children and adults may ultimately lead to the development of chronic obstructive pulmonary disease (COPD), particularly in high-risk groups.
0
Citation335
0
Save
1

Unsupervised cluster analysis of SARS-CoV-2 genomes indicates that recent (June 2020) cases in Beijing are from a genetic subgroup that consists of mostly European and South(east) Asian samples, of which the latter are the most recent

Georg Hahn et al.Jun 30, 2020
+2
S
M
G
Research efforts of the ongoing SARS-CoV-2 pandemic have focused on viral genome sequence analysis to understand how the virus spread across the globe. Here, we assess three recently identified SARS-CoV-2 genomes in Beijing from June 2020 and attempt to determine the origin of these genomes, made available in the GISAID database. The database contains fully or partially sequenced SARS-CoV-2 samples from laboratories around the world. Including the three new samples and excluding samples with missing annotations, we analyzed 7, 643 SARS-CoV-2 genomes. Using principal component analysis computed on a similarity matrix that compares all pairs of the SARS-CoV-2 nucleotide sequences at all loci simultaneously, using the Jaccard index, we find that the newly discovered virus genomes from Beijing are in a genetic cluster that consists mostly of cases from Europe and South(east) Asia. The sequences of the new cases are most related to virus genomes from a small number of cases from China (March 2020), cases from Europe (February to early May 2020), and cases from South(east) Asia (May to June 2020). These findings could suggest that the original cases of this genetic cluster originated from China in March 2020 and were re-introduced to China by transmissions from samples from South(east) Asia between April and June 2020.
1
Citation6
0
Save
1

Unsupervised cluster analysis of SARS-CoV-2 genomes reflects its geographic progression and identifies distinct genetic subgroups of SARS-CoV-2 virus

Georg Hahn et al.May 6, 2020
+2
S
S
G
Over 10,000 viral genome sequences of the SARS-CoV-2 virus have been made readily available during the ongoing coronavirus pandemic since the initial genome sequence of the virus was released on the open access Virological website ( http://virological.org/ ) early on January 11. We utilize the published data on the single stranded RNAs of 11, 132 SARS-CoV-2 patients in the GISAID (Elbe and Buckland-Merrett, 2017; Shu and McCauley, 2017) database, which contains fully or partially sequenced SARS-CoV-2 samples from laboratories around the world. Among many important research questions which are currently being investigated, one aspect pertains to the genetic characterization/classification of the virus. We analyze data on the nucleotide sequencing of the virus and geographic information of a subset of 7, 640 SARS-CoV-2 patients without missing entries that are available in the GISAID database. Instead of modelling the mutation rate, applying phylogenetic tree approaches, etc., we here utilize a model-free clustering approach that compares the viruses at a genome-wide level. We apply principal component analysis to a similarity matrix that compares all pairs of these SARS-CoV-2 nucleotide sequences at all loci simultaneously, using the Jaccard index (Jaccard, 1901; Tan et al., 2005; Prokopenko et al., 2016; Schlauch et al., 2017). Our analysis results of the SARS-CoV-2 genome data illustrates the geographic and chronological progression of the virus, starting from the first cases that were observed in China to the current wave of cases in Europe and North America. This is in line with a phylogenetic analysis which we use to contrast our results. We also observe that, based on their sequence data, the SARS-CoV-2 viruses cluster in distinct genetic subgroups. It is the subject of ongoing research to examine whether the genetic subgroup could be related to diseases outcome and its potential implications for vaccine development.
1
Citation6
0
Save
6

A framework to efficiently smooth L1 penalties for linear regression

Georg Hahn et al.Sep 19, 2020
C
N
S
G
Abstract Penalized linear regression approaches that include an L 1 term have become an important tool in statistical data analysis. One prominent example is the least absolute shrinkage and selection operator (Lasso), though the class of L 1 penalized regression operators also includes the fused and graphical Lasso, the elastic net, etc. Although the L 1 penalty makes their objective function convex, it is not differentiable everywhere, motivating the development of proximal gradient algorithms such as Fista, the current gold standard in the literature. In this work, we take a different approach based on smoothing in a fixed parameter setting (the problem size n and number of parameters p are fixed). The methodological contribution of our article is threefold: (1) We introduce a unified framework to compute closed-form smooth surrogates of a whole class of L 1 penalized regression problems using Nesterov smoothing. The surrogates preserve the convexity of the original (unsmoothed) objective functions, are uniformly close to them, and have closed-form derivatives everywhere for efficient minimization via gradient descent; (2) We prove that the estimates obtained with the smooth surrogates can be made arbitrarily close to the ones of the original (unsmoothed) objective functions, and provide explicitly computable a priori error bounds on the accuracy of our estimates; (3) We propose an iterative algorithm to progressively smooth the L 1 penalty which increases accuracy and is virtually free of tuning parameters. The proposed methodology is applicable to a large class of L 1 penalized regression operators, including all the operators mentioned above. Although the resulting estimates are typically dense, sparseness can be enforced again via thresholding. Using simulation studies, we compare our framework to current gold standards such as Fista, glmnet, gLasso, etc. Our results suggest that our proposed smoothing framework provides predictions of equal or higher accuracy than the gold standards while keeping the aforementioned theoretical guarantees and having roughly the same asymptotic runtime scaling.
6
Citation5
0
Save
0

Polygenic hazard score models for the prediction of Alzheimer’s free survival using the lasso for Cox’s proportional hazards model

Georg Hahn et al.Apr 22, 2024
+5
J
D
G
Abstract The prediction of the susceptibility of an individual to a certain disease is an important and timely research area. An established technique is to estimate the risk of an individual with the help of an integrated risk model, that is a polygenic risk score with added epidemiological covariates. However, integrated risk models do not capture any time dependence, and may provide a point estimate of the relative risk with respect to a reference population. The aim of this work is twofold. First, we explore and advocate the idea of predicting the time dependent hazard and survival (defined as disease free time) of an individual for the onset of a disease. This provides a practitioner with a much more differentiated view of the absolute survival as a function of time. Second, to compute the time dependent risk of an individual, we use published methodology to fit a Cox’s proportional hazard model to data from a genetic SNP study of time to Alzheimer’s disease (AD) onset, using the lasso to incorporate further epidemiological variables such as sex, APOE (apolipoprotein E, a genetic risk factor for AD) status, ten leading principal components, and selected genomic loci. We apply the lasso for Cox’s proportional hazards to a dataset of 6792 AD patients (composed of 4102 cases and 2690 controls) and 87 covariates. We demonstrate that fitting a lasso model for Cox’s proportional hazards allows one to obtain more accurate survival curves than with state-of-the-art (likelihood-based) methods. Moreover, the methodology allows one to obtain personalized survival curves for a patient, thus giving a much more differentiated view of the expected progression of a disease than the view offered by integrated risk models. The runtime to compute personalized survival curves is under a minute for the entire dataset of AD patients, thus enabling it to handle datasets with 60, 000 to 100, 000 subjects in less than one hour.
0
Paper
Citation1
0
Save
Load More