HN
Huy Nguyen
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
9
(56% Open Access)
Cited by:
24,827
h-index:
22
/
i10-index:
25
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
3

Comprehensive molecular portraits of human breast tumours

Daniel Koboldt et al.Sep 21, 2012
We analysed primary breast cancers by genomic DNA copy number arrays, DNA methylation, exome sequencing, messenger RNA arrays, microRNA sequencing and reverse-phase protein arrays. Our ability to integrate information across platforms provided key insights into previously defined gene expression subtypes and demonstrated the existence of four main breast cancer classes when combining data from five platforms, each of which shows significant molecular heterogeneity. Somatic mutations in only three genes (TP53, PIK3CA and GATA3) occurred at >10% incidence across all breast cancers; however, there were numerous subtype-associated and novel gene mutations including the enrichment of specific mutations in GATA3, PIK3CA and MAP3K1 with the luminal A subtype. We identified two novel protein-expression-defined subgroups, possibly produced by stromal/microenvironmental elements, and integrated analyses identified specific signalling pathways dominant in each molecular subtype including a HER2/phosphorylated HER2/EGFR/phosphorylated EGFR signature within the HER2-enriched expression subtype. Comparison of basal-like breast tumours with high-grade serous ovarian tumours showed many molecular commonalities, indicating a related aetiology and similar therapeutic opportunities. The biological finding of the four main breast cancer subtypes caused by different subsets of genetic and epigenetic abnormalities raises the hypothesis that much of the clinically observable plasticity and heterogeneity occurs within, and not across, these major biological subtypes of breast cancer. The Cancer Genome Atlas Network describe their multifaceted analyses of primary breast cancers, shedding light on breast cancer heterogeneity; although only three genes (TP53, PIK3CA and GATA3) are mutated at a frequency greater than 10% across all breast cancers, numerous subtype-associated and novel mutations were identified. This Article from the Cancer Genome Atlas consortium describes a multifaceted analysis of primary breast cancers in 825 people. Exome sequencing, copy number variation, DNA methylation, messenger RNA arrays, microRNA sequencing and proteomic analyses were performed and integrated to shed light on breast-cancer heterogeneity. Just three genes — TP53, PIK3CA and GATA3 — are mutated at greater than 10% frequency across all breast cancers. Many subtype-associated and novel mutations were identified, as well as two breast-cancer subgroups with specific signalling-pathway signatures. The analyses also suggest that much of the clinically observable plasticity and heterogeneity occurs within, and not across, the major subtypes of breast cancer.
3
0

A second generation human haplotype map of over 3.1 million SNPs

Kelly Frazer et al.Oct 1, 2007
We describe the Phase II HapMap, which characterizes over 3.1 million human single nucleotide polymorphisms (SNPs) genotyped in 270 individuals from four geographically diverse populations and includes 25–35% of common SNP variation in the populations surveyed. The map is estimated to capture untyped common variation with an average maximum r2 of between 0.9 and 0.96 depending on population. We demonstrate that the current generation of commercial genome-wide genotyping products captures common Phase II SNPs with an average maximum r2 of up to 0.8 in African and up to 0.95 in non-African populations, and that potential gains in power in association studies can be obtained through imputation. These data also reveal novel aspects of the structure of linkage disequilibrium. We show that 10–30% of pairs of individuals within a population share at least one region of extended genetic identity arising from recent ancestry and that up to 1% of all common variants are untaggable, primarily because they lie within recombination hotspots. We show that recombination rates vary systematically around genes and between genes of different function. Finally, we demonstrate increased differentiation at non-synonymous, compared to synonymous, SNPs, resulting from systematic differences in the strength or efficacy of natural selection between populations. The International HapMap Consortium has produced a second-generation version of its remarkable haplotype map of the human genome. The Phase II HapMap charts human genetic variation even more extensively than the original, tripling of the number of genetic markers included. The original HapMap was instrumental in making large-scale genome-wide association studies possible. An indication of how this type of work will be extended with 'HapMap2' is presented in this issue: Sabeti et al. build on previous work detecting signs of positive natural selection on human genes. With many more markers now available, they have discovered three examples of apparent population-specific selection based on geographic area — involving gene pairs linked to Lassa virus in West Africa, skin pigmentation in Europe and hair follicle development in Asia — and they speculate on how these may relate to human biology. A consortium reports the tripling of the number of genetic markers in Phase II of the International HapMap Project. This map of human genetic variation will continue to revolutionize discovery of susceptibility loci in common genetic diseases, and study of genes under selection in humans.
0
Citation4,405
0
Save
0

Integrating common and rare genetic variation in diverse human populations

Fumihiko Takeuchi et al.Aug 31, 2010
Despite great progress in identifying genetic variants that influence human disease, most inherited risk remains unexplained. A more complete understanding requires genome-wide studies that fully examine less common alleles in populations with a wide range of ancestry. To inform the design and interpretation of such studies, we genotyped 1.6 million common single nucleotide polymorphisms (SNPs) in 1,184 reference individuals from 11 global populations, and sequenced ten 100-kilobase regions in 692 of these individuals. This integrated data set of common and rare alleles, called ‘HapMap 3’, includes both SNPs and copy number polymorphisms (CNPs). We characterized population-specific differences among low-frequency variants, measured the improvement in imputation accuracy afforded by the larger reference panel, especially in imputing SNPs with a minor allele frequency of ≤5%, and demonstrated the feasibility of imputing newly discovered CNPs and SNPs. This expanded public resource of genome variants in global populations supports deeper interrogation of genomic variation and its role in human disease, and serves as a step towards a high-resolution map of the landscape of human genetic variation. The International HapMap Consortium, established to develop a haplotype map of the human genome describing the common patterns of DNA sequence variation, has now reached its third incarnation. HapMap1, published in 2005 (go.nature.com/gJisDm), contained more than a million SNP (single nucleotide polymorphism) genotypes generated in 269 individuals from four geographically diverse populations. Two years later, HapMap2 (go.nature.com/WttNWX) added more than 2.1 million SNPs to the original map in the same 269 individuals. With the aim of providing a resource for the latest wave of genome-wide studies focused on disease linkages, HapMap3 casts the net wider. About 1.6 million common SNPs were genotyped in 1,184 individuals from 11 global populations, and ten 100-kilobase regions were sequenced in 692 of these individuals. Here, the analysis of 'HapMap 3' is reported — a public data set of genomic variants in human populations. The resource integrates common and rare single nucleotide polymorphisms (SNPs) and copy number polymorphisms (CNPs) from 11 global populations, providing insights into population-specific differences among variants. It also demonstrates the feasibility of imputing newly discovered rare SNPs and CNPs.
0
Citation2,898
0
Save
1

The CAFA challenge reports improved protein function prediction and new functional annotations for hundreds of genes through experimental screens

Naihui Zhou et al.Nov 19, 2019
Abstract Background The Critical Assessment of Functional Annotation (CAFA) is an ongoing, global, community-driven effort to evaluate and improve the computational annotation of protein function. Results Here, we report on the results of the third CAFA challenge, CAFA3, that featured an expanded analysis over the previous CAFA rounds, both in terms of volume of data analyzed and the types of analysis performed. In a novel and major new development, computational predictions and assessment goals drove some of the experimental assays, resulting in new functional annotations for more than 1000 genes. Specifically, we performed experimental whole-genome mutation screening in Candida albicans and Pseudomonas aureginosa genomes, which provided us with genome-wide experimental data for genes associated with biofilm formation and motility. We further performed targeted assays on selected genes in Drosophila melanogaster , which we suspected of being involved in long-term memory. Conclusion We conclude that while predictions of the molecular function and biological process annotations have slightly improved over time, those of the cellular component have not. Term-centric prediction of experimental annotations remains equally challenging; although the performance of the top methods is significantly better than the expectations set by baseline methods in C. albicans and D. melanogaster , it leaves considerable room and need for improvement. Finally, we report that the CAFA community now involves a broad range of participants with expertise in bioinformatics, biological experimentation, biocuration, and bio-ontologies, working together to improve functional annotation, computational function prediction, and our ability to manage big data in the era of large experimental screens.
1
Citation346
0
Save
0

The CAFA challenge reports improved protein function prediction and new functional annotations for hundreds of genes through experimental screens

Naihui Zhou et al.May 29, 2019
The Critical Assessment of Functional Annotation (CAFA) is an ongoing, global, community-driven effort to evaluate and improve the computational annotation of protein function. Here we report on the results of the third CAFA challenge, CAFA3, that featured an expanded analysis over the previous CAFA rounds, both in terms of volume of data analyzed and the types of analysis performed. In a novel and major new development, computational predictions and assessment goals drove some of the experimental assays, resulting in new functional annotations for more than 1000 genes. Specifically, we performed experimental whole-genome mutation screening in Candida albicans and Pseudomonas aureginosa genomes, which provided us with genome-wide experimental data for genes associated with biofilm formation and motility P. aureginosa only). We further performed targeted assays on selected genes in Drosophila melanogaster, which we suspected of being involved in long-term memory. We conclude that, while predictions of the molecular function and biological process annotations have slightly improved over time, those of the cellular component have not. Term-centric prediction of experimental annotations remains equally challenging; although the performance of the top methods is significantly better than expectations set by baseline methods in C. albicans and D. melanogaster, it leaves considerable room and need for improvement. We finally report that the CAFA community now involves a broad range of participants with expertise in bioinformatics, biological experimentation, biocuration, and bio-ontologies, working together to improve functional annotation, computational function
0

Tracing the Ancestry of Operons in Bacteria

Huy Nguyen et al.Nov 1, 2017
Complexity is a fundamental attribute of life. Complex systems are made of parts that together perform functions that a single component, or subsets containing individual components, cannot. Examples of complex molecular systems include protein structures such as the F1Fo-ATPase, the ribosome, or the flagellar motor: each one of these structures requires most or all of its components to function properly. Given the ubiquity of complex systems in the biosphere, understanding the evolution of complexity is central to biology. At the molecular level, operons are a classic example of a complex system. An operon's genes are co-transcribed under the control of a single promoter to a polycistronic mRNA molecule, and the operon's gene products often form molecular complexes or metabolic pathways. With the large number of complete bacterial genomes available, we now have the opportunity to explore the evolution of these complex entities, by identifying possible intermediate states of operons. In this work, we developed a maximum parsimony algorithm to reconstruct ancestral operon states, and show a simple vertical evolution model of how operons may evolve from the individual component genes. We describe several ancestral states that are plausible functional intermediate forms leading to the full operon. We also offer Reconstruction of Ancestral Gene blocks Using Events or ROAGUE as a software tool for those interested in exploring gene block and operon evolution.
0

Unraveling a tangled skein: Evolutionary analysis of the bacterial gibberellin biosynthetic operon

Ryan Nett et al.Dec 8, 2019
Gibberellin (GA) phytohormones are ubiquitous regulators of growth and developmental processes in vascular plants. The convergent evolution of GA production by plant-associated bacteria, including both symbiotic, nitrogen-fixing rhizobia and phytopathogens, suggests that manipulation of GA signaling is a powerful mechanism for microbes to gain an advantage in these interactions. Although homologous operons encode GA biosynthetic enzymes in both rhizobia and phytopathogens, notable genetic heterogeneity and scattered operon distribution in these lineages suggests distinct functions for GA in varied plant-microbe interactions. Therefore, deciphering GA operon evolutionary history could provide crucial evidence for understanding the distinct biological roles for bacterial GA production. To further establish the genetic composition of the GA operon, two operon-associated genes that exhibit limited distribution among rhizobia were biochemically characterized, verifying their roles in GA biosynthesis. Additionally, a maximum-parsimony ancestral gene block reconstruction algorithm was employed to characterize loss, gain, and horizontal gene transfer (HGT) of GA operon genes within alphaproteobacteria rhizobia, which exhibit the most heterogeneity among GA operon-containing bacteria. Collectively, this evolutionary analysis reveals a complex history for HGT of both individual genes and the entire GA operon, and ultimately provides a basis for linking genetic content to bacterial GA functions in diverse plant-microbe interactions.