MH
Michael Hunkapiller
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
22
(50% Open Access)
Cited by:
25,921
h-index:
53
/
i10-index:
88
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

The Sequence of the Human Genome

J. Venter et al.Feb 16, 2001
+97
E
M
J
A 2.91-billion base pair (bp) consensus sequence of the euchromatic portion of the human genome was generated by the whole-genome shotgun sequencing method. The 14.8-billion bp DNA sequence was generated over 9 months from 27,271,853 high-quality sequence reads (5.11-fold coverage of the genome) from both ends of plasmid clones made from the DNA of five individuals. Two assembly strategies—a whole-genome assembly and a regional chromosome assembly—were used, each combining sequence data from Celera and the publicly funded genome effort. The public data were shredded into 550-bp segments to create a 2.9-fold coverage of those genome regions that had been sequenced, without including biases inherent in the cloning and assembly procedure used by the publicly funded group. This brought the effective coverage in the assemblies to eightfold, reducing the number and size of gaps in the final assembly over what would be obtained with 5.11-fold coverage. The two assembly strategies yielded very similar results that largely agree with independent mapping data. The assemblies effectively cover the euchromatic regions of the human chromosomes. More than 90% of the genome is in scaffold assemblies of 100,000 bp or more, and 25% of the genome is in scaffolds of 10 million bp or larger. Analysis of the genome sequence revealed 26,588 protein-encoding transcripts for which there was strong corroborating evidence and an additional ∼12,000 computationally derived genes with mouse matches or other weak supporting evidence. Although gene-dense clusters are obvious, almost half the genes are dispersed in low G+C sequence separated by large tracts of apparently noncoding sequence. Only 1.1% of the genome is spanned by exons, whereas 24% is in introns, with 75% of the genome being intergenic DNA. Duplications of segmental blocks, ranging in size up to chromosomal lengths, are abundant throughout the genome and reveal a complex evolutionary history. Comparative genomic analysis indicates vertebrate expansions of genes associated with neuronal function, with tissue-specific developmental regulation, and with the hemostasis and immune systems. DNA sequence comparisons between the consensus sequence and publicly funded genome data provided locations of 2.1 million single-nucleotide polymorphisms (SNPs). A random pair of human haploid genomes differed at a rate of 1 bp per 1250 on average, but there was marked heterogeneity in the level of polymorphism across the genome. Less than 1% of all SNPs resulted in variation in proteins, but the task of determining which SNPs have functional consequences remains an open challenge.
0
195

The complete sequence of a human genome

Sergey Nurk et al.Mar 31, 2022
+99
E
T
S
Since its initial release in 2000, the human reference genome has covered only the euchromatic fraction of the genome, leaving important heterochromatic regions unfinished. Addressing the remaining 8% of the genome, the Telomere-to-Telomere (T2T) Consortium presents a complete 3.055 billion–base pair sequence of a human genome, T2T-CHM13, that includes gapless assemblies for all chromosomes except Y, corrects errors in the prior references, and introduces nearly 200 million base pairs of sequence containing 1956 gene predictions, 99 of which are predicted to be protein coding. The completed regions include all centromeric satellite arrays, recent segmental duplications, and the short arms of all five acrocentric chromosomes, unlocking these complex regions of the genome to variational and functional studies.
195
Citation1,746
3
Save
0

Simian Sarcoma Virus onc Gene, v- sis , Is Derived from the Gene (or Genes) Encoding a Platelet-Derived Growth Factor

Russell Doolittle et al.Jul 15, 1983
+4
L
M
R
The transforming protein of a primate sarcoma virus and a platelet-derived growth factor are derived from the same or closely related cellular genes. This conclusion is based on the demonstration of extensive sequence similarity between the transforming protein derived from the simian sarcoma virus onc gene, v-sis, and a human platelet-derived growth factor. The mechanism by which v-sis transforms cells could involve the constitutive expression of a protein with functions similar or identical to those of a factor active transiently during normal cell growth.
0
Citation1,550
0
Save
0

Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome

Aaron Wenger et al.Aug 12, 2019
+25
W
P
A
The DNA sequencing technologies in use today produce either highly accurate short reads or less-accurate long reads. We report the optimization of circular consensus sequencing (CCS) to improve the accuracy of single-molecule real-time (SMRT) sequencing (PacBio) and generate highly accurate (99.8%) long high-fidelity (HiFi) reads with an average length of 13.5 kilobases (kb). We applied our approach to sequence the well-characterized human HG002/NA24385 genome and obtained precision and recall rates of at least 99.91% for single-nucleotide variants (SNVs), 95.98% for insertions and deletions <50 bp (indels) and 95.99% for structural variants. Our CCS method matches or exceeds the ability of short-read sequencing to detect small variants and structural variants. We estimate that 2,434 discordances are correctable mistakes in the ‘genome in a bottle’ (GIAB) benchmark set. Nearly all (99.64%) variants can be phased into haplotypes, further improving variant detection. De novo genome assembly using CCS reads alone produced a contiguous and accurate genome with a contig N50 of >15 megabases (Mb) and concordance of 99.997%, substantially outperforming assembly with less-accurate long reads. High-fidelity reads improve variant detection and genome assembly on the PacBio platform.
0
Citation1,171
0
Save
0

Dynorphin-(1-13), an extraordinarily potent opioid peptide.

Alan Goldstein et al.Dec 1, 1979
+2
L
S
A
We describe the opioid properties of a tridecapeptide, the sequence of which corresponds to the NH2-terminal sequence of dynorphin, a novel porcine pituitary endorphin. It contains [Leu]enkephalin. In the guinea pig ileum longitudinal muscle preparation it is about 700 times more potent than [Leu]enkephalin. Its effects in this tissue are blocked completely by naloxone, but the apparent affinity of naloxone is 1/13th that for blockade of [Leu]enkephalin or normorphine. In the mouse vas deferens, this peptide is 3 times more potent than [Leu]enkephalin. Well-washed rat brain membranes degrade the peptide rapidly, suggesting the presence of a membrane-bound degradative enzyme. The peptide displays considerable immunoreactivity in assays with antisera that have been used for the immunohistochemical localization of [Leu]enkephalin. The remarkable enhancement of the potency of [Leu]enkephalin by the COOH-terminal extension -Arg-Arg-Ile-Arg-Pro-Lys-Leu-Lys-OH suggests new interpretations concerning the structure of opiate receptors and the function of the enkephalin pentapeptides.
0

Resolving the complexity of the human genome using single-molecule sequencing

Mark Chaisson et al.Nov 10, 2014
+12
M
J
M
Single-molecule, real-time DNA sequencing is used to analyse a haploid human genome (CHM1), thus closing or extending more than half of the remaining 164 euchromatic gaps in the human genome; the complete sequences of euchromatic structural variants (including inversions, complex insertions and tandem repeats) are resolved at the base-pair level, suggesting that a greater complexity of the human genome can now be accessed. The human genome is considered sequenced, yet more than 160 euchromatic gaps remain and many aspects of its structural variation are poorly understood. Evan Eichler and colleagues sequenced and analysed a haploid human genome (CHM1) using single-molecule, real-time (SMRT) DNA sequencing and by doing so closed — or in some cases extended — more than half of the remaining gaps. They also resolved the complete sequence of numerous euchromatic structural variants at the base-pair level, revealing inversions, complex insertions and long tracts of tandem repeats, some of them previously unknown. Thanks to the longer-read sequencing technology applied here, the complexity of the human genome that stems from variation of longer and more complex repetitive DNA can now be largely resolved. The human genome is arguably the most complete mammalian reference assembly1,2,3, yet more than 160 euchromatic gaps remain4,5,6 and aspects of its structural variation remain poorly understood ten years after its completion7,8,9. To identify missing sequence and genetic variation, here we sequence and analyse a haploid human genome (CHM1) using single-molecule, real-time DNA sequencing10. We close or extend 55% of the remaining interstitial gaps in the human GRCh37 reference genome—78% of which carried long runs of degenerate short tandem repeats, often several kilobases in length, embedded within (G+C)-rich genomic regions. We resolve the complete sequence of 26,079 euchromatic structural variants at the base-pair level, including inversions, complex insertions and long tracts of tandem repeats. Most have not been previously reported, with the greatest increases in sensitivity occurring for events less than 5 kilobases in size. Compared to the human reference, we find a significant insertional bias (3:1) in regions corresponding to complex insertions and long short tandem repeats. Our results suggest a greater complexity of the human genome in the form of variation of longer and more complex repetitive DNA that can now be largely resolved with the application of this longer-read sequencing technology.
0
Citation768
0
Save
0

Rat Transforming Growth Factor Type 1: Structure and Relation to Epidermal Growth Factor

Hans Marquardt et al.Mar 9, 1984
G
L
M
H
The complete amino acid sequence of rat transforming growth factor type 1 has been determined. This growth factor, obtained from retrovirus-transformed fibroblasts, is structurally and functionally related to mouse epidermal growth factor and human urogastrone. Production of this polypeptide by various neoplastic cells might contribute to the continued expression of the transformed phenotype.
0
Citation666
0
Save
0

Acetylcholine Receptor: Complex of Homologous Subunits

Michael Raftery et al.Jun 27, 1980
L
C
M
M
The acetylcholine receptor from the electric ray Torpedo californica is composed of five subunits; two are identical and the other three are structurally related to them. Microsequence analysis of the four polypeptides demonstrates amino acid homology among the subunits. Further sequence analysis of both membrane-bound and Triton-solubilized, chromatographically purified receptor gave the stoichiometry of the four subunits (40,000:50,000:60,000:65,000 daltons) as 2:1:1:1, indicating that this protein is a pentameric complex with a molecular weight of 255,000 daltons. Genealogical analysis suggests that divergence from a common ancestral gene occurred early in the evolution of the receptor. This shared ancestry argues that each of the four subunits plays a functional role in the receptor's physiological action.
Load More