EL
Ernest Lam
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
8
(38% Open Access)
Cited by:
1,948
h-index:
23
/
i10-index:
31
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

Multi-platform discovery of haplotype-resolved structural variation in human genomes

Mark Chaisson et al.Apr 16, 2019
+94
D
A
M
The incomplete identification of structural variants (SVs) from whole-genome sequencing data limits studies of human genetic diversity and disease association. Here, we apply a suite of long-read, short-read, strand-specific sequencing technologies, optical mapping, and variant discovery algorithms to comprehensively analyze three trios to define the full spectrum of human genetic variation in a haplotype-resolved manner. We identify 818,054 indel variants (<50 bp) and 27,622 SVs (≥50 bp) per genome. We also discover 156 inversions per genome and 58 of the inversions intersect with the critical regions of recurrent microdeletion and microduplication syndromes. Taken together, our SV callsets represent a three to sevenfold increase in SV detection compared to most standard high-throughput sequencing studies, including those from the 1000 Genomes Project. The methods and the dataset presented serve as a gold standard for the scientific community allowing us to make recommendations for maximizing structural variation sensitivity for future genome sequencing studies.
1
Citation777
0
Save
0

Genome mapping on nanochannel arrays for structural variation analysis and sequence assembly

Ernest Lam et al.Jul 15, 2012
+8
C
A
E
Optical maps of a genome, which are generated by imaging labeled single molecules of DNA, facilitate structural variation analysis and sequence assembly. Lam et al. immobilize DNA molecules in nanoscale channels, increasing the accuracy and throughput of the mapping process. We describe genome mapping on nanochannel arrays. In this approach, specific sequence motifs in single DNA molecules are fluorescently labeled, and the DNA molecules are uniformly stretched in thousands of silicon channels on a nanofluidic device. Fluorescence imaging allows the construction of maps of the physical distances between occurrences of the sequence motifs. We demonstrate the analysis, individually and as mixtures, of 95 bacterial artificial chromosome (BAC) clones that cover the 4.7-Mb human major histocompatibility complex region. We obtain accurate, haplotype-resolved, sequence motif maps hundreds of kilobases in length, resulting in a median coverage of 114× for the BACs. The final sequence motif map assembly contains three contigs. With an average distance of 9 kb between labels, we detect 22 haplotype differences. We also use the sequence motif maps to provide scaffolds for de novo assembly of sequencing data. Nanochannel genome mapping should facilitate de novo assembly of sequencing reads from complex regions in diploid organisms, haplotype and structural variation analysis and comparative genomics.
0
Citation610
0
Save
0

Single-molecule sequencing and chromatin conformation capture enable de novo reference assembly of the domestic goat genome

Derek Bickhart et al.Mar 6, 2017
+27
S
B
D
The decrease in sequencing cost and increased sophistication of assembly algorithms for short-read platforms has resulted in a sharp increase in the number of species with genome assemblies. However, these assemblies are highly fragmented, with many gaps, ambiguities, and errors, impeding downstream applications. We demonstrate current state of the art for de novo assembly using the domestic goat (Capra hircus) based on long reads for contig formation, short reads for consensus validation, and scaffolding by optical and chromatin interaction mapping. These combined technologies produced what is, to our knowledge, the most continuous de novo mammalian assembly to date, with chromosome-length scaffolds and only 649 gaps. Our assembly represents a ∼400-fold improvement in continuity due to properly assembled gaps, compared to the previously published C. hircus assembly, and better resolves repetitive structures longer than 1 kb, representing the largest repeat family and immune gene complex yet produced for an individual of a ruminant species.
0
Citation561
0
Save
0

Tools and pipelines for BioNano data: molecule assembly pipeline and FASTA super scaffolding tool

Jennifer Shelton et al.Jun 15, 2015
+5
N
M
J
Background: Genome assembly remains an unsolved problem. Assembly projects face a range of hurdles that confound assembly. Thus a variety of tools and approaches are needed to improve draft genomes. Results: We used a custom assembly workflow to optimize consensus genome map assembly, resulting in an assembly equal to the estimated length of the Tribolium castaneum genome and with an N50 of more than 1 Mb. We used this map for super scaffolding the T. castaneum sequence assembly, more than tripling its N50 with the program Stitch. Conclusions: In this article we present software that leverages consensus genome maps assembled from extremely long single molecule maps to increase the contiguity of sequence assemblies. We report the results of applying these tools to validate and improve a 7x Sanger draft of the T. castaneum genome.
0

Rapid Automated Large Structural Variation Detection in a Diploid Genome by NanoChannel Based Next-Generation Mapping

Alex Hastie et al.Feb 1, 2017
+16
A
E
A
The human genome is diploid with one haploid genome inherited from the maternal and one from the paternal lineage. Within each haploid genome, large structural variants such as deletions, duplications, inversions, and translocations are extensively present and many are known to affect biological functions and cause disease. The ultimate goal is to resolve these large complex structural variants (SVs) and place them in the correct haploid genome with correct location, orientation, and copy number. Current methods such as karyotyping, chromosomal microarray (CMA), PCR-based tests, and next-generation sequencing fail to reach this goal either due to limited resolution, low throughput, or short read length. Bionano Genomics' next-generation mapping (NGM) offers a high-throughput, genome-wide method able to detect SVs of one kilobase pairs (kbp) and up. By imaging extremely long genomic molecules of up to megabases in size, the structure and copy number of complex regions of the genome including interspersed and long tandem repeats can be elucidated in their native form without inference. Here we tested Bionano's SV high sensitivity discovery algorithm, Bionano Solve 3.0, on in silico generated diploid genomes with artificially incorporated SVs based on the reference genome, hg19, achieving over 90% overall detection sensitivity for heterozygous SVs larger than 1 kbp. Next, in order to benchmark large SV detection sensitivity and accuracy on real biological data, we used Bionano NGM to map two naturally occurring hydatidiform mole cell lines, CHM1 and CHM13, each containing a different duplicated haploid genome. By de novo assembling each of two mole's genomes separately, followed by assembling a mixture of CHM1 and CHM13 data, we were able to measure heterozygous SV sensitivity by comparing SVs called in the mixture assembly against those called in the individual assemblies. We called 1999 unique SVs (> 1.5 kbp) in the pseudo-diploid assembly and established 87.4% sensitivity for detection of heterozygous SVs and 99.2% sensitivity for homozygous SVs. In comparison, a recent SV study on the same CHM1/CHM13 samples using long read NGS alone showed 54% sensitivity for detection of heterozygous SVs and 77.9% for homozygous SVs larger than 1.5 kbp. We also compared an SV call set of the diploid cell line NA12878 with the results of an earlier mapping study (Mak AC, 2016) and found concordance with 89% of the detected SVs found in the previous study and, in addition, 2599 novel SVs were detected. Finally, two pathogenic SVs were found in cell lines from individuals with developmental disorders. De novo comprehensive SV discovery by Bionano NGM is shown to be a fast, inexpensive, and robust method, now with an automated informatics workflow.
0

OMSV enables accurate and comprehensive identification of large structural variations from nanochannel-based single-molecule optical maps

Le Li et al.May 27, 2017
+19
T
K
L
Human genomes contain structural variations (SVs) that are associated with various phenotypic variations and diseases. SV detection by sequencing is incomplete due to limited read length. Nanochannel-based optical mapping (OM) allows direct observation of SVs up to hundreds of kilobases in size on individual DNA molecules, making it a promising alternative technology for identifying large SVs. SV detection from optical maps is non-trivial due to complex types of error present in OM data, and no existing methods can simultaneously handle all these complex errors and the wide spectrum of SV types. Here we present a novel method, OMSV, for accurate and comprehensive identification of SVs from optical maps. OMSV detects both homozygous and heterozygous SVs, SVs of various types and sizes, and SVs with and without creating/destroying restriction sites. In an extensive series of tests based on real and simulated data, OMSV achieved both high sensitivity and specificity, with clear performance gains over the latest existing method. Applying OMSV to a human cell line, we identified hundreds of SVs >2kbp, with 65% of them missed by sequencing-based callers. Independent experimental validations confirmed the high accuracy of these SVs. We also demonstrate how OMSV can incorporate sequencing data to determine precise SV break points and novel sequences in the SVs not contained in the reference. We provide OMSV as open-source software to facilitate systematic studies of large SVs.
0

Single-molecule sequencing and conformational capture enable de novo mammalian reference genomes

Derek Bickhart et al.Jul 18, 2016
+28
S
B
D
The decrease in sequencing cost and increased sophistication of assembly algorithms for short-read platforms has resulted in a sharp increase in the number of species with genome assemblies. However, these assemblies are highly fragmented, with many gaps, ambiguities, and errors, impeding downstream applications. We demonstrate current state of the art for de novo assembly using the domestic goat (Capra hircus), based on long reads for contig formation, short reads for consensus validation, and scaffolding by optical and chromatin interaction mapping. These combined technologies produced the most contiguous de novo mammalian assembly to date, with chromosome-length scaffolds and only 663 gaps. Our assembly represents a >250-fold improvement in contiguity compared to the previously published C. hircus assembly, and better resolves repetitive structures longer than 1 kb, supporting the most complete repeat family and immune gene complex representation ever produced for a ruminant species.
0

CRISPR-bind: a simple, custom CRISPR/dCas9-mediated labeling of genomic DNA for mapping in nanochannel arrays

Denghong Zhang et al.Jul 19, 2018
+5
J
K
D
Bionano genome mapping is a robust optical mapping technology used for de novo construction of whole genomes using ultra-long DNA molecules, able to efficiently interrogate genomic structural variation. It is also used for functional analysis such as epigenetic analysis and DNA replication mapping and kinetics. Genomic labeling for genome mapping is currently specified by a single strand nicking restriction enzyme followed by fluorophore incorporation by nick-translation (NLRS), or by a direct label and stain (DLS) chemistry which conjugates a fluorophore directly to an enzyme-defined recognition site. Although these methods are efficient and produce high quality whole genome mapping data, they are limited by the number of available enzymes - and thus the number of recognition sequences - to choose from. The ability to label other sequences can provide higher definition in the data and may be used for countless additional applications. Previously, custom labeling was accomplished via the nick-translation approach using CRISPR-Cas9, leveraging Cas9 mutant D10A which has one of its cleavage sites deactivated, thus effectively converting the CRISPR-Cas9 complex into a nickase with customizable target sequences. Here we have improved upon this approach by using dCas9, a nuclease-deficient double knockout Cas9 with no cutting activity, to directly label DNA with a fluorescent CRISPR-dCas9 complex (CRISPR-bind). Unlike labeling with CRISPR-Cas9 D10A nickase, in which nicking, labeling, and repair by ligation, all occur as separate steps, the new assay has the advantage of labeling DNA in one step, since the CRISPR-dCas9 complex itself is fluorescent and remains bound during imaging. CRISPR-bind can be added directly to a sample that has already been labeled using DLS or NLRS, thus overlaying additional information onto the same molecules. Using the dCas9 protein assembled with custom target crRNA and fluorescently labeled tracrRNA, we demonstrate rapid labeling of repetitive DUF1220 elements. We also combine NLRS-based whole genome mapping with CRISPR-bind labeling targeting Alu loci. This rapid, convenient, non-damaging, and cost-effective technology is a valuable tool for custom labeling of any CRISPR-Cas9 amenable target sequence.