JL
Jennifer Listgarten
Author with expertise in Clustered Regularly Interspaced Short Palindromic Repeats and CRISPR-associated proteins
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
12
(75% Open Access)
Cited by:
4,785
h-index:
33
/
i10-index:
54
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Optimized sgRNA design to maximize activity and minimize off-target effects of CRISPR-Cas9

John Doench et al.Jan 18, 2016
+10
M
N
J
Genome-wide sgRNA libraries based on rules for on-target activity improve results of Cas9-based screens and facilitate a further refinement of on- and off-target prediction algorithms. CRISPR-Cas9–based genetic screens are a powerful new tool in biology. By simply altering the sequence of the single-guide RNA (sgRNA), one can reprogram Cas9 to target different sites in the genome with relative ease, but the on-target activity and off-target effects of individual sgRNAs can vary widely. Here, we use recently devised sgRNA design rules to create human and mouse genome-wide libraries, perform positive and negative selection screens and observe that the use of these rules produced improved results. Additionally, we profile the off-target activity of thousands of sgRNAs and develop a metric to predict off-target sites. We incorporate these findings from large-scale, empirical data to improve our computational design rules and create optimized sgRNA libraries that maximize on-target activity and minimize off-target effects to enable more effective and efficient genetic screens and genome engineering.
0
Citation3,587
0
Save
0

FaST linear mixed models for genome-wide association studies

Christoph Lippert et al.Sep 4, 2011
+3
Y
J
C
0
Citation1,152
0
Save
37

Combining evolutionary and assay-labelled data for protein fitness prediction

Chloe Hsu et al.Mar 29, 2021
J
C
H
C
Abstract Predictive modelling of protein properties has become increasingly important to the field of machine-learning guided protein engineering. In one of the two existing approaches, evolutionarily-related sequences to a query protein drive the modelling process, without any property measurements from the laboratory. In the other, a set of protein variants of interest are assayed, and then a supervised regression model is estimated with the assay-labelled data. Although a handful of recent methods have shown promise in combining the evolutionary and supervised approaches, this hybrid problem has not been examined in depth, leaving it unclear how practitioners should proceed, and how method developers should build on existing work. Herein, we present a systematic assessment of methods for protein fitness prediction when evolutionary and assay-labelled data are available. We find that a simple baseline approach we introduce is competitive with and often outperforms more sophisticated methods. Moreover, our simple baseline is plug-and-play with a wide variety of established methods, and does not add any substantial computational burden. Our analysis highlights the importance of systematic evaluations and sufficient baselines.
37
Citation26
0
Save
18

Optimal trade-off control in machine learning-based library design, with application to adeno-associated virus (AAV) for gene therapy

Danqing Zhu et al.Nov 4, 2021
+11
D
K
D
Abstract Adeno-associated viruses (AAVs) hold tremendous promise as delivery vectors for clinical gene therapy, but they need improvement. AAVs with enhanced properties, such as more efficient and/or cell-type specific infection, can be engineered by creating a large, diverse starting library and screening for desired phenotypes, in some cases iteratively. Although this approach has succeeded in numerous specific cases, such as infecting cell types from the brain to the lung, the starting libraries often contain a high proportion of variants unable to assemble or package their genomes, a general prerequisite for engineering any gene delivery goal. Herein, we develop and showcase a machine learning (ML)-based method for systematically designing more effective starting libraries — ones that have broadly good packaging capabilities while being as diverse as possible. Such carefully designed but general libraries stand to significantly increase the chance of success in engineering any property of interest. Furthermore, we use this approach to design a clinically-relevant AAV peptide insertion library that achieves 5-fold higher packaging fitness than the state-of-the-art library, with negligible reduction in diversity. We demonstrate the general utility of this designed library on a downstream task to which our approach was agnostic: infection of primary human brain tissue. The ML-designed library had approximately 10-fold more successful variants than the current state-of-the-art library. Not only should our new library serve useful for any number of other engineering goals, but our library design approach itself can also be applied to other types of libraries for AAV and beyond.
18
Citation11
0
Save
0

Sparse Epistatic Regularization of Deep Neural Networks for Inferring Fitness Functions

Amirali Aghazadeh et al.Nov 25, 2020
+5
Y
D
A
Abstract Despite recent advances in high-throughput combinatorial mutagenesis assays, the number of labeled sequences available to predict molecular functions has remained small for the vastness of the sequence space combined with the ruggedness of many fitness functions. Expressive models in machine learning (ML), such as deep neural networks (DNNs), can model the nonlinearities in rugged fitness functions, which manifest as high-order epistatic interactions among the mutational sites. However, in the absence of an inductive bias, DNNs overfit to the small number of labeled sequences available for training. Herein, we exploit the recent biological evidence that epistatic interactions in many fitness functions are sparse; this knowledge can be used as an inductive bias to regularize DNNs. We have developed a method for sparse epistatic regularization of DNNs, called the epistatic net (EN), which constrains the number of non-zero coefficients in the spectral representation of DNNs. For larger sequences, where finding the spectral transform becomes computationally intractable, we have developed a scalable extension of EN, which subsamples the combinatorial sequence space uniformly inducing a sparse-graph-code structure, and regularizes DNNs using the resulting greedy optimization method. Results on several biological landscapes, from bacterial to protein fitness functions, show that EN consistently improves the prediction accuracy of DNNs and enables them to outperform competing models which assume other forms of inductive biases. EN estimates all the higher-order epistatic interactions of DNNs trained on massive sequence spaces—a computational problem that takes years to solve without leveraging the epistatic sparsity in the fitness functions.
0
Citation3
0
Save
30

Nanopore callers for epigenetics from limited supervised data

Brian Yao et al.Jun 17, 2021
+3
G
C
B
Abstract Nanopore sequencing platforms combined with supervised machine learning (ML) have been effective at detecting base modifications in DNA such as 5mC and 6mA. These ML-based nanopore callers have typically been trained on data that span all modifications on all possible DNA k -mer backgrounds—a complete training dataset. However, as nanopore technology is pushed to more and more epigenetic modifications, such complete training data will not be feasible to obtain. Nanopore calling has historically been performed with Hidden Markov Models (HMMs) that cannot make successful calls for k -mer contexts not seen during training because of their independent emission distributions. However, deep neural networks (DNNs), which share parameters across contexts, are increasingly being used as callers, often outperforming their HMM cousins. It stands to reason that a DNN approach should be able to better generalize to unseen k -mer contexts. Indeed, herein we demonstrate that a common DNN approach (DeepSignal) outperforms a common HMM approach (Nanopolish) in the incomplete data setting. Furthermore, we propose a novel hybrid HMM-DNN approach, Amortized-HMM, that outperforms both the pure HMM and DNN approaches on 5mC calling when the training data are incomplete. Such an approach is expected to be useful for calling 5hmC and combinations of cytosine modifications, where complete training data are not likely to be available.
30
Citation3
0
Save
32

Model-based differential sequencing analysis

Akosua Busia et al.Apr 1, 2023
J
A
Abstract Characterizing differences in biological sequences between two conditions using high-throughput sequencing data is a prevalent problem wherein we seek to (i) quantify how sequence abundances change between conditions, and (ii) build predictive models to estimate such differences for unobserved sequences. A key shortcoming of current approaches is their extremely limited ability to share information across related but non-identical reads. Consequently, they cannot make effective use of sequencing data, nor can they be directly applied in many settings of interest. We introduce model-based enrichment (MBE) to overcome this shortcoming. MBE is based on sound theoretical principles, is easy to implement, and can trivially make use of advances in modernday machine learning classification architectures or related innovations. We extensively evaluate MBE empirically, both in simulation and on real data. Overall, we find that our new approach improves accuracy compared to current ways of performing such differential analyses.
32
Citation1
0
Save
28

On the sparsity of fitness functions and implications for learning

David Brookes et al.May 25, 2021
J
A
D
Abstract Fitness functions map biological sequences to a scalar property of interest. Accurate estimation of these functions yields biological insight and sets the foundation for model-based sequence design. However, the amount of fitness data available to learn these functions is typically small relative to the large combinatorial space of sequences; characterizing how much data is needed for accurate estimation remains an open problem. There is a growing body of evidence demonstrating that empirical fitness functions display substantial sparsity when represented in terms of epistatic interactions. Moreover, the theory of Compressed Sensing provides scaling laws for the number of samples required to exactly recover a sparse function. Motivated by these results, we develop a framework to study the sparsity of fitness functions sampled from a generalization of the NK model, a widely-used random field model of fitness functions. In particular, we present results that allow us to test the effect of the Generalized NK (GNK) model’s interpretable parameters—sequence length, alphabet size, and assumed interactions between sequence positions—on the sparsity of fitness functions sampled from the model and, consequently, the number of measurements required to exactly recover these functions. We validate our framework by demonstrating that GNK models with parameters set according to structural considerations can be used to accurately approximate the number of samples required to recover two empirical protein fitness functions and an RNA fitness function. In addition, we show that these GNK models identify important higher-order epistatic interactions in the empirical fitness functions using only structural information.
28
Citation1
0
Save
0

Effective training of nanopore callers for epigenetic marks with limited labelled data

Brian Yao et al.Jun 1, 2024
+3
G
C
B
Nanopore sequencing platforms combined with supervised machine learning (ML) have been effective at detecting base modifications in DNA such as 5-methylcytosine (5mC) and N6-methyladenine (6mA). These ML-based nanopore callers have typically been trained on data that span all modifications on all possible DNA [Formula: see text]-mer backgrounds-a
0
Citation1
0
Save
0

In Silico Predictive Modeling of CRISPR/Cas9 guide efficiency

Nicoló Fusi et al.Jun 26, 2015
J
J
I
N
The CRISPR/Cas9 system provides unprecedented genome editing capabilities; however, several facets of this system are under investigation for further characterization and optimization, including the choice of guide RNA that directs Cas9 to target DNA. In particular, given that one would like to target the protein-coding region of a gene, hundreds of guides satisfy the basic constraints of the CRISPR/Cas9 Protospacer Adjacent Motif sequence (PAM); however, not all of these guides actually generate gene knockouts with equal efficiency. Leveraging a broad set of experimental measurements of guide knockout efficiency, we introduce a state-of-the art in silico modeling approach to identify guides that will lead to more effective gene knockout. We first investigated which guide and gene features are critical for prediction (e.g., single- and di-nucleotide identity of the gene target), which are helpful (e.g., thermodynamics), and which are predictive but redundant (e.g., microhomology). We also investigated evaluation measures for comparing predictive models in the present context, suggesting that Area Under the Receiver Operating Curve is not ideal. Finally, we explored a variety of different model classes and found that use of gradient-boosted regression trees produced the best predictive performance. Pointers to our open-source software, code, and prediction server will be available at http://research.microsoft.com/en-us/projects/azimuth.
Load More