IS
Ilya Shlyakhter
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
5
(60% Open Access)
Cited by:
4,144
h-index:
25
/
i10-index:
30
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

ALLPATHS: De novo assembly of whole-genome shotgun microreads

Jonathan Butler et al.Mar 13, 2008
New DNA sequencing technologies deliver data at dramatically lower costs but demand new analytical methods to take full advantage of the very short reads that they produce. We provide an initial, theoretical solution to the challenge of de novo assembly from whole-genome shotgun "microreads." For 11 genomes of sizes up to 39 Mb, we generated high-quality assemblies from 80x coverage by paired 30-base simulated reads modeled after real Illumina-Solexa reads. The bacterial genomes of Campylobacter jejuni and Escherichia coli assemble optimally, yielding single perfect contigs, and larger genomes yield assemblies that are highly connected and accurate. Assemblies are presented in a graph form that retains intrinsic ambiguities such as those arising from polymorphism, thereby providing information that has been absent from previous genome assemblies. For both C. jejuni and E. coli, this assembly graph is a single edge encompassing the entire genome. Larger genomes produce more complicated graphs, but the vast majority of the bases in their assemblies are present in long edges that are nearly always perfect. We describe a general method for genome assembly that can be applied to all types of DNA sequence data, not only short read data, but also conventional sequence reads.
0
Citation838
0
Save
0

Identifying Recent Adaptations in Large-Scale Genomic Data

Sharon Grossman et al.Feb 1, 2013
Although several hundred regions of the human genome harbor signals of positive natural selection, few of the relevant adaptive traits and variants have been elucidated. Using full-genome sequence variation from the 1000 Genomes (1000G) Project and the composite of multiple signals (CMS) test, we investigated 412 candidate signals and leveraged functional annotation, protein structure modeling, epigenetics, and association studies to identify and extensively annotate candidate causal variants. The resulting catalog provides a tractable list for experimental follow-up; it includes 35 high-scoring nonsynonymous variants, 59 variants associated with expression levels of a nearby coding gene or lincRNA, and numerous variants associated with susceptibility to infectious disease and other phenotypes. We experimentally characterized one candidate nonsynonymous variant in Toll-like receptor 5 (TLR5) and show that it leads to altered NF-κB signaling in response to bacterial flagellin.PaperFlickeyJraWQiOiI4ZjUxYWNhY2IzYjhiNjNlNzFlYmIzYWFmYTU5NmZmYyIsImFsZyI6IlJTMjU2In0.eyJzdWIiOiJlMjc3ZmNjYzQ0ODExODg0ZjE0ZmY4YjcwNjkwMWQ2NCIsImtpZCI6IjhmNTFhY2FjYjNiOGI2M2U3MWViYjNhYWZhNTk2ZmZjIiwiZXhwIjoxNjc4MTc0MDM1fQ.Z6m8VPnzVlxzODAEd4jWpARq4Y0XIKe3wDgGn3_Qa5ojNiW5Ns6ovLs9-TDY7f9xq7H2KgZl6GDhVJn633C-UhTzGLEFo7_f6lgDV7-LspfWgI7v8bTX8Phi5kTioXSbHU_7UdWwzaM3vELD3UtipDAXzF9tJvgA8T6sc8zN5b4csX-b8CBBCyojTeHW8JraSqOZEdwAHFPOz0taVia8oh-SCpeg9kfmUJRo88Wn84jjGqx49AZJxGBIgYJJ9AqN60jSms6eg3CLR8N2iiConGAQoWTcz2EeX8-q6Ro9bXkszcR6epyrcDp9LHqNaMJM1Us_0JT5AfogG4aHPIy4Lg(mp4, (67.08 MB) Download video
0
Citation374
0
Save
0

Cosi2 : An efficient simulator of exact and approximate coalescent with selection

Ilya Shlyakhter et al.May 14, 2014
Motivation: Efficient simulation of population genetic samples under a given demographic model is a prerequisite for many analyses. Coalescent theory provides an efficient framework for such simulations, but simulating longer regions and higher recombination rates remains challenging. Simulators based on a Markovian approximation to the coalescent scale well, but do not support simulation of selection. Gene conversion is not supported by any published coalescent simulators that support selection. Results: We describe cosi2 , an efficient simulator that supports both exact and approximate coalescent simulation with positive selection. cosi2 improves on the speed of existing exact simulators, and permits further speedup in approximate mode while retaining support for selection. cosi2 supports a wide range of demographic scenarios including recombination hot spots, gene conversion, population size changes, population structure and migration. cosi2 implements coalescent machinery efficiently by tracking only a small subset of the Ancestral Recombination Graph, sampling only relevant recombination events, and using augmented skip lists to represent tracked genetic segments. To preserve support for selection in approximate mode, the Markov approximation is implemented not by moving along the chromosome but by performing a standard backwards-in-time coalescent simulation while restricting coalescence to node pairs with overlapping or near-overlapping genetic material. We describe the algorithms used by cosi2 and present comparisons with existing selection simulators.