GL
George Liu
Author with expertise in Genomic Selection in Plant and Animal Breeding
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
27
(81% Open Access)
Cited by:
6,004
h-index:
46
/
i10-index:
127
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

De novo assembly of the cattle reference genome with single-molecule sequencing

Benjamin Rosen et al.Mar 1, 2020
Abstract Background Major advances in selection progress for cattle have been made following the introduction of genomic tools over the past 10–12 years. These tools depend upon the Bos taurus reference genome (UMD3.1.1), which was created using now-outdated technologies and is hindered by a variety of deficiencies and inaccuracies. Results We present the new reference genome for cattle, ARS-UCD1.2, based on the same animal as the original to facilitate transfer and interpretation of results obtained from the earlier version, but applying a combination of modern technologies in a de novo assembly to increase continuity, accuracy, and completeness. The assembly includes 2.7 Gb and is &gt;250× more continuous than the original assembly, with contig N50 &gt;25 Mb and L50 of 32. We also greatly expanded supporting RNA-based data for annotation that identifies 30,396 total genes (21,039 protein coding). The new reference assembly is accessible in annotated form for public use. Conclusions We demonstrate that improved continuity of assembled sequence warrants the adoption of ARS-UCD1.2 as the new cattle reference genome and that increased assembly accuracy will benefit future research on this species.
0
Citation484
0
Save
0

Copy number variation of individual cattle genomes using next-generation sequencing

Derek Bickhart et al.Feb 2, 2012
Copy number variations (CNVs) affect a wide range of phenotypic traits; however, CNVs in or near segmental duplication regions are often intractable. Using a read depth approach based on next-generation sequencing, we examined genome-wide copy number differences among five taurine (three Angus, one Holstein, and one Hereford) and one indicine (Nelore) cattle. Within mapped chromosomal sequence, we identified 1265 CNV regions comprising ∼55.6-Mbp sequence—476 of which (∼38%) have not previously been reported. We validated this sequence-based CNV call set with array comparative genomic hybridization (aCGH), quantitative PCR (qPCR), and fluorescent in situ hybridization (FISH), achieving a validation rate of 82% and a false positive rate of 8%. We further estimated absolute copy numbers for genomic segments and annotated genes in each individual. Surveys of the top 25 most variable genes revealed that the Nelore individual had the lowest copy numbers in 13 cases (∼52%, χ 2 test; P -value <0.05). In contrast, genes related to pathogen- and parasite-resistance, such as CATHL4 and ULBP17 , were highly duplicated in the Nelore individual relative to the taurine cattle, while genes involved in lipid transport and metabolism, including APOL3 and FABP2 , were highly duplicated in the beef breeds. These CNV regions also harbor genes like BPIFA2A (BSP30A) and WC1 , suggesting that some CNVs may be associated with breed-specific differences in adaptation, health, and production traits. By providing the first individualized cattle CNV and segmental duplication maps and genome-wide gene copy number estimates, we enable future CNV studies into highly duplicated regions in the cattle genome.
0
Citation286
0
Save
0

Analysis of copy number variations among diverse cattle breeds

George Liu et al.Mar 8, 2010
Genomic structural variation is an important and abundant source of genetic and phenotypic variation. Here, we describe the first systematic and genome-wide analysis of copy number variations (CNVs) in modern domesticated cattle using array comparative genomic hybridization (array CGH), quantitative PCR (qPCR), and fluorescent in situ hybridization (FISH). The array CGH panel included 90 animals from 11 Bos taurus , three Bos indicus , and three composite breeds for beef, dairy, or dual purpose. We identified over 200 candidate CNV regions (CNVRs) in total and 177 within known chromosomes, which harbor or are adjacent to gains or losses. These 177 high-confidence CNVRs cover 28.1 megabases or ∼1.07% of the genome. Over 50% of the CNVRs (89/177) were found in multiple animals or breeds and analysis revealed breed-specific frequency differences and reflected aspects of the known ancestry of these cattle breeds. Selected CNVs were further validated by independent methods using qPCR and FISH. Approximately 67% of the CNVRs (119/177) completely or partially span cattle genes and 61% of the CNVRs (108/177) directly overlap with segmental duplications. The CNVRs span about 400 annotated cattle genes that are significantly enriched for specific biological functions, such as immunity, lactation, reproduction, and rumination. Multiple gene families, including ULBP , have gone through ruminant lineage-specific gene amplification. We detected and confirmed marked differences in their CNV frequencies across diverse breeds, indicating that some cattle CNVs are likely to arise independently in breeds and contribute to breed differences. Our results provide a valuable resource beyond microsatellites and single nucleotide polymorphisms to explore the full dimension of genetic variability for future cattle genomic research.
0
Citation278
0
Save
1

Robust computational design and evaluation of peptide vaccines for cellular immunity with application to SARS-CoV-2

Ge Liu et al.May 17, 2020
We present a combinatorial machine learning method to evaluate and optimize peptide vaccine formulations, and we find for SARS-CoV-2 that it provides superior predicted display of viral epitopes by MHC class I and MHC class II molecules over populations when compared to other candidate vaccines. Our method is robust to idiosyncratic errors in the prediction of MHC peptide display and considers target population HLA haplotype frequencies during optimization. To minimize clinical development time our methods validate vaccines with multiple peptide presentation algorithms to increase the probability that a vaccine will be effective. We optimize an objective function that is based on the presentation likelihood of a diverse set of vaccine peptides conditioned on a target population HLA haplotype distribution and expected epitope drift. We produce separate peptide formulations for MHC class I loci (HLA-A, HLA-B, and HLA-C) and class II loci (HLA-DP, HLA-DQ, and HLA-DR) to permit signal sequence based cell compartment targeting using nucleic acid based vaccine platforms. Our SARS-CoV-2 MHC class I vaccine formulations provide 93.21% predicted population coverage with at least five vaccine peptide-HLA hits on average in an individual (≥ 1 peptide 99.91%) with all vaccine peptides perfectly conserved across 4,690 geographically sampled SARS-CoV-2 genomes. Our MHC class II vaccine formulations provide 90.17% predicted coverage with at least five vaccine peptide-HLA hits on average in an individual with all peptides having observed mutation probability ≤ 0.001. We evaluate 29 previously published peptide vaccine designs with our evaluation tool with the requirement of having at least five vaccine peptide-HLA hits per individual, and they have a predicted maximum of 58.51% MHC class I coverage and 71.65% MHC class II coverage given haplotype based analysis. We provide an open source implementation of our design methods (OptiVax), vaccine evaluation tool (EvalVax), as well as the data used in our design efforts.
1
Citation7
0
Save
16

Genetic score omics regression and multi-trait meta-analysis detect widespread cis-regulatory effects shaping bovine complex traits

Ruidong Xiang et al.Jul 15, 2022
Abstract To complete the genome-to-phenome map, transcriptome-wide association studies (TWAS) are performed to correlate genetically predicted gene expression with observed phenotypic measurements. However, the relatively small training population assayed with gene expression could limit the accuracy of TWAS. We propose Genetic Score Omics Regression (GSOR) correlating observed gene expression with genetically predicted phenotype, i.e., genetic score. The score, calculated using variants near genes with assayed expression, provides a powerful association test between cis- effects on gene expression and the trait. In simulated and real data, GSOR outperforms TWAS in detecting causal/informative genes. Applying GSOR to transcriptomes of 16 tissue (N∼5000) and 37 traits in ∼120,000 cattle, multi-trait meta-analyses of omics-associations (MTAO) found that, on average, each significant gene expression and splicing mediates cis -genetic effects on 8∼10 traits. Supported by Mendelian Randomisation, MTAO prioritised genes/splicing show increased evolutionary constraints. Many newly discovered genes/splicing regions underlie previously thought single-gene loci to influence multiple traits.
16
Citation4
0
Save
Load More