QL
Qiqi Liang
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
6
(83% Open Access)
Cited by:
256
h-index:
17
/
i10-index:
24
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

The genome sequence of Sea-Island cotton (Gossypium barbadense) provides insights into the allopolyploidization and development of superior spinnable fibres

Daojun Yuan et al.Dec 4, 2015
Abstract Gossypium hirsutum contributes the most production of cotton fibre, but G. barbadense is valued for its better comprehensive resistance and superior fibre properties. However, the allotetraploid genome of G. barbadense has not been comprehensively analysed. Here we present a high-quality assembly of the 2.57 gigabase genome of G. barbadense , including 80,876 protein-coding genes. The double-sized genome of the A (or At) (1.50 Gb) against D (or Dt) (853 Mb) primarily resulted from the expansion of Gypsy elements, including Peabody and Retrosat2 subclades in the Del clade and the Athila subclade in the Athila/Tat clade. Substantial gene expansion and contraction were observed and rich homoeologous gene pairs with biased expression patterns were identified, suggesting abundant gene sub-functionalization occurred by allopolyploidization. More specifically, the CesA gene family has adapted differentially temporal expression patterns, suggesting an integrated regulatory mechanism of CesA genes from At and Dt subgenomes for the primary and secondary cellulose biosynthesis of cotton fibre in a “relay race”-like fashion. We anticipate that the G. barbadense genome sequence will advance our understanding the mechanism of genome polyploidization and underpin genome-wide comparison research in this genus.
0
Citation251
0
Save
1

The First High-Quality Reference Genome of Sika Deer Provides Insights for High-Tannin Adaptation

Xiumei Xing et al.May 14, 2021
Abstract Sika deer are known to prefer oak leaves, which are rich in tannins and toxic to most mammals; however, the genetic mechanisms underlying their unique ability to adapt to living in the jungle are still unclear. In identifying the mechanism responsible for the tolerance of a highly toxic diet, we have made a major advancement in the elucidation of the genomics of sika deer. We generated the first high-quality, chromosome-level genome assembly of sika deer and measured the correlation between tannin intake and RNA expression in 15 tissues through 180 experiments. Comparative genome analyses showed that the UGT and CYP gene families are functionally involved in the adaptation of sika deer to high-tannin food, especially the expansion of UGT genes in a subfamily. The first chromosome-level assembly and genetic characterization of the tolerance toa highly toxic diet suggest that the sika deer genome will serve as an essential resource for understanding evolutionary events and tannin adaptation. Our study provides a paradigm of comparative expressive genomics that can be applied to the study of unique biological features in non-model animals.
1
Citation5
0
Save
0

Effects of a nurse-led motor function rehabilitation training program for patients with ischemic stroke and family caregivers: study protocol for a randomized controlled trial

Jiaqi Zheng et al.Aug 14, 2024
Both individuals and society bear a considerable burden from ischemic stroke (IS), not only do patients continue suffering from motor dysfunction after discharge from hospital, but their caregivers also undertake the principal responsibility of assisting them in reintegrating into the family and society. To better improve the IS patients' limb function and daily life activities, their caregivers should also be involved in the training of the motor function rehabilitation during the period transitioning from hospital back home. This study mainly aims to investigate the effects of a nurse-led training for IS patients and their family caregivers on the improvement of the patients' physical function and the burden of caregivers. A randomized controlled trial with blind assessment will be conducted in hospitals and during the follow-ups at home. Fifty-eight pairs of adults diagnosed with ischemic stroke and their primary caregivers will be included. Participants will be randomly given with (1) a nurse-led, home-based motor rehabilitation training participated by caregivers (intervention group) or (2) routine self-care (control group). Both groups will receive assessment and health guidance on the day of discharge, and the intervention group will receive an additional home-based training program and supervision. These two groups will be followed up every week after discharge. The primary results are drawn from the evaluation of physical function and caregiver-related burden, and the secondary results derived from statistics of the modified Barthel index, stroke-specific quality of life, and National Institutes of Health Stroke Scale. Differences between the two groups will be measured by two-way repeated measures ANOVA, considering the data at baseline and at 1-week and 4-week follow-up after training. Results may provide novel and valuable information on the effects of this culturally appropriate, caregiver-involved, and home-based rehabilitation training on the physical function of IS patients and caregiver-related burden. Chinese Clinical Trial Registry (chictr.org.cn) ChiCTR2300078798. Registered on December 19, 2023.
0

MFMGP: an integrated machine learning fusion model for genomic prediction

Chaopu Zhang et al.Jan 11, 2025
Genome-wide selection (GS) represents a contemporary methodology that harnesses a comprehensive array of molecular markers across the entire genome. However, challenges such as lack of informative molecular markers and selection of appropriate and efficient GS model(s) have confined most GS-based breeding efforts to the realm of laboratory simulations (Wang et al., 2023). Compared to the conventional prediction models, the machine learning (ML) algorithm provides new insights for solving challenges such as big data analysis and high-performance parallel computing. GS using ML also has some limitations at the current stage such as limitations in model selection. Here, the MFMGP software is a fusion model that is based on a variety of ML training methods. The normalization fusion method with exponential decay weights involves assigning weights to the prediction results of each model and applying the exponential decay to these weights, so that more recent and/or more relevant model predictions have higher weights. Then, a weighted average of the model's prediction results is calculated to obtain the final fusion prediction by normalizing these weights (Figure 1a). The software of MFMGP for interactive GS analyses was made available at website: http://www.biohuaxing.com/#/MFMGP. To verify the prediction accuracy of the MFMGP model, we compared MFMGP with seven commonly used GS models. These included the classical GS model (GBLUP), four ML-based models (LightGBM, SVR, XGBoost and HGBoost) and two DL-based (DNNGP and DeepCCR) models. In rice, we utilized a natural population, which consists of 3024 (3KRG) Asian cultivated rice accessions to construct the training population (Table S1). The GS accuracy of MFMGP was compared using the phenotype datasets of 2110 rice accessions for 13 yield-related and morphological traits with over 1.0 M SNPs (Figure 1b,c; Table S2). The results of the 10-fold cross-validation (CV) indicated that MFMGP exhibited the highest prediction accuracy for all 13 tested traits, with an average accuracy of 0.53, significantly (P < 0.01) higher than that of the GBLUP model (average value = 0.36). At the same time, the prediction accuracy of MFMGP also significantly higher compared to the average of four ML models (average value = 0.45) and two DL methods (average value = 0.34) (Tables S2 and S3). Comparatively, the prediction accuracy of MFMGP had an average improved advantage of 52.9% over GBLUP, 18.4% over other all ML models, 4.2% over the best model from the four integrated ML methods and 73.3% over the DL models. Additionally, MFMGP had the smallest root mean square error (RMSE) in all 13 traits, or an average 11.1% reduced RMSE over GBLUP, 5.8% reduced RMSE over ML and 24.3% reduced RMSE over DL (Tables S2 and S4). With the sample size of 2110, the computation time using CPU (Server Configuration: Intel®X®(R)CPU E7-8860 v3 @2.20GHZ), the MFMGP model spans a slightly longer duration than the four tested ML models, but significantly shorter than the GBLUP method and DL (using GPU) methods (Table S5). We then used six traits from the 2000 Iranian bread wheat dataset to compare the prediction accuracy of the eight models using 33 709 SNPs (Figure 1d; Table S2). Compared to other seven models, the average prediction accuracy of MFMGP for all six traits was 0.65 as compared with GBLUP (0.32), DeepCCR (0.59), DNNGP (0.57), HGBoost (0.63), LightGBM (0.63), SVR (0.28) and XGBoost (0.62). The prediction accuracy of MFMGP had an average improved advantage of 2.9% over the best model from the four integrated ML methods. Using 1 122 352 SNPs and four traits from 1245 cotton accessions, MFMGP showed the highest prediction accuracy and lowest RMSE values among all methods (Figure 1e; Table S2). On average, MFMGP had an improved prediction accuracy by 12.1% and reduced RMSE by 21.9% for the four traits, when compared to the other seven methods and improved prediction accuracy by 3.5% when compared to the four integrated ML methods. Using 32 599 markers and four traits of 6210 maize samples, MFMGP showed an average prediction accuracy of 0.85, again the highest among the eight methods used, except for DTT with a similar prediction accuracy to SVR (Figure 1f; Table S2). To explore the predictive ability of MFMGP in animals, we used the IMF content phenotype and 39 614 markers of 1490 pig samples for comparing the prediction of the eight methods (Figure 1g; Table S2). MFMGP performed best among all the methods with an average improved prediction accuracy of 24.5% over GBLUP, 57.6% over the ML models, 16.2% over the best model from the four integrated ML methods and 18.5% over the DL models. To investigate the impact of trait heritability, we compared the low heritability trait data of RBSSD (H2 = 0.38) with the high heritability traits, GL (H2 = 0.94) and GW (H2 = 0.94) using MFMGP. We utilized the RBSSD phenotypic data in 2017 as the training population (n = 1277) to predict their phenotypes under two independent environments, yielding the prediction accuracies of 0.36 in 2016 (n = 606) and 0.34 in 2019 (n = 676), respectively. However, when we used the GL and GW from 2017 to predict their phenotypic values in 2015 and 2016 (n = 760), the prediction accuracy of GL and GW reached very high average values of 0.91 and 0.92, respectively (Figure 1h). The four density plots all showed that the angles between the y = x and the fitted regression line were very small in the repeated experiments across different environments (Figure S1). To verify the influence of subspecific differences on GS accuracy, we randomly selected two subgroups with the same number accessions (n = 500) from Xian and Geng. We used MFMGP to analyse two representative traits (GW and HD), and found that the prediction accuracy of Geng was higher than that of Xian for GW, but the opposite was true for HD. Additionally, we used the Xian subgroup as the training population to predict the accuracy of the Geng subgroup, as well as used the Geng as the training population to test the prediction accuracy of the Xian. The results showed that the prediction accuracy of one subgroup for another was extremely low (Figure S2A). The same cautions should be taken when GS is to be applied to breeding for disease resistance. As Figure S2B clearly demonstrated, the highly virulent race (V) had a much higher prediction accuracy than the weak virulent races C4 and C5. To verify the impact of different population sizes on GS, we randomly selected nine accession numbers for GS. The GS analysis results showed that the prediction accuracy of the trait improved gradually with the increase of population sizes (Figure 1i). In summary, we developed a ML fusion model for predicting the phenotypes of breeding populations for complex traits using GS. Compared with other methods, MFMGP was proven to have the following advantages. (1) Improved prediction accuracy: MFMGP was able to integrate the strengths of many classical models and reduce the biases associated with single classical models. (2) Reduced overfitting: MFMGP was able to mitigate the problem of overfitting training data commonly encountered by other single models. (3) Enhanced generalization ability: MFMGP could better capture the complex patterns and diversity in the data. (4) Robustness to errors: MFMGP could effectively reduce prediction errors due to anomalies or specific circumstances by single models through synthesizing the predictions of multiple models. (5) Exploitation of model complementarity. Currently, most GS experiments focus on predicting performances of single traits of specific populations in specific environments, neglecting the fact that most plant and animal breeding programmes are aiming at improving multiple target traits across target environments (particularly plants). The most significant factors affecting predictive accuracy are heritability and sample size. As the key parameter of the genotype–phenotype association, the higher a trait's heritability is, the more accurate a GS model would be. Conversely, low heritability leads to lower model prediction accuracy. Insufficient sample size reduces representativeness of the training population due to increased sampling error, resulting in biased estimates of genetic parameters and reduced prediction accuracy. Thus, it is necessary to collect more phenotypes of training populations of appropriate sizes across multiple target environments such that trait genetic effects and their interactions with environments can be adequately estimated and integrated into the MFMGP model. As the plant and animal functional and population genomic research progress rapidly, the greatest challenge is how to integrate accurate functional information of many genes and allelic effects on target traits into the MFMGP model in GS applications in plant and animal breeding and eventually realizing breeding by design in future. This work was supported by the National Natural Science Foundation of China (U21A20214), Natural Science Foundation of Anhui Province (2308085QC91) and National Natural Science Foundation of China (32301783 and 32101768) (Innovation Program of the Chinese Academy of Agricultural Sciences (CAAS-CSIAF-202303); Nanfan special project, CAAS (YYLH2309, YBXM2322, YYLH2401)). The authors declare no conflicts of interest. Z.L. and S.J. designed the experiments. J.H., S.J., W.W., F.Z., E.L. and Y.S. provided the phenotype data and performed the statistical analysis. C.Z., Q.L., Y.Y., F.L., Z.X. and F.L. performed the bioinformatic analyses. C.Z., M.L. and Z.L. wrote the manuscript. The data that support the findings of this study are available on request from the corresponding author upon reasonable request. Table S1–S5 Supplementary Tables. Figure S1–S3 Supplementary Figures. Please note: The publisher is not responsible for the content or functionality of any supporting information supplied by the authors. Any queries (other than missing content) should be directed to the corresponding author for the article.
0

Chromosome-level genome assembly, annotation, and population genomic resource of argali (Ovis ammon)

Muyang Wang et al.Jan 11, 2025
Argali stands as the largest species among wild sheep in Central and East Asia, with a concerning rate of decline estimated at 30%. The intraspecific taxonomy of argali remains contentious due to limited genomic data and unclear geographic separation. In this study, we constructed a chromosome-level genome assembly and annotation for the Tibetan argali (O. a. hodgsoni), together with population genomic resequencing of 32 individuals representing four subspecies. The contig-level genome was 2.64 Gb in size, with a contig N50 length of 71.69 Mb and an estimated genomic completeness of 96.01%. Using Hi-C sequencing data scaffolding, 99.90% of initially assembled sequences were mapped and oriented onto 28 pseudo-chromosomes except the Y chromosome. Annotation uncovered 21,564 protein-coding genes and 46.38% repeat sequences. The average coverage of the population resequencing data was 23.74 with mean mapping ratio up to of 97.19%. The high-quality genome assembly and annotation of the Tibetan argali, coupled with the high-depth population genomic data, will serve as a valuable genetic resource for studies on the taxonomy and conservation of argali.