WQ
Weihong Qi
Author with expertise in Cyanogenic Glycosides in Plants and Industrial Wastewaters
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
15
(80% Open Access)
Cited by:
1,968
h-index:
38
/
i10-index:
69
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Variation in virulence among clades of Escherichia coli O157:H7 associated with disease outbreaks

Shannon Manning et al.Mar 11, 2008
Escherichia coli O157:H7, a toxin-producing food and waterborne bacterial pathogen, has been linked to large outbreaks of gastrointestinal illness for more than two decades. E. coli O157 causes a wide range of clinical illness that varies by outbreak, although factors that contribute to variation in disease severity are poorly understood. Several recent outbreaks involving O157 contamination of fresh produce (e.g., spinach) were associated with more severe disease, as defined by higher hemolytic uremic syndrome and hospitalization frequencies, suggesting that increased virulence has evolved. To test this hypothesis, we developed a system that detects SNPs in 96 loci and applied it to >500 E. coli O157 clinical strains. Phylogenetic analyses identified 39 SNP genotypes that differ at 20% of SNP loci and are separated into nine distinct clades. Differences were observed between clades in the frequency and distribution of Shiga toxin genes and in the type of clinical disease reported. Patients with hemolytic uremic syndrome were significantly more likely to be infected with clade 8 strains, which have increased in frequency over the past 5 years. Genome sequencing of a spinach outbreak strain, a member of clade 8, also revealed substantial genomic differences. These findings suggest that an emergent subpopulation of the clade 8 lineage has acquired critical factors that contribute to more severe disease. The ability to detect and rapidly genotype O157 strains belonging to such lineages is important and will have a significant impact on both disease diagnosis and treatment guidelines.
0
Citation437
0
Save
0

Global Phylogeny ofMycobacterium tuberculosisBased on Single Nucleotide Polymorphism (SNP) Analysis: Insights into Tuberculosis Evolution, Phylogenetic Accuracy of Other DNA Fingerprinting Systems, and Recommendations for a Minimal Standard SNP Set

Ingrid Filliol et al.Dec 29, 2005
ABSTRACT We analyzed a global collection of Mycobacterium tuberculosis strains using 212 single nucleotide polymorphism (SNP) markers. SNP nucleotide diversity was high (average across all SNPs, 0.19), and 96% of the SNP locus pairs were in complete linkage disequilibrium. Cluster analyses identified six deeply branching, phylogenetically distinct SNP cluster groups (SCGs) and five subgroups. The SCGs were strongly associated with the geographical origin of the M. tuberculosis samples and the birthplace of the human hosts. The most ancestral cluster (SCG-1) predominated in patients from the Indian subcontinent, while SCG-1 and another ancestral cluster (SCG-2) predominated in patients from East Asia, suggesting that M. tuberculosis first arose in the Indian subcontinent and spread worldwide through East Asia. Restricted SCG diversity and the prevalence of less ancestral SCGs in indigenous populations in Uganda and Mexico suggested a more recent introduction of M. tuberculosis into these regions. The East African Indian and Beijing spoligotypes were concordant with SCG-1 and SCG-2, respectively; X and Central Asian spoligotypes were also associated with one SCG or subgroup combination. Other clades had less consistent associations with SCGs. Mycobacterial interspersed repetitive unit (MIRU) analysis provided less robust phylogenetic information, and only 6 of the 12 MIRU microsatellite loci were highly differentiated between SCGs as measured by G ST . Finally, an algorithm was devised to identify two minimal sets of either 45 or 6 SNPs that could be used in future investigations to enable global collaborations for studies on evolution, strain differentiation, and biological differences of M. tuberculosis .
0
Citation427
0
Save
0

Excitements and concerns in the post-ChatGPT era: Deciphering public perception of AI through social media analysis

Weihong Qi et al.Jun 17, 2024
As AI systems become increasingly prevalent in various aspects of daily life, gaining a comprehensive understanding of public perception towards these AI systems has become increasingly essential for several reasons such as ethical considerations, user experience, fear, disinformation, regulation, collaboration, and co-creation. In this study, we investigate how mass social media users perceive the recent rise of AI frameworks such as ChatGPT. We collect a total of 33,912 comments in 388 unique subreddits spanning from November 30, 2022 to June 8, 2023 using a list of AI-related keywords. We employ a combination of thematic and sentiment analysis, using advanced natural language processing techniques. Specifically, we use BERTopic to uncover the major themes regarding AI on Reddit. Our findings indicate that technology-focused subreddits primarily discuss the technical dimensions of AI, while non-technical subreddits more often address societal impacts, such as job displacement concerns. The disparity in focus between subreddits suggests a gap in the public understanding of AI. We leverage GPT-3.5 with zero-shot prompting and LIWC to analyze the sentiment and perception of AI among individual users. Through a comprehensive sentiment and emotion analysis, we discover that tech-centric communities exhibit greater polarization compared to non-tech communities when discussing AI topics. This suggests that individuals with a deeper understanding or familiarity with AI technologies might have more divided opinions, possibly reflecting a mix of optimism about technological advancements and skepticism about potential impacts. This research contributes to our broader understanding of public opinion surrounding artificial intelligence.
7

Haplotype resolved DNA methylome of African cassava genome

Zhenhui Zhong et al.Sep 15, 2022
Cytosine DNA methylation is involved in biological processes such as transposable element (TE) silencing, imprinting, and X chromosome inactivation. Plant methylation is mediated by MET1 (mammalian DNMT1), DRM2 (mammalian DNMT3), and two plant-specific DNA methyltransferases, CMT2 and CMT3 (Law and Jacobsen, 2010). De novo DNA methylation in plants is established by DRM2 via the plant specific RNA-directed DNA methylation (RdDM) pathway that depends on two DNA-dependent RNA polymerases, Pol IV and Pol V (Gallego-Bartolome et al ., 2019; Law and Jacobsen, 2010; Stroud et al ., 2013). The DNA methylome of cassava has been previously documented based on its haploid collapsed genome (Wang et al ., 2015). Since the cassava genome is highly heterozygous, DNA methylome analysis of the haplotype-collapsed genome misses many features of the methylome. With the development of long read sequencing and chromosomal conformation capture techniques, haplotype resolved genomes are available for highly heterozygous genomes (Mansfeld et al ., 2021; Qi et al ., 2022; Zhou et al ., 2020), which provides high-quality reference genomes facilitating studies of haplotype resolved DNA methylomes.
1

AlcoR: alignment-free simulation, mapping, and visualization of low-complexity regions in biological data

Jorge Silva et al.Apr 18, 2023
Abstract Low-complexity data analysis is the area that addresses the search and quantification of regions in sequences of elements that contain low-complexity or repetitive elements. For example, these can be tandem repeats, inverted repeats, homopolymer tails, GC biased regions, similar genes, and hairpins, among many others. Identifying these regions is crucial because of their association with regulatory and structural characteristics. Moreover, their identification provides positional and quantity information where standard assembly methodologies face significant difficulties because of substantial higher depth coverage (mountains), ambiguous read mapping, or where sequencing or reconstruction defects may occur. However, the capability to distinguish low-complexity regions (LCRs) in genomic and proteomic sequences is a challenge that depends on the model’s ability to find them automatically. Low-complexity patterns can be implicit through specific or combined sources, such as algorithmic or probabilistic, and recurring to different spatial distances, namely local, medium, or distant associations.This paper addresses the challenge of automatically modeling and distinguishing LCRs, providing a new method and tool (AlcoR) for efficient and accurate segmentation and visualization of these regions in genomic and proteomic sequences. The method enables the use of models with different memories, providing the ability to distinguish local from distant low-complexity patterns. The method is reference- and alignment-free, providing additional methodologies for testing, including a highly-flexible simulation method for generating biological sequences (DNA or protein) with different complexity levels, sequence masking, and a visualization tool for automatic computation of the LCR maps into an ideogram style. We provide illustrative demonstrations using synthetic, nearly synthetic, and natural sequences showing the high efficiency and accuracy of AlcoR. As large-scale results, we use AlcoR to unprecedentedly provide a whole-chromosome low-complexity map of a recent complete human genome and the haplotype-resolved chromosome pairs of a heterozygous diploid African cassava cultivar.The AlcoR method provides the ability of fast sequence characterization through data complexity analysis, ideally for scenarios entangling the presence of new or unknown sequences. AlcoR is implemented in C language using multi-threading to increase the computational speed, is flexible for multiple applications, and does not contain external dependencies. The tool accepts any sequence in FASTA format. The source code is freely provided at https://github.com/cobilab/alcor .
3

The haplotype-resolved chromosome pairs and transcriptome of a heterozygous diploid African cassava cultivar

Weihong Qi et al.Nov 19, 2021
Abstract Background Cassava ( Manihot esculenta ) is an important clonally propagated food crop in tropical and sub-tropical regions worldwide. Genetic gain by molecular breeding is limited because cassava has a highly heterozygous, repetitive and difficult to assemble genome. Findings Here we demonstrate that Pacific Biosciences high-fidelity (HiFi) sequencing reads, in combination with the assembler hifiasm, produced genome assemblies at near complete haplotype resolution with higher continuity and accuracy compared to conventional long sequencing reads. We present two chromosome scale haploid genomes phased with Hi-C technology for the diploid African cassava variety TME204. Genome comparisons revealed extensive chromosome re-arrangements and abundant intra-genomic and inter-genomic divergent sequences despite high gene synteny, with most large structural variations being LTR-retrotransposon related. Allele-specific expression analysis of different tissues based on the haplotype-resolved transcriptome identified both stable and inconsistent alleles with imbalanced expression patterns, while most alleles expressed coordinately. Among tissue-specific differentially expressed transcripts, coordinately and biasedly regulated transcripts were functionally enriched for different biological processes. We use the reference-quality assemblies to build a cassava pan-genome and demonstrate its importance in representing the genetic diversity of cassava for downstream reference-guided omics analysis and breeding. Conclusions The haplotype-resolved genome allows the first systematic view of the heterozygous diploid genome organization in cassava. The completely phased and annotated chromosome pairs will be a valuable resource for cassava breeding and research. Our study may also provide insights into developing cost-effective and efficient strategies for resolving complex genomes with high resolution, accuracy and continuity.
Load More