YY
Yuhang Yang
Author with expertise in Advances in Chemical Sensor Technologies
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
2
(50% Open Access)
Cited by:
1
h-index:
1
/
i10-index:
0
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Application of machine reading comprehension techniques for named entity recognition in materials science

Zihui Huang et al.Jul 2, 2024
Abstract Materials science is an interdisciplinary field that studies the properties, structures, and behaviors of different materials. A large amount of scientific literature contains rich knowledge in the field of materials science, but manually analyzing these papers to find material-related data is a daunting task. In information processing, named entity recognition (NER) plays a crucial role as it can automatically extract entities in the field of materials science, which have significant value in tasks such as building knowledge graphs. The typically used sequence labeling methods for traditional named entity recognition in material science (MatNER) tasks often fail to fully utilize the semantic information in the dataset and cannot effectively extract nested entities. Herein, we proposed to convert the sequence labeling task into a machine reading comprehension (MRC) task. MRC method effectively can solve the challenge of extracting multiple overlapping entities by transforming it into the form of answering multiple independent questions. Moreover, the MRC framework allows for a more comprehensive understanding of the contextual information and semantic relationships within materials science literature, by integrating prior knowledge from queries. State-of-the-art (SOTA) performance was achieved on the Matscholar, BC4CHEMD, NLMChem, SOFC, and SOFC-Slot datasets, with F1-scores of 89.64%, 94.30%, 85.89%, 85.95%, and 71.73%, respectively in MRC approach. By effectively utilizing semantic information and extracting nested entities, this approach holds great significance for knowledge extraction and data analysis in the field of materials science, and thus accelerating the development of material science. Scientific contribution We have developed an innovative NER method that enhances the efficiency and accuracy of automatic entity extraction in the field of materials science by transforming the sequence labeling task into a MRC task, this approach provides robust support for constructing knowledge graphs and other data analysis tasks.
0

Accelerating the discovery of type II photosensitizer: Experimentally validated machine learning models for predicting the singlet oxygen quantum yield of photosensitive molecule

Liqiang He et al.Feb 1, 2025
Photodynamic therapy (PDT) is an emerging cancer treatment that mainly relies on photosensitizer (PS) to generate singlet oxygen for tumor destruction. Developing PSs with high singlet oxygen quantum yields (SO-QYs) requires extensive experimentation, limiting their rapid screening. Herein, to streamline this process, this study introduces several machine learning (ML) models that accurately predicts SO-QY across various experimental conditions. The models' establishment is based on two feature matrices derived from Morgan fingerprints (MFPs) and descriptors (molecular descriptors and quantum chemical descriptors, MD_QCDs). Comparative and evaluative results indicate that the XGBoost model constructed with MFPs and the AdaBoost model constructed with MD_QCDs exhibit superior predictive performance, with R2 values of 0.8648 and 0.8460, respectively. Furthermore, by utilizing SHapley Additive exPlanations (SHAP) analysis and quantum chemistry, we analyzed that the iodine atoms and larger conjugated systems significantly influenced the SO-QY. Experimental validation, based on this analysis, demonstrates that our models not only possess excellent predictive capabilities but also exhibit strong interpretability. In summary, this work has established several interpretable models with outstanding predictive performance, which can aid in the more rapid screening of PSs, thus promoting their application in PDT.