A new version of ResearchHub is available.Try it now
GL
G. Lambard
Author with expertise in Computational Methods in Drug Discovery
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
3
(100% Open Access)
Cited by:
353
h-index:
21
/
i10-index:
33
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Machine-learning-assisted discovery of polymers with high thermal conductivity using a molecular design algorithm

S. Wu et al.Jun 21, 2019
Abstract The use of machine learning in computational molecular design has great potential to accelerate the discovery of innovative materials. However, its practical benefits still remain unproven in real-world applications, particularly in polymer science. We demonstrate the successful discovery of new polymers with high thermal conductivity, inspired by machine-learning-assisted polymer chemistry. This discovery was made by the interplay between machine intelligence trained on a substantially limited amount of polymeric properties data, expertise from laboratory synthesis and advanced technologies for thermophysical property measurements. Using a molecular design algorithm trained to recognize quantitative structure—property relationships with respect to thermal conductivity and other targeted polymeric properties, we identified thousands of promising hypothetical polymers. From these candidates, three were selected for monomer synthesis and polymerization because of their synthetic accessibility and their potential for ease of processing in further applications. The synthesized polymers reached thermal conductivities of 0.18–0.41 W/mK, which are comparable to those of state-of-the-art polymers in non-composite thermo-plastics.
1

SMILES-X: autonomous molecular compounds characterization for small datasets without descriptors

G. Lambard et al.Mar 18, 2020
Abstract There is more and more evidence that machine learning can be successfully applied in materials science and related fields. However, datasets in these fields are often quite small (from tens to several thousands of samples). This means the most advanced machine learning techniques remain neglected, as they are considered to be applicable to big data only. Moreover, materials informatics methods often rely on human-engineered descriptors, that should be carefully chosen, or even created, to fit the physicochemical property that one intends to predict. In this article, we propose a new method that tackles both the issue of small datasets and the difficulty of developing task-specific descriptors. The SMILES-X is an autonomous pipeline for molecular compounds characterisation based on a {Embed-Encode-Attend-Predict} neural architecture with a data-specific Bayesian hyper-parameters optimisation. The only input to the architecture—the SMILES strings—are de-canonicalised in order to efficiently augment the data. One of the key features of the architecture is the attention mechanism, which enables the interpretation of output predictions without extra computational cost. The SMILES-X achieves state-of-the-art results in the inference of aqueous solubility (  RMSE ¯ test ≃ 0.57 ± 0.07 mols/L), hydration free energy (  RMSE ¯ test ≃ 0.81 ± 0.22 kcal/mol, which is ∼24.5% better than molecular dynamics simulations), and octanol/water distribution coefficient (  RMSE ¯ test ≃ 0.59 ± 0.02 for LogD at pH 7.4) of molecular compounds. The SMILES-X is intended to become an important asset in the toolkit of materials scientists and chemists. The source code for the SMILES-X is available at github.com/GLambard/SMILES-X .
1

Prediction of the coefficient of linear thermal expansion for the amorphous homopolymers based on chemical structure using machine learning

Ekaterina Gracheva et al.Jan 1, 2021
The coefficient of thermal expansion (CTE) is an industrially crucial macroscopic property of polymers. Yet, there is no structure-based model expressing it with sufficient accuracy. In this work, we present two data-driven predictive models for the linear CTE of amorphous homopolymers in the glassy state based solely on chemical structure, showing consistent predictions. The first model is built with the SMILES-X software and is based on the simplified molecular-input line-entry system (SMILES) of polymer’s repeating unit as input. The second model is built with a random forest trained on extended-connectivity fingerprints of repeating units. Both models are trained on 106 experimental data samples taken from the PoLyInfo database. The out-of-sample prediction shows a root-mean-square error of 2.65 ± 0.09 × 10–5 K–1 (2.58 ± 0.09 × 10–5 K–1), a mean absolute error of 1.71 ± 0.06 × 10–5 K–1 (1.61 ± 0.06 × 10–5 K–1) and a coefficient of determination of 0.62 ± 0.03 (0.64 ± 0.03) for SMILES-X (random forest). Additionally, the models are validated experimentally using a lab-prepared sample with good agreement (p-value≫for both models). The attention mechanism, incorporated into SMILES-X, points out salient SMILES substructures, and the resulting maps suggest that the model takes decisions on a chemically interpretable basis.Abbreviations: SMILES; CTE; CLTE; CVTE