XH
Xiaolei Huang
Author with expertise in Generative Adversarial Networks in Image Processing
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
16
(69% Open Access)
Cited by:
7,529
h-index:
41
/
i10-index:
108
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks

Han Zhang et al.Jul 16, 2018
Although Generative Adversarial Networks (GANs) have shown remarkable success in various tasks, they still face challenges in generating high quality images. In this paper, we propose Stacked Generative Adversarial Networks (StackGANs) aimed at generating high-resolution photo-realistic images. First, we propose a two-stage generative adversarial network architecture, StackGAN-v1, for text-to-image synthesis. The Stage-I GAN sketches the primitive shape and colors of a scene based on a given text description, yielding low-resolution images. The Stage-II GAN takes Stage-I results and the text description as inputs, and generates high-resolution images with photo-realistic details. Second, an advanced multi-stage generative adversarial network architecture, StackGAN-v2, is proposed for both conditional and unconditional generative tasks. Our StackGAN-v2 consists of multiple generators and multiple discriminators arranged in a tree-like structure; images at multiple scales corresponding to the same scene are generated from different branches of the tree. StackGAN-v2 shows more stable training behavior than StackGAN-v1 by jointly approximating multiple distributions. Extensive experiments demonstrate that the proposed stacked generative adversarial networks significantly outperform other state-of-the-art methods in generating photo-realistic images.
0

Traffic-Sign Detection and Classification in the Wild

Zhe Zhu et al.Jun 1, 2016
Although promising results have been achieved in the areas of traffic-sign detection and classification, few works have provided simultaneous solutions to these two tasks for realistic real world images. We make two contributions to this problem. Firstly, we have created a large traffic-sign benchmark from 100000 Tencent Street View panoramas, going beyond previous benchmarks. It provides 100000 images containing 30000 traffic-sign instances. These images cover large variations in illuminance and weather conditions. Each traffic-sign in the benchmark is annotated with a class label, its bounding box and pixel mask. We call this benchmark Tsinghua-Tencent 100K. Secondly, we demonstrate how a robust end-to-end convolutional neural network (CNN) can simultaneously detect and classify trafficsigns. Most previous CNN image processing solutions target objects that occupy a large proportion of an image, and such networks do not work well for target objects occupying only a small fraction of an image like the traffic-signs here. Experimental results show the robustness of our network and its superiority to alternatives. The benchmark, source code and the CNN model introduced in this paper is publicly available1.
0

SegAN: Adversarial Network with Multi-scale L1 Loss for Medical Image Segmentation

Yuan Xue et al.May 3, 2018
Inspired by classic generative adversarial networks (GAN), we propose a novel end-to-end adversarial neural network, called SegAN, for the task of medical image segmentation. Since image segmentation requires dense, pixel-level labeling, the single scalar real/fake output of a classic GAN's discriminator may be ineffective in producing stable and sufficient gradient feedback to the networks. Instead, we use a fully convolutional neural network as the segmentor to generate segmentation label maps, and propose a novel adversarial critic network with a multi-scale $L_1$ loss function to force the critic and segmentor to learn both global and local features that capture long- and short-range spatial relationships between pixels. In our SegAN framework, the segmentor and critic networks are trained in an alternating fashion in a min-max game: The critic takes as input a pair of images, (original_image $*$ predicted_label_map, original_image $*$ ground_truth_label_map), and then is trained by maximizing a multi-scale loss function; The segmentor is trained with only gradients passed along by the critic, with the aim to minimize the multi-scale loss function. We show that such a SegAN framework is more effective and stable for the segmentation task, and it leads to better performance than the state-of-the-art U-net segmentation method. We tested our SegAN method using datasets from the MICCAI BRATS brain tumor segmentation challenge. Extensive experimental results demonstrate the effectiveness of the proposed SegAN with multi-scale loss: on BRATS 2013 SegAN gives performance comparable to the state-of-the-art for whole tumor and tumor core segmentation while achieves better precision and sensitivity for Gd-enhance tumor core segmentation; on BRATS 2015 SegAN achieves better performance than the state-of-the-art in both dice score and precision.
0

SPDA-CNN: Unifying Semantic Part Detection and Abstraction for Fine-Grained Recognition

Han Zhang et al.Jun 1, 2016
Most convolutional neural networks (CNNs) lack midlevel layers that model semantic parts of objects. This limits CNN-based methods from reaching their full potential in detecting and utilizing small semantic parts in recognition. Introducing such mid-level layers can facilitate the extraction of part-specific features which can be utilized for better recognition performance. This is particularly important in the domain of fine-grained recognition. In this paper, we propose a new CNN architecture that integrates semantic part detection and abstraction (SPDACNN) for fine-grained classification. The proposed network has two sub-networks: one for detection and one for recognition. The detection sub-network has a novel top-down proposal method to generate small semantic part candidates for detection. The classification sub-network introduces novel part layers that extract features from parts detected by the detection sub-network, and combine them for recognition. As a result, the proposed architecture provides an end-to-end network that performs detection, localization of multiple semantic parts, and whole object recognition within one framework that shares the computation of convolutional filters. Our method outperforms state-of-theart methods with a large margin for small parts detection (e.g. our precision of 93.40% vs the best previous precision of 74.00% for detecting the head on CUB-2011). It also compares favorably to the existing state-of-the-art on finegrained classification, e.g. it achieves 85.14% accuracy on CUB-2011.
0
Citation284
0
Save
0

Phase-field modeling and machine learning of electric-thermal-mechanical breakdown of polymer-based dielectrics

Zhonghui Shen et al.Apr 23, 2019
Abstract Understanding the breakdown mechanisms of polymer-based dielectrics is critical to achieving high-density energy storage. Here a comprehensive phase-field model is developed to investigate the electric, thermal, and mechanical effects in the breakdown process of polymer-based dielectrics. High-throughput simulations are performed for the P(VDF-HFP)-based nanocomposites filled with nanoparticles of different properties. Machine learning is conducted on the database from the high-throughput simulations to produce an analytical expression for the breakdown strength, which is verified by targeted experimental measurements and can be used to semiquantitatively predict the breakdown strength of the P(VDF-HFP)-based nanocomposites. The present work provides fundamental insights to the breakdown mechanisms of polymer nanocomposite dielectrics and establishes a powerful theoretical framework of materials design for optimizing their breakdown strength and thus maximizing their energy storage by screening suitable nanofillers. It can potentially be extended to optimize the performances of other types of materials such as thermoelectrics and solid electrolytes.
4

Rapid Biomarker Screening of Alzheimer’s Disease by Interpretable Machine Learning and Graphene-Assisted Raman Spectroscopy

Ziyang Wang et al.Jun 3, 2021
ABSTRACT As the most common cause of dementia, the study of Alzheimer’s disease (AD) faces challenges in terms of understanding the cause, monitoring the pathogenesis, and developing early diagnosis and effective treatment. Rapid and accurate identification of AD biomarkers in the brain is critical to provide key insights into AD and facilitate the development of early diagnosis methods. In this work, we developed a platform that enables a rapid screening of AD biomarkers by employing graphene-assisted Raman spectroscopy and machine learning interpretation in AD transgenic animal brains. Specifically, we collected Raman spectra on slices of mouse brains with and without AD and used machine learning to classify AD and non-AD spectra. By contacting monolayer graphene with the brain slices, the accuracy was significantly increased from 77% to 98% in machine learning classification. Further, using linear supporting vector machine (SVM), we identified a spectral feature importance map that reveals the importance of each Raman wavenumber in classifying AD and non-AD spectra. Based on this spectral feature importance map, we identified AD biomarkers including Aβ and tau proteins, and other potential biomarkers, such as triolein, phosphatidylcholine, and actin, which have been confirmed by other biochemical studies. Our Raman-machine learning integrated method with interpretability is promising to greatly accelerate the study of AD and can be extended to other tissues, biofluids, and for various other diseases.
5

Accurate Virus Identification with Interpretable Raman Signatures by Machine Learning

Jiarong Ye et al.Jun 6, 2021
Abstract Rapid identification of newly emerging or circulating viruses is an important first step toward managing the public health response to potential outbreaks. A portable virus capture device coupled with label-free Raman Spectroscopy holds the promise of fast detection by rapidly obtaining the Raman signature of a virus followed by a machine learning approach applied to recognize the virus based on its Raman spectrum. In this paper, we present a machine learning analysis on Raman spectra of human and avian viruses. A Convolutional Neural Network (CNN) classifier specifically designed for spectral data achieves very high accuracy for a variety of virus type or subtype identification tasks. In particular, it achieves 99% accuracy for classifying influenza virus type A vs. type B, 96% accuracy for classifying four subtypes of influenza A, 95% accuracy for differentiating enveloped and non-enveloped viruses, and 99% for differentiating avian coronavirus (infectious bronchitis virus, IBV) from other avian viruses. Furthermore, interpretation of neural net responses in the trained CNN model using a full-gradient algorithm highlights Raman spectral ranges that are most important to virus identification. By correlating ML-selected salient Raman ranges with the signature ranges of known biomolecules and chemical functional groups (e.g. amide, amino acid, carboxylic acid) we verify that our ML model effectively recognizes the Raman signatures of proteins, lipids and other vital functional groups present in different viruses and uses a weighted combination of these signatures to identify viruses. The accurate and interpretable machine learning model developed for Raman virus identification presents promising potential in a real-time virus detection system. Significance Statement A portable micro-fluidic platform for virus capture promises rapid enrichment and label-free optical identification of viruses by Raman spectroscopy. A large Raman dataset collected on a variety of viruses enables the training of machine learning (ML) models capable of highly accurate and sensitive virus identification. The trained ML models can then be integrated with the portable device to provide real-time virus detection and identification capability. We validate this conceptual framework by presenting highly accurate virus type and subtype identification results using a convolutional neural network to classify Raman spectra of viruses.
Load More