JS
John Shawe‐Taylor
Author with expertise in Prediction of Peptide-MHC Binding Affinity
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
8
(38% Open Access)
Cited by:
4,105
h-index:
73
/
i10-index:
265
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Canonical Correlation Analysis: An Overview with Application to Learning Methods

David Hardoon et al.Oct 26, 2004
J
S
D
We present a general method using kernel canonical correlation analysis to learn a semantic representation to web images and their associated text. The semantic space provides a common representation and enables a comparison between the text and images. In the experiments, we look at two approaches of retrieving images based on only their content from a text query. We compare orthogonalization approaches against a standard cross-representation retrieval technique known as the generalized vector space model.
0

Structural risk minimization over data-dependent hierarchies

John Shawe‐Taylor et al.Jan 1, 1998
M
R
P
J
The paper introduces some generalizations of Vapnik's (1982) method of structural risk minimization (SRM). As well as making explicit some of the details on SRM, it provides a result that allows one to trade off errors on the training sample against improved generalization performance. It then considers the more general case when the hierarchy of classes is chosen in response to the data. A result is presented on the generalization performance of classifiers with a "large margin". This theoretically explains the impressive generalization performance of the maximal margin hyperplane algorithm of Vapnik and co-workers (which is the basis for their support vector machines). The paper concludes with a more general result in terms of "luckiness" functions, which provides a quite general way for exploiting serendipitous simplicity in observed data to obtain better prediction accuracy from small training sets. Four examples are given of such functions, including the Vapnik-Chervonenkis (1971) dimension measured on the sample.
0

Challenges in representation learning: A report on three machine learning contests

Ian Goodfellow et al.Dec 29, 2014
+25
M
J
I
The ICML 2013 Workshop on Challenges in Representation Learning1 focused on three challenges: the black box learning challenge, the facial expression recognition challenge, and the multimodal learning challenge. We describe the datasets created for these challenges and summarize the results of the competitions. We provide suggestions for organizers of future challenges and some comments on what kind of knowledge can be gained from machine learning competitions.
24

Predicting T cell receptor antigen specificity from structural features derived from homology models of receptor-peptide-major histocompatibility complexes

Martina Milighetti et al.May 20, 2021
B
J
M
1 Abstract The physical interaction between the T cell receptor (TCR) and its cognate antigen causes T cells to activate and participate in the immune response. Understanding this physical interaction is important in predicting TCR binding to a target epitope, as well as potential cross-reactivity. Here, we propose a way of collecting informative features of the binding interface from homology models of T cell receptor-peptide-major histocompatibility complex (TCR-pMHC) complexes. The information collected from these structures is sufficient to discriminate binding from non-binding TCR-pMHC pairs in multiple independent datasets. The classifier is limited by the number of crystal structures available for the homology modelling and by the size of the training set. However, the classifier shows comparable performance to sequence-based classifiers requiring much larger training sets.
24
Citation3
0
Save
0

Combining heterogeneous data sources for neuroimaging based diagnosis: re-weighting and selecting what is important

Michele Donini et al.Dec 10, 2018
+4
M
J
M
Combining neuroimaging and clinical information for diagnosis, as for example behavioral tasks and genetics characteristics, is potentially beneficial but presents challenges in terms of finding the best data representation for the different sources of information. Their simple combination usually does not provide an improvement if compared with using the best source alone. In this paper, we proposed a framework based on a recent multiple kernel learning algorithm called EasyMKL and we investigated the benefits of this approach for diagnosing two different mental health diseases. The well known Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset tackling the Alzheimer Disease (AD) patients versus healthy controls classification task, and a second dataset tackling the task of classifying an heterogeneous group of depressed patients versus healthy controls. We used EasyMKL to combine a huge amount of basic kernels alongside a feature selection methodology, pursuing an optimal and sparse solution to facilitate interpretability. Our results show that the proposed approach, called EasyMKLFS, outperforms baselines (e.g. SVM and SimpleMKL), state-of-the-art random forests (RF) and feature selection (FS) methods.
0

Sequence and primer independent stochastic heterogeneity in PCR amplification efficiency revealed by single molecule barcoding

Katharine Best et al.Nov 13, 2014
+2
J
T
K
The polymerase chain reaction (PCR) is one of the most widely used techniques in molecular biology. In combination with High Throughput Sequencing (HTS), PCR is widely used to quantify transcript abundance for RNA-seq and especially in the context of analysis of T cell and B cell receptor repertoires. In this study, we combine molecular DNA barcoding with HTS to quantify PCR output from individual target molecules. Our results demonstrate that the PCR process exhibits very significant unexpected heterogeneity, which is independent of the sequence of the primers or target, and independent of bulk experimental conditions. The mechanistic origin of this heterogeneity is not clear, but simulations suggest that it must derive from inherited differences between different DNA molecules within the reaction. The results illustrate that single molecule barcoding is important in order to derive reproducible quantitative results from any protocol which combines PCR with HTS.
0

Grey matter biomarker identification in Schizophrenia: detecting regional alterations and their underlying substrates

Vasiliki Chatzi et al.Jun 28, 2018
+5
D
R
V
State-of-the-art approaches in Schizophrenia research investigate neuroanatomical biomarkers using structural Magnetic Resonance Imaging. However, current models are 1) voxel-wise, 2) difficult to interpret in biologically meaningful ways, and 3) difficult to replicate across studies. Here, we propose a machine learning framework that enables the identification of sparse, region-wise grey matter neuroanatomical biomarkers and their underlying biological substrates by integrating well-established statistical and machine learning approaches. We address the computational issues associated with application of machine learning on structural MRI data in Schizophrenia, as discussed in recent reviews, while promoting transparent science using widely available data and software. In this work, a cohort of patients with Schizophrenia and healthy controls was used. It was found that the cortical thickness in left pars orbitalis seems to be the most reliable measure for distinguishing patients with Schizophrenia from healthy controls.
0

Tracking global changes induced in the CD4 T cell receptor repertoire by immunization with a complex antigen using short stretches of CDR3 protein sequence.

Niclas Thomas et al.Jan 17, 2014
+7
M
K
N
The clonal theory of adaptive immunity proposes that immunological responses are encoded by increases in the frequency of lymphocytes carrying antigen-specific receptors. In this study, we measure the frequency of different TcRs in CD4+ T cell populations of mice immunized with a complex antigen, killed Mycobacterium tuberculosis, using high throughput parallel sequencing of the TcR beta chain. In order to track the changes induced by immunization within this very heterogeneous repertoire, the sequence data were classified by counting the frequency of different clusters of short (3 or 4) continuous stretches of amino acids within the CDR3 repertoire of different mice. Both unsupervised (hierarchical clustering) and supervised (support vector machine) analysis of these different distributions of sequence clusters differentiated between immunised and unimmunised mice with 100\% efficiency. The CD4+ T cell receptor repertoires of mice 5 and 14 days post immunisation were clearly different from that of unimmunised mice, but were not distinguishable from each other. However, the repertoires of mice 60 days post immunisation were distinct both from naive mice, and the day 5/14 animals. Our results reinforce the remarkable diversity of the T cell receptor repertoire, resulting in many diverse private TcRs contributing to the T cell response even in genetically identical mice responding to the same antigen. Finally, specific motifs defined by short sequences of amino acids within the CDR3 region may have a major effect on TcR specificity. The results of this study provide new insights into the properties of the CD4+ adaptive T cell response.