AS
Alberto Santoro
Author with expertise in Particle Physics and High-Energy Collider Experiments
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
4
(100% Open Access)
Cited by:
25
h-index:
80
/
i10-index:
457
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Search for a singly produced third-generation scalar leptoquark decaying to a τ lepton and a bottom quark in proton-proton collisions at $$ \sqrt{s}=13 $$ TeV

Albert Sirunyan et al.Jul 1, 2018
+2283
W
A
A
A bstract A search is presented for a singly produced third-generation scalar leptoquark decaying to a τ lepton and a bottom quark. Associated production of a leptoquark and a τ lepton is considered, leading to a final state with a bottom quark and two τ leptons. The search uses proton-proton collision data at a center-of-mass energy of 13 TeV recorded with the CMS detector, corresponding to an integrated luminosity of 35.9 fb −1 . Upper limits are set at 95% confidence level on the production cross section of the third-generation scalar leptoquarks as a function of their mass. From a comparison of the results with the theoretical predictions, a third-generation scalar leptoquark decaying to a τ lepton and a bottom quark, assuming unit Yukawa coupling ( λ ), is excluded for masses below 740 GeV. Limits are also set on λ of the hypothesized leptoquark as a function of its mass. Above λ = 1.4, this result provides the best upper limit on the mass of a third-generation scalar leptoquark decaying to a τ lepton and a bottom quark.
2

Observation of WWγ Production and Search for Hγ Production in Proton-Proton Collisions at 

Aram Hayrapetyan et al.Mar 19, 2024
+2351
W
A
A
The observation of WWγ production in proton-proton collisions at a center-of-mass energy of 13 TeV with an integrated luminosity of 138 fb^{-1} is presented. The observed (expected) significance is 5.6 (5.1) standard deviations. Events are selected by requiring exactly two leptons (one electron and one muon) of opposite charge, moderate missing transverse momentum, and a photon. The measured fiducial cross section for WWγ is 5.9±0.8(stat)±0.8(syst)±0.7(modeling) fb, in agreement with the next-to-leading order quantum chromodynamics prediction. The analysis is extended with a search for the associated production of the Higgs boson and a photon, which is generated by a coupling of the Higgs boson to light quarks. The result is used to constrain the Higgs boson couplings to light quarks.
2
Paper
Citation2
9
Save
1

Can neurogenesis act as a neural regularizer?

Lina Tran et al.Apr 10, 2022
+4
A
A
L
Abstract New neurons are continuously generated in the subgranular zone of the dentate gyrus throughout adulthood. These new neurons gradually integrate into hippocampal circuits, forming new naïve synapses. Viewed from this perspective, these new neurons may represent a significant source of ‘wiring’ noise in hippocampal networks. In machine learning, such noise injection is commonly used as a regularization technique. Regularization techniques help prevent overfitting training data, and allow models to generalize learning to new, unseen data. Using a computational modeling approach, here we ask whether a neurogenesis-like process similarly acts as a regularizer, facilitating generalization in a category learning task. In a convolutional neural network (CNN) trained on the CIFAR-10 object recognition dataset, we modeled neurogenesis as a replacement/turnover mechanism, where weights for a randomly chosen small subset of neurons in a chosen hidden layer were re-initialized to new values as the model learned to categorize 10 different classes of objects. We found that neurogenesis enhanced generalization on unseen test data compared to networks with no neurogenesis. Moreover, neurogenic networks either outperformed or performed similarly to networks with conventional noise injection (i.e., dropout, weight decay, and neural noise). These results suggest that neurogenesis can enhance generalization in hippocampal learning through noise-injection, expanding on the roles that neurogenesis may have in cognition. Author Summary In deep neural networks, various forms of noise injection are used as regularization techniques to prevent overfitting and promote generalization on unseen test data. Here, we were interested in whether adult neurogenesis– the lifelong production of new neurons in the hippocampus– might similarly function as a regularizer in the brain. We explored this question computationally, assessing whether implementing a neurogenesis-like process in a hidden layer within a convolutional neural network trained in a category learning task would prevent overfitting and promote generalization. We found that neurogenesis regularization was as least as effective as, or more effective than, conventional regularizers (i.e., dropout, weight decay and neural noise) in improving model performance. These results suggest that optimal levels of hippocampal neurogenesis may improve memory-guided decision making by preventing overfitting, thereby promoting the formation of more generalized memories that can be applied in a broader range of circumstances. We outline how these predictions may be evaluated behaviorally in rodents with altered hippocampal neurogenesis.
5

Mixture-of-Depths: Dynamically allocating compute in transformer-based language models

David Raposo et al.Apr 2, 2024
+3
B
S
D
Transformer-based language models spread FLOPs uniformly across input sequences. In this work we demonstrate that transformers can instead learn to dynamically allocate FLOPs (or compute) to specific positions in a sequence, optimising the allocation along the sequence for different layers across the model depth. Our method enforces a total compute budget by capping the number of tokens ($k$) that can participate in the self-attention and MLP computations at a given layer. The tokens to be processed are determined by the network using a top-$k$ routing mechanism. Since $k$ is defined a priori, this simple procedure uses a static computation graph with known tensor sizes, unlike other conditional computation techniques. Nevertheless, since the identities of the $k$ tokens are fluid, this method can expend FLOPs non-uniformly across the time and model depth dimensions. Thus, compute expenditure is entirely predictable in sum total, but dynamic and context-sensitive at the token-level. Not only do models trained in this way learn to dynamically allocate compute, they do so efficiently. These models match baseline performance for equivalent FLOPS and wall-clock times to train, but require a fraction of the FLOPs per forward pass, and can be upwards of 50\% faster to step during post-training sampling.