HG
Harshvardhan Gazula
Author with expertise in Analysis of Brain Functional Connectivity Networks
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
16
(81% Open Access)
Cited by:
271
h-index:
11
/
i10-index:
13
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
333

Thinking ahead: spontaneous prediction in context as a keystone of language in humans and machines

Ariel Goldstein et al.Dec 3, 2020
Abstract Departing from traditional linguistic models, advances in deep learning have resulted in a new type of predictive (autoregressive) deep language models (DLMs). Using a self-supervised next-word prediction task, these models are trained to generate appropriate linguistic responses in a given context. We provide empirical evidence that the human brain and autoregressive DLMs share three fundamental computational principles as they process natural language: 1) both are engaged in continuous next-word prediction before word-onset; 2) both match their pre-onset predictions to the incoming word to calculate post-onset surprise (i.e., prediction error signals); 3) both represent words as a function of the previous context. In support of these three principles, our findings indicate that: a) the neural activity before word-onset contains context-dependent predictive information about forthcoming words, even hundreds of milliseconds before the words are perceived; b) the neural activity after word-onset reflects the surprise level and prediction error; and c) autoregressive DLM contextual embeddings capture the neural representation of context-specific word meaning better than arbitrary or static semantic embeddings. Together, our findings suggest that autoregressive DLMs provide a novel and biologically feasible computational framework for studying the neural basis of language.
333
Citation30
0
Save
1

Brain embeddings with shared geometry to artificial contextual embeddings, as a code for representing language in the human brain

Ariel Goldstein et al.Mar 2, 2022
Abstract Contextual embeddings, derived from deep language models (DLMs), provide a continuous vectorial representation of language. This embedding space differs fundamentally from the symbolic representations posited by traditional psycholinguistics. Do language areas in the human brain, similar to DLMs, rely on a continuous embedding space to represent language? To test this hypothesis, we densely recorded the neural activity in the Inferior Frontal Gyrus (IFG, also known as Broca’s area) of three participants using dense intracranial arrays while they listened to a 30-minute podcast. From these fine-grained spatiotemporal neural recordings, we derived for each patient a continuous vectorial representation for each word (i.e., a brain embedding). Using stringent, zero-shot mapping, we demonstrated that brain embeddings in the IFG and the DLM contextual embedding space have strikingly similar geometry. This shared geometry allows us to precisely triangulate the position of unseen words in both the brain embedding space (zero-shot encoding) and the DLM contextual embedding space (zero-shot decoding). The continuous brain embedding space provides an alternative computational framework for how natural language is represented in cortical language areas.
0

Modular and state-relevant connectivity in high-frequency resting-state BOLD fMRI data: An independent component analysis

Thomas DeRamus et al.Jul 24, 2020
Abstract Resting-state fMRI (rs-fMRI) data are typically filtered at different frequency bins between 0.008∼0.2 Hz (varies across the literature) prior to analysis to mitigate nuisance variables (e.g., drift, motion, cardiac, and respiratory) and maximize the sensitivity to neuronal-mediated BOLD signal. However, multiple lines of evidence suggest meaningful BOLD signal may also be parsed at higher frequencies. To test this notion, a functional network connectivity (FNC) analysis based on a spatially informed independent component analysis (ICA) was performed at seven different bandpass frequency bins to examine FNC matrices across spectra. Further, eyes open (EO) vs. eyes closed (EC) resting-state acquisitions from the same participants were compared across frequency bins to examine if EO vs. EC FNC matrices and randomness estimations of FNC matrices are distinguishable at different frequencies. Results show that FNCs in higher-frequency bins display modular FNC similar to the lowest frequency bin, while r-to-z FNC and FNC-based measures indicating matrix non-randomness were highest in the 0.31-0.46 Hz range relative to all frequency bins above and below this range. As such, the FNC within this range appears to be the most temporally correlated, but the mechanisms facilitating this coherence require further analyses. Compared to EO, EC displayed greater FNC (involved in visual, cognitive control, somatomotor, and auditory domains) and randomness values at lower frequency bins, but this phenomenon flipped (EO > EC) at frequency bins greater than 0.46 Hz, particularly within visual regions. While the effect sizes range from small to large specific to frequency range and resting state (EO vs. EC), with little influence from common artifacts. These differences indicate that unique information can be derived from FNC between BOLD signals at different frequencies relative to a given restingstate acquisition and support the hypothesis meaningful BOLD signal is present at higher frequency ranges.
44

Correspondence between the layered structure of deep language models and temporal structure of natural language processing in the human brain

Ariel Goldstein et al.Jul 11, 2022
Abstract Deep language models (DLMs) provide a novel computational paradigm for how the brain processes natural language. Unlike symbolic, rule-based models described in psycholinguistics, DLMs encode words and their context as continuous numerical vectors. These “embeddings” are constructed by a sequence of computations organized in “layers” to ultimately capture surprisingly sophisticated representations of linguistic structures. How does this layered hierarchy map onto the human brain during natural language comprehension? In this study, we used electrocorticography (ECoG) to record neural activity in language areas along the superior temporal gyrus and inferior frontal gyrus while human participants listened to a 30-minute spoken narrative. We supplied this same narrative to a high-performing DLM (GPT2-XL) and extracted the contextual embeddings for each word in the story across all 48 layers of the model. We next trained a set of linear encoding models to predict the temporally-evolving neural activity from the embeddings at each layer. We found a striking correspondence between the layer-by-layer sequence of embeddings from GPT2-XL and the temporal sequence of neural activity in language areas. In addition, we found evidence for the gradual accumulation of recurrent information along the linguistic processing hierarchy. However, we also noticed additional neural processes in the brain, but not in DLMs, during the processing of surprising (unpredictable) words. These findings point to a connection between human language processing and DLMs where the layer-by-layer accumulation of contextual information in DLM embeddings matches the temporal dynamics of neural activity in high-order language areas.
26

Deep speech-to-text models capture the neural basis of spontaneous speech in everyday conversations

Ariel Goldstein et al.Jun 27, 2023
Abstract Humans effortlessly use the continuous acoustics of speech to communicate rich linguistic meaning during everyday conversations. In this study, we leverage 100 hours (half a million words) of spontaneous open-ended conversations and concurrent high-quality neural activity recorded using electrocorticography (ECoG) to decipher the neural basis of real-world speech production and comprehension. Employing a deep multimodal speech-to-text model named Whisper, we develop encoding models capable of accurately predicting neural responses to both acoustic and semantic aspects of speech. Our encoding models achieved high accuracy in predicting neural responses in hundreds of thousands of words across many hours of left-out recordings. We uncover a distributed cortical hierarchy for speech and language processing, with sensory and motor regions encoding acoustic features of speech and higher-level language areas encoding syntactic and semantic information. Many electrodes—including those in both perceptual and motor areas—display mixed selectivity for both speech and linguistic features. Notably, our encoding model reveals a temporal progression from language-to-speech encoding before word onset during speech production and from speech-to-language encoding following word articulation during speech comprehension. This study offers a comprehensive account of the unfolding neural responses during fully natural, unbounded daily conversations. By leveraging a multimodal deep speech recognition model, we highlight the power of deep learning for unraveling the neural mechanisms of language processing in real-world contexts.
0

Scale matters: Large language models with billions (rather than millions) of parameters better match neural representations of natural language

Zhuoqiao Hong et al.Jun 13, 2024
Abstract Recent research has used large language models (LLMs) to study the neural basis of naturalistic language processing in the human brain. LLMs have rapidly grown in complexity, leading to improved language processing capabilities. However, neuroscience researchers haven’t kept up with the quick progress in LLM development. Here, we utilized several families of transformer-based LLMs to investigate the relationship between model size and their ability to capture linguistic information in the human brain. Crucially, a subset of LLMs were trained on a fixed training set, enabling us to dissociate model size from architecture and training set size. We used electrocorticography (ECoG) to measure neural activity in epilepsy patients while they listened to a 30-minute naturalistic audio story. We fit electrode-wise encoding models using contextual embeddings extracted from each hidden layer of the LLMs to predict word-level neural signals. In line with prior work, we found that larger LLMs better capture the structure of natural language and better predict neural activity. We also found a log-linear relationship where the encoding performance peaks in relatively earlier layers as model size increases. We also observed variations in the best-performing layer across different brain regions, corresponding to an organized language processing hierarchy.
2

Fine temporal brain network structure modularizes and localizes differently in men and women: Insights from a novel explainability framework

Noah Lewis et al.Jun 12, 2022
A bstract Deep learning has become an effective tool for classifying biological sex based on functional magnetic resonance imaging (fMRI), but research on what features within the brain are most relevant to this classification is still lacking. Model interpretability has become a powerful way to understand “black box” deep-learning models and select features within the input data that are most relevant to the correct classification. However, very little work has been done employing these methods to understand the relationship between the temporal dimension of functional imaging signals and classification of biological sex, nor has there been attention paid to rectifying problems and limitations associated with feature explanation models, e.g. underspecification and instability. We provide a methodology to limit the impact of underspecification on the stability of the measured feature importance, and then, using intrinsic connectivity networks (ICNs) from fMRI data, we provide a deep exploration of sex differences among functional brain networks. We report numerous conclusions, including activity differences in the visual and cognitive domains, as well as major connectivity differences.
Load More