MS
Masataka Sawayama
Author with expertise in Neural Mechanisms of Visual Perception and Processing
Achievements
This user has not unlocked any achievements yet.
Key Stats
Upvotes received:
0
Publications:
9
(44% Open Access)
Cited by:
5
h-index:
10
/
i10-index:
10
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
4

Unsupervised learning reveals interpretable latent representations for translucency perception

Chenxi Liao et al.Aug 15, 2022
ABSTRACT Humans constantly assess the appearance of materials to plan actions, such as stepping on icy roads without slipping. Visual inference of materials is challenging because a given material can appear dramatically different in various scenes. This problem especially stands out for translucent materials (e.g., skin, soap), whose appearance strongly depends on lighting, geometry, and viewpoint. Despite this, humans can still distinguish between different materials, and it remains unsolved how to systematically discover visual features pertinent to material inference. Here, we developed an unsupervised style-based image generation model to identify perceptually relevant dimensions for material appearances from natural photographs. We find the model can synthesize images of convincing material appearances. Importantly, without supervision, human-understandable scene attributes, including object’s shape, material, and body color, spontaneously emerge in the model’s layer-wise latent space in a scale-specific manner. Crucially, the middle-layers of the latent space selectively encode translucency features correlated with perception, suggesting that translucent impressions are established in mid-to-low spatial scale features. Our findings indicate that humans may use the scale-specific statistical structure of natural images to efficiently represent material properties across contexts, and our approach is widely applicable in discovering perceptually relevant features from complex stimuli for many visual inference tasks.
1

Crystal or Jelly? Effect of Color on the Perception of Translucent Materials with Photographs of Real-world Objects

Chenxi Liao et al.Oct 19, 2021
Abstract Translucent materials are ubiquitous in nature (e.g. teeth, food, wax), but our understanding of translucency perception is limited. Previous work in translucency perception has mainly used monochromatic rendered images as stimuli, which are restricted by their diversity and realism. Here, we measure translucency perception with photographs of real-world objects. Specifically, we use three behavior tasks: binary classification of “translucent” versus “opaque”, semantic attribute rating of perceptual qualities (see-throughness, glossiness, softness, glow and density), and material categorization. Two different groups of observers finish the three tasks with color or grayscale images. We find that observers’ agreements depend on the physical material properties of the objects such that translucent materials generate more inter-observer disagreements. Further, there are more disagreements among observers in the grayscale condition in comparison to that in color condition. We also discover that converting images to grayscale substantially affects the distributions of attribute ratings for some images. Furthermore, ratings of see-throughness, glossiness, and glow could predict individual observers’ binary classification of images in both grayscale and color conditions. Lastly, converting images to grayscale alters the perceived material categories for some images such that observers tend to misjudge images of food as non-food and vice versa. Our result demonstrates color is informative about material property estimation and recognition. Meanwhile, our analysis shows mid-level semantic estimation of material attributes might be closely related to high-level material recognition. We also discuss individual differences in our results and highlight the importance of such consideration in material perception.
1
Paper
Citation1
0
Save
0

Early-stage neural processing reveals distinctive responses to saliency-differentiated colors in various types of color vision

N. Takahashi et al.Jan 1, 2023
People with protan or deutan color vision are expected to have reduced chromatic sensitivity on the red-green color axis due to altered cone sensitivities; however, complemented sensitivities have been reported in some studies. The mechanism involved in the enhanced sensitivity is considered to encompass a broad spectrum of psychophysiological processes. Nonetheless, the specific details remain unknown. This study investigated the differences in attention-related neural activities between common trichromats and deuteranomalous trichromats during the observation of chromatically identical colors that differ in saliency. Global field power and event-related potentials were analyzed to elucidate how higher cognitive process, particularly attention, manifests in the temporal domain of neural processes in response to stimuli saliency, across color vision types. The finding revealed increased neural activity toward less salient color stimuli in both color vision groups, reflecting a heightened attentional level. Notably, distinct activity patterns were observed at different time frames: common trichromats exhibited at later positive component (P3), and deuteranomalous trichromats exhibited at earlier positive component (P2). Surprisingly, despite their diminished chromatic sensitivity, deuteranomalous trichromats responded quicker to the saliency differences. The result suggests that temporal characteristics play a crucial role in complementary mechanisms in chromatic sensitivities in individuals with diverse color vision.
0

Haptic metameric textures

Scinob Kuroki et al.May 30, 2019
The ability to recognize and discriminate complex surface textures through touch is essential to the survival of living beings, including humans. Most studies of tactile texture perception have emphasized perceptual impacts of lower-order statistical structures of stimulus surfaces that can be described in terms of amplitude spectra or spatial-frequency/orientation subband histograms (e.g., root mean squares of carving depth and inter-ridge distance). However, real-world surfaces we encounter in everyday life differ also in higher-order statistics that appear in phase spectra or joint subband histograms. Though human vision has sensitivity to higher-order statistics, and some studies have revealed similarities between visual and tactile information processing, it remains obscure whether human touch has sensitivity to higher-order statistics. Here we show that patterns different from each other in higher-order statistics, which can be easily distinguished by vision, cannot be distinguished by touch. We 3D-printed textured surfaces transcribed from different 'photos' of natural scenes such as stones and leaves. The textures look sufficiently different, and the maximum carving depth (2 mm) was well above the haptic detection threshold. Nevertheless, observers (n=10) could not accurately discriminate some texture pairs. Analysis of these stimuli showed that the more similar the amplitude spectrum was, the more difficult the discrimination became, suggesting a hypothesis that the high-order statistics have minor effects on tactile texture discrimination. We directly tested this hypothesis by matching the subband histogram of each texture using a texture synthesis algorithm. Haptic discrimination of these textures was found to be nearly impossible, although visual discrimination remained feasible due to differences in higher-order statistics. These findings suggest that human tactile texture perception qualitatively differs from visual texture perception with regard to insensitivity to higher-order statistical differences.
0

Visual discrimination of optical material properties: a large-scale study

Masataka Sawayama et al.Oct 10, 2019
Complex visual processing involved in perceiving the object materials can be better elucidated by taking a variety of research approaches. Sharing stimulus and response data is an effective strategy to make the results of different studies directly comparable and can assist researchers with different backgrounds to jump into the field. Here, we constructed a database containing a variety of material images annotated with visual discrimination performance. We created various material images by using physically-based computer graphics techniques and conducted psychophysical experiments using them in both laboratory and crowdsourcing settings. The observer’s task was to discriminate materials on six dimensions (gloss contrast, gloss sharpness, translucent vs. opaque, metal vs. plastic, metal vs. glass, and glossy vs. painted) with several task difficulties. The illumination consistency and object geometry were also varied. We used a non-verbal procedure (an oddity task) so that our database could be used in diverse cross-cultural, cross-species, clinical, and developmental studies. The results showed that discrimination performance was affected by the illumination condition and object geometry, in agreement with previous studies on gloss perception, although the pattern of effects was slightly different for some material dimensions. We also found that the ability to discriminate the spatial consistency of specular highlights in glossiness perception showed larger individual differences than in other tasks. The results obtained through crowdsourcing were strongly correlated with those obtained in the laboratory, which suggests that our database can be used even when the experimental conditions are not strictly controlled. Several projects using our dataset are underway.
0

A computational mechanism for seeing dynamic deformation

Takahiro Kawabe et al.Jun 26, 2019
Human observers perceptually discriminate the dynamic deformation of materials in the real world. However, the psychophysical and neural mechanisms responsible for the perception of dynamic deformation have not been fully elucidated. By using a deforming bar as the stimulus, we showed that the spatial frequency of deformation was a critical determinant of deformation perception. Simulating the response of direction-selective units (i.e., MT pattern motion cells) to stimuli, we found that the perception of dynamic deformation was well explained by assuming a higher-order mechanism monitoring the spatial pattern of direction responses. Our model with the higher-order mechanism also successfully explained the appearance of a visual illusion wherein a static bar apparently deforms against a tilted drifting grating. In particular, it was the lower spatial frequencies in this pattern that strongly contributed to the deformation perception. Finally, by manipulating the luminance of the static bar, we observed that the mechanism for the illusory deformation was more sensitive to luminance than contrast cues.Significance Statement From the psychophysical and computational points of view, the present study tried to answer the question, “how do human observers see deformation?”. In the psychophysical experiment, we used a clip wherein a bar dynamically deformed. We also tested the illusory deformation of a bar, which was caused by tilted drifting grating, because it was unclear whether the illusory deformation could be described by our model. In the computational analysis, in order to explain psychophysical data for deformation perception, it was necessary to assume an additional unit monitoring the spatial pattern of direction responses of MT cells that were sensitive to local image motion.
0

Stick to your role! Stability of personal values expressed in large language models

Grgur Kovač et al.Aug 26, 2024
The standard way to study Large Language Models (LLMs) through benchmarks or psychology questionnaires is to provide many different queries from similar minimal contexts (e.g. multiple choice questions). However, due to LLM’s highly context-dependent nature, conclusions from such minimal-context evaluations may be little informative about the model’s behavior in deployment (where it will be exposed to many new contexts). We argue that context-dependence should be studied as another dimension of LLM comparison alongside others such as cognitive abilities, knowledge, or model size. In this paper, we present a case-study about the stability of value expression over different contexts (simulated conversations on different topics), and as measured using a standard psychology questionnaire (PVQ) and behavioral downstream tasks. We consider 21 LLMs from six families. Reusing methods from psychology, we study Rank-order stability on the population (interpersonal) level, and Ipsative stability on the individual (intrapersonal) level. We explore two settings: with and without instructing LLMs to simulate particular personalities. We observe similar trends in the stability of models and model families—Mixtral, Mistral, GPT-3.5 and Qwen families being more stable than LLaMa-2 and Phi—over those two settings, two different simulated populations, and even on three downstream behavioral tasks. When instructed to simulate particular personas, LLMs exhibit low Rank-Order stability, and this stability further diminishes with conversation length. This highlights the need for future research directions on LLMs that can coherently simulate a diversity of personas, as well as how context-dependence can be studied in more thorough and efficient ways. This paper provides a foundational step in that direction, and, to our knowledge, it is the first study of value stability in LLMs. The project website with code is available at https://sites.google.com/view/llmvaluestability .
0

Probing the Link Between Vision and Language in Material Perception

Chenxi Liao et al.Jan 26, 2024
Abstract Materials are the building blocks of our surroundings. Material perception enables us to create a vivid mental representation of our environment, fostering the appreciation of the qualities and aesthetics of things around us and shaping our decisions on how to interact with them. We can visually discriminate and recognize materials and infer their properties, and previous studies have identified diagnostic image features related to perceived material qualities. Meanwhile, language reveals our subjective understanding of visual input and allows us to communicate relevant information about the material. To what extent do words encapsulate the visual material perception remains elusive. Here, we used deep generative networks to create an expandable image space to systematically create and sample stimuli of familiar and unfamiliar materials. We compared the representations of materials from two cognitive tasks: visual material similarity judgments and verbal descriptions. We observed a moderate correlation between vision and language within individuals, but language alone cannot fully capture the nuances of material appearance. We further examined the latent code of the generative model and found that image-based representation only exhibited a weak correlation with human visual judgments. Joining image- and semantic-level representations substantially improved the prediction of human perception. Our results imply that material perception involves the semantic understanding of scenes to resolve the ambiguity of the visual information and beyond merely relying on image features. This work illustrates the need to consider the vision-language relationship in building a comprehensive model for material perception.
4

Decoding time-resolved neural representations of orientation ensemble perception

Ryuto Yashiro et al.Jan 1, 2023
The visual system is capable of computing summary statistics of multiple visual elements at a glance. While numerous studies have demonstrated ensemble perception across different visual features, the timing at which the visual system forms an ensemble representation remains unclear. This is mainly because most previous studies did not uncover time-resolved neural representations during ensemble perception. Here we used orientation ensemble discrimination tasks along with EEG recordings to decode orientation representations over time while human observers discriminated an average of multiple orientations. We observed alternation in orientation representations over time, with stronger neural representations of the individual elements in a set of orientations, but we did not observe significantly strong representations of the average orientation at any time points. We also found that a cumulative average of the orientation representations over approximately 500 ms converged toward the average orientation. More importantly, this cumulative orientation representation significantly correlated with the individual difference in the perceived average orientation. These findings suggest that the visual system gradually extracts an orientation ensemble, which may be represented as a cumulative average of transient orientation signals, through selective processing of a subset of multiple orientations that occurs over several hundred milliseconds.