QW
Qifan Wang
Author with expertise in Natural Language Processing
Achievements
This user has not unlocked any achievements yet.
Key Stats
Upvotes received:
0
Publications:
8
(25% Open Access)
Cited by:
2
h-index:
19
/
i10-index:
27
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Large Language Models are Learnable Planners for Long-Term Recommendation

Wentao Shi et al.Jul 10, 2024
Planning for both immediate and long-term benefits becomes increasingly important in recommendation.Existing methods apply Reinforcement Learning (RL) to learn planning capacity by maximizing cumulative reward for long-term recommendation.However, the scarcity of recommendation data presents challenges such as instability and susceptibility to overfitting when training RL models from scratch, resulting in sub-optimal performance.In this light, we propose to leverage the remarkable planning capabilities over sparse data of Large Language Models (LLMs) for long-term recommendation.The key to achieving the target lies in formulating a guidance plan following principles of enhancing long-term engagement and grounding the plan to effective and executable actions in a personalized manner.To this end, we propose a Bilevel Learnable LLM Planner framework, which consists of a set of LLM instances and breaks down the learning process into macrolearning and micro-learning to learn macro-level guidance and micro-level personalized recommendation policies, respectively.Extensive experiments validate that the framework facilitates the planning ability of LLMs for long-term recommendation.Our code and data can be found at https://github.com/jizhi-zhang/BiLLP.
0

Self-supervised Adversarial Training of Monocular Depth Estimation against Physical-World Attacks

Zhiyuan Cheng et al.Jan 1, 2024
Monocular Depth Estimation (MDE) plays a vital role in applications such as autonomous driving.However, various attacks target MDE models, with physical attacks posing significant threats to system security.Traditional adversarial training methods, which require ground-truth labels, are not directly applicable to MDE models that lack ground-truth depth.Some self-supervised model hardening techniques (e.g., contrastive learning) overlook the domain knowledge of MDE, resulting in suboptimal performance.In this work, we introduce a novel self-supervised adversarial training approach for MDE models, leveraging view synthesis without the need for ground-truth depth.We enhance adversarial robustness against real-world attacks by incorporating L 0 -norm-bounded perturbation during training.We evaluate our method against supervised learning-based and contrastive learning-based approaches specifically designed for MDE.Our experiments with two representative MDE networks demonstrate improved robustness against various adversarial attacks, with minimal impact on benign performance.Our code: https://github.com/Bob-cheng/DepthModelHardening.
0

User Welfare Optimization in Recommender Systems with Competing Content Creators

Fan Yao et al.Aug 24, 2024
Driven by the new economic opportunities created by the creator economy, an increasing number of content creators rely on and compete for revenue generated from online content recommendation platforms. This burgeoning competition reshapes the dynamics of content distribution and profoundly impacts long-term user welfare on the platform. However, the absence of a comprehensive picture of global user preference distribution often traps the competition, especially the creators, in states that yield sub-optimal user welfare. To encourage creators to best serve a broad user population with relevant content, it becomes the platform's responsibility to leverage its information advantage regarding user preference distribution to accurately signal creators.In this study, we perform system-side user welfare optimization under a competitive game setting among content creators. We propose an algorithmic solution for the platform, which dynamically computes a sequence of weights for each user based on their satisfaction of the recommended content. These weights are then utilized to design mechanisms that adjust the recommendation policy or the post-recommendation rewards, thereby influencing creators' content production strategies. To validate the effectiveness of our proposed method, we report our findings from a series of experiments, including: 1. a proof-of-concept negative example illustrating how creators' strategies converge towards sub-optimal states without platform intervention; 2. offline experiments employing our proposed intervention mechanisms on diverse datasets; and 3. results from a three-week online experiment conducted on Instagram Reels short-video recommendation platform.