LC
Li‐Der Chou
Author with expertise in Software-Defined Networking and Network Virtualization
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
4
(25% Open Access)
Cited by:
433
h-index:
23
/
i10-index:
47
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Dynamic Resource Prediction and Allocation for Cloud Data Center Using the Multiobjective Genetic Algorithm

Fan‐Hsun Tseng et al.Jul 21, 2017
In order to optimize the resource utilization of physical machines (PMs), the workload prediction of virtual machines (VMs) is vital but challenging. Most of existing literatures focus on either resource prediction or allocation individually, but both of them are highly correlated. In this paper, we propose a multiobjective genetic algorithm (GA) to dynamically forecast the resource utilization and energy consumption in cloud data center. We formulate a multiobjective optimization problem of resource allocation, which considers the CPU and memory utilization of VMs and PMs, and the energy consumption of data center. The proposed GA forecasts the resource requirement of next time slot according to the historical data in previous time slots. We further propose a VM placement algorithm to allocate VMs for next time slot based on the prediction results of GA. In our simulation-based analysis, the optimal solution for resource prediction under stable and unstable utilization tendency is found by the proposed GA. The prediction result is superior to the previous proposed Grey forecasting model. Results show that the proposed VM placement algorithm not only increases the average utilization level of CPU and memory but also decreases the energy consumption of cloud data center.
0

Diversified RACE Sampling on Data Streams Applied to Metagenomic Sequence Analysis

Benjamin Coleman et al.Nov 25, 2019
The rise of whole-genome shotgun sequencing (WGS) has enabled numerous breakthroughs in large-scale comparative genomics research. However, the size of genomic datasets has grown exponentially over the last few years, leading to new challenges for traditional streaming algorithms. Modern petabyte-sized genomic datasets are difficult to process because they are delivered by high-throughput data streams and are difficult to store. As a result, many traditional streaming problems are becoming increasingly relevant. One such problem is the task of constructing a maximally diverse sample over a data stream. In this regime, complex sampling procedures are not possible due to the overwhelming data generation rate. In theory, the best diversity sampling methods are based on a simple greedy algorithm that compares the current sequence with a large pool of sampled sequences and decides whether to accept or reject the sequence. While these methods are elegant and optimal, they are largely confined to the theoretical realm because the greedy procedure is too slow in practice. While there are many methods to identify common elements in data streams efficiently, fast and memory-efficient diversity sampling remains a challenging and fundamental data streaming problem with few satisfactory solutions. In this work, we bridge the gap with RACE sampling, an online algorithm for diversified sampling. Unlike random sampling, which samples uniformly, RACE selectively accepts samples from streams that lead to higher sequence diversity. At the same time, RACE is as computationally efficient as random sampling and avoids pairwise similarity comparisons between sequences. At the heart of RACE lies an efficient lookup array constructed using locality-sensitive hashing (LSH). Our theory indicates that an accept/reject procedure based on LSH lookups is sufficient to obtain a highly diverse subsample. We provide rigorous theoretical guarantees for well-known biodiversity indices and show that RACE can nearly double the Shannon and Simpson indices of a genetic sample in practice, all while using the same resources as random sampling. We also compare RACE against Diginorm and coreset-based diversity sampling methods and find that RACE is faster and more memory efficient. Our algorithm is straightforward to implement, easy to parallelize, and fast enough to keep pace with the overwhelming data generation rates. We expect that as DNA sequence data streams become more mainstream and faster, RACE will become an essential component for many applications