bootstrapif [[ -n "" ]]; then VLLM_CI_BRANCH= curl -sSL "https://raw.githubusercontent.com/vllm-project/buildkite-ci//scripts/ci_aws_bootstrap.sh" | bash && exit 0; fi && curl -sSL "https://raw.githubusercontent.com/vllm-project/buildkite-ci/main/scripts/ci_aws_bootstrap.sh" | bash

Ran in 13s

build imageaws ecr-public get-login-password --region us-east-1 | docker login --username AWS --password-stdin public.ecr.aws/q9t5s3a7 && #!/bin/bash && if [[ -z $(docker manifest inspect public.ecr.aws/q9t5s3a7/vllm-ci-postmerge-repo:cf5f000d218fbcbc4bf404de8ed9d9607a128c3b) ]]; then && echo "Image not found, proceeding with build..." && else && echo "Image found" && exit 0 && fi && docker build --build-arg max_jobs=16 --build-arg buildkite_commit=cf5f000d218fbcbc4bf404de8ed9d9607a128c3b --build-arg USE_SCCACHE=1 --tag public.ecr.aws/q9t5s3a7/vllm-ci-postmerge-repo:cf5f000d218fbcbc4bf404de8ed9d9607a128c3b --target test --progress plain . && docker push public.ecr.aws/q9t5s3a7/vllm-ci-postmerge-repo:cf5f000d218fbcbc4bf404de8ed9d9607a128c3b

Ran in 30m 9s

Documentation Build

Ran in 3m 14s

Async Engine, Inputs, Utils, Worker Test

Ran in 53m 53s

Python-only Installation Test

Basic Correctness Test

Ran in 16m 47s

Chunked Prefill Test

Ran in 17m 6s

Core Test

Entrypoints Test

Ran in 1h 21m

Distributed Tests (4 GPUs)

Metrics, Tracing Test

Ran in 12m 37s

Regression Test

Ran in 4m 55s

Engine Test

Ran in 15m 42s

V1 Test

Ran in 8m 6s

Examples Test

Prefix Caching Test

Ran in 10m 55s

Samplers Test

LogitsProcessor Test

Speculative decoding tests

1/4

LoRA Test 1

2/4

LoRA Test 2

3/4

LoRA Test 3

4/4

LoRA Test 4

PyTorch Fullgraph Smoke Test

Ran in 12m 6s

PyTorch Fullgraph Test

Ran in 19m 47s

1/4

Kernels Test 1

Ran in 49m 4s

2/4

Kernels Test 2

Ran in 51m 50s

3/4

Kernels Test 3

Ran in 50m 50s

4/4

Kernels Test 4

Ran in 58m 34s

Tensorizer Test

Benchmarks

Quantization Test

LM Eval Small Models

Encoder Decoder tests

Ran in 7m 54s

OpenAI-Compatible Tool Use

Ran in 36m 30s

Basic Models Test

Ran in 21m 29s

Language Models Test (Standard)

Ran in 30m 7s

Language Models Test (Extended)

Multi-Modal Models Test (Standard)

Ran in 33m 1s

Multi-Modal Models Test (Extended) 1

Multi-Modal Models Test (Extended) 2

Custom Models Test

Distributed Comm Ops Test

2 Node Tests (4 GPUs in total)./.buildkite/run-multi-node-test.sh /vllm-workspace/tests 2 2 public.ecr.aws/q9t5s3a7/vllm-ci-postmerge-repo:cf5f000d218fbcbc4bf404de8ed9d9607a128c3b "VLLM_TEST_SAME_HOST=0 torchrun --nnodes 2 --nproc-per-node=2 --rdzv_backend=c10d --rdzv_endpoint=192.168.10.10 distributed/test_same_node.py | grep 'Same node test passed' && VLLM_MULTI_NODE=1 pytest -v -s distributed/test_multi_node_assignment.py && VLLM_MULTI_NODE=1 pytest -v -s distributed/test_pipeline_parallel.py" "VLLM_TEST_SAME_HOST=0 torchrun --nnodes 2 --nproc-per-node=2 --rdzv_backend=c10d --rdzv_endpoint=192.168.10.10 distributed/test_same_node.py | grep 'Same node test passed'"

Distributed Tests (2 GPUs)

Ran in 51m 21s

Plugin Tests (2 GPUs)

Multi-step Tests (4 GPUs)

Ran in 26m 1s

Pipeline Parallelism Test

LoRA TP Test (Distributed)

Weight Loading Multiple GPU Test

Ran in 51m 31s

Weight Loading Multiple GPU Test - Large Models

Distributed Tests (A100)

LM Eval Large Models

AMD:

build imagedocker build --build-arg max_jobs=16 --tag rocm/vllm-ci:cf5f000d218fbcbc4bf404de8ed9d9607a128c3b -f Dockerfile.rocm --progress plain . && docker push rocm/vllm-ci:cf5f000d218fbcbc4bf404de8ed9d9607a128c3b

Ran in 12m 51s

AMD: Core Testbash .buildkite/run-amd-test.sh "(command rocm-smi || true) && export VLLM_LOGGING_LEVEL=DEBUG && export VLLM_ALLOW_DEPRECATED_BEAM_SEARCH=1 && cd /vllm-workspace/tests ; pytest -v -s core"

Ran in 18m 17s

AMD: Entrypoints Testbash .buildkite/run-amd-test.sh "(command rocm-smi || true) && export VLLM_LOGGING_LEVEL=DEBUG && export VLLM_ALLOW_DEPRECATED_BEAM_SEARCH=1 && cd /vllm-workspace/tests ; pytest -v -s entrypoints/llm --ignore=entrypoints/llm/test_lazy_outlines.py --ignore=entrypoints/llm/test_generate.py --ignore=entrypoints/llm/test_generate_multiple_loras.py --ignore=entrypoints/llm/test_guided_generate.py && pytest -v -s entrypoints/llm/test_lazy_outlines.py && pytest -v -s entrypoints/llm/test_generate.py && pytest -v -s entrypoints/llm/test_generate_multiple_loras.py && pytest -v -s entrypoints/llm/test_guided_generate.py && pytest -v -s entrypoints/openai --ignore=entrypoints/openai/test_oot_registration.py && pytest -v -s entrypoints/test_chat_utils.py && pytest -v -s entrypoints/offline_mode"

Ran in 3m 19s

AMD: Regression Testbash .buildkite/run-amd-test.sh "(command rocm-smi || true) && export VLLM_LOGGING_LEVEL=DEBUG && export VLLM_ALLOW_DEPRECATED_BEAM_SEARCH=1 && cd /vllm-workspace/tests ; pip install modelscope && pytest -v -s test_regression.py"

Ran in 5m 34s

AMD: Engine Testbash .buildkite/run-amd-test.sh "(command rocm-smi || true) && export VLLM_LOGGING_LEVEL=DEBUG && export VLLM_ALLOW_DEPRECATED_BEAM_SEARCH=1 && cd /vllm-workspace/tests ; pytest -v -s engine test_sequence.py test_config.py test_logger.py && pytest -v -s tokenization"

Ran in 18m 55s

AMD: Prefix Caching Testbash .buildkite/run-amd-test.sh "(command rocm-smi || true) && export VLLM_LOGGING_LEVEL=DEBUG && export VLLM_ALLOW_DEPRECATED_BEAM_SEARCH=1 && cd /vllm-workspace/tests ; pytest -v -s prefix_caching"

Ran in 16m 35s

AMD: LogitsProcessor Testbash .buildkite/run-amd-test.sh "(command rocm-smi || true) && export VLLM_LOGGING_LEVEL=DEBUG && export VLLM_ALLOW_DEPRECATED_BEAM_SEARCH=1 && cd /vllm-workspace/tests ; pytest -v -s test_logits_processor.py && pytest -v -s model_executor/test_guided_processors.py"

Ran in 4m 20s

AMD: LoRA Test %Nbash .buildkite/run-amd-test.sh "(command rocm-smi || true) && export VLLM_LOGGING_LEVEL=DEBUG && export VLLM_ALLOW_DEPRECATED_BEAM_SEARCH=1 && cd /vllm-workspace/tests ; pytest -v -s lora --shard-id=$BUILDKITE_PARALLEL_JOB --num-shards=$BUILDKITE_PARALLEL_JOB_COUNT --ignore=lora/test_long_context.py --ignore=lora/test_chatglm3_tp.py --ignore=lora/test_llama_tp.py --ignore=lora/test_minicpmv_tp.py"

Ran in 16m 46s

AMD: Kernels Test %Nbash .buildkite/run-amd-test.sh "(command rocm-smi || true) && export VLLM_LOGGING_LEVEL=DEBUG && export VLLM_ALLOW_DEPRECATED_BEAM_SEARCH=1 && cd /vllm-workspace/tests ; pytest -v -s kernels --shard-id=$BUILDKITE_PARALLEL_JOB --num-shards=$BUILDKITE_PARALLEL_JOB_COUNT"

Ran in 3m 15s

AMD: Tensorizer Testbash .buildkite/run-amd-test.sh "(command rocm-smi || true) && export VLLM_LOGGING_LEVEL=DEBUG && export VLLM_ALLOW_DEPRECATED_BEAM_SEARCH=1 && cd /vllm-workspace/tests ; apt-get update && apt-get install -y curl libsodium23 && export VLLM_WORKER_MULTIPROC_METHOD=spawn && pytest -v -s tensorizer_loader"

Ran in 11m 11s

AMD: Benchmarksbash .buildkite/run-amd-test.sh "(command rocm-smi || true) && export VLLM_LOGGING_LEVEL=DEBUG && export VLLM_ALLOW_DEPRECATED_BEAM_SEARCH=1 && cd /vllm-workspace/.buildkite ; bash run-benchmarks.sh"

Ran in 7m 36s

AMD: OpenAI-Compatible Tool Usebash .buildkite/run-amd-test.sh "(command rocm-smi || true) && export VLLM_LOGGING_LEVEL=DEBUG && export VLLM_ALLOW_DEPRECATED_BEAM_SEARCH=1 && cd /vllm-workspace/tests ; pytest -v -s tool_use"

Ran in 17m 37s

Neuron Testbash .buildkite/run-neuron-test.sh

Ran in 3m 6s

Intel CPU Testbash .buildkite/run-cpu-test.sh

Ran in 28m 29s

Intel HPU Testbash .buildkite/run-hpu-test.sh

Ran in 1m 2s

Intel GPU Testbash .buildkite/run-xpu-test.sh

Ran in 1m 46s

IBM Power(ppc64le) CPU Testbash .buildkite/run-cpu-test-ppc64le.sh

Ran in 4m 24s

GH200 Testbash .buildkite/run-gh200-test.sh

Ran in 12m 10s

TPU Testif [[ -f ".buildkite/run-tpu-test.sh" ]]; then bash .buildkite/run-tpu-test.sh; fi && yes | docker system prune -a

Ran in 25m 17s

Total Job Run Time: 16h 7m