[Wordpress → Astro] Phần 1 - Chuyển bài viết từ Database qua file Markdown

Bên cạnh blog Thuanbui này, mình còn có khá nhiều blog cá nhân khác được duy trì trong nhiều năm qua. Một số blog vẫn được cập nhật thường xuyên, nhưng cũng có vài blog gần như không còn viết thêm bài mới nữa.

Tuy nhiên, dù không cập nhật nội dung, mình vẫn phải duy trì hệ thống: cập nhật plugin, cập nhật core, quản lý server, database, backup… Những việc này thực ra không khó, nhưng lại tốn thời gian cho những website gần như không còn cập nhật nội dung.

Vì vậy mình đã bắt đầu nghĩ đến phương án mới: chuyển các blog ít cập nhật sang dạng trang tĩnh (static site) theo mô hình Jamstack. Với static site, mọi thứ đơn giản hơn rất nhiều: không cần database, không cần chạy PHP, không phải lo plugin bị lỗi hay vấn đề bảo mật. Chỉ cần build ra HTML và deploy lên CDN là xong.

Đây cũng là cơ hội để mình thử nghiệm và tìm hiểu thêm các công nghệ mới của web development. Ít nhiều chắc chắn sẽ giúp ích cho công việc Laravel Developer hiện tại.

Sau khi tìm hiểu một thời gian về các công cụ tạo static site, mình quyết định chọn Astro, vì các lý do:

Astro đang ngày càng phổ biến trong cộng đồng static site (https://stackcrawler.com/most-popular-static-site-generator)
Gần đây Cloudflare đã mua lại Astro, cho thấy tiềm năng phát triển lâu dài của framework này. (https://astro.build/blog/joining-cloudflare/)
Một số blogger và developer mà mình theo dõi cũng đã chuyển sang Astro, ví dụ: Chris Lema đã chuyển qua Astro sau 20 năm dùng WordPress
Ngay cả blog của tác giả OpenClaw cũng đang sử dụng Astro: https://steipete.me/

Thật ra, mục tiêu cuối cùng của mình là chuyển 2 blog chính: Thuanbui.me và Yeuchaybo.com sang Astro. Tuy nhiên, trước khi làm vậy, mình muốn thử nghiệm trên một blog khác trước để rút kinh nghiệm. Blog mình chọn để làm chuột bạch đầu tiên là balodeplao.com - blog về du lịch, trải nghiệm của hai vợ chồng mình, đã rất lâu không có bài viết mới.

Trong bài viết này, mình sẽ chia sẻ lại toàn bộ quá trình migrate một blog từ WordPress sang Astro, từ việc export dữ liệu, chuyển đổi nội dung, xử lý hình ảnh, cho đến deploy static site.

Hy vọng kinh nghiệm này sẽ hữu ích cho các bạn đang có cùng ý định chuyển đổi từ WordPress sang Astro framework.

Stack sử dụng

Dưới đây là tech stack mình sẽ sử dụng cho blog khi chuyển qua Astro

Layer	Công nghệ	Chi phí
Framework	Astro	Free
Content	GitHub (Markdown files)	Free
Images	Cloudflare R2	Free (10GB)
Hosting	Cloudflare Pages	Free
Comments	Giscus	Free
Online Editor	Sveltia CMS	Free

Yêu cầu hệ thống

Mình sử dụng Macbook Air M2 để xử lý công việc. Khuyến khích mọi người sử dụng Linux hoặc macOS để tiện thao tác. Nếu đang dùng Windows thì có thể sử dụng WSL2 để chạy Linux.

Đã cài đặt Node.js v20+ ( dùng lệnh node --version để kiểm tra)
Đã có sẵn tài khoản Github (free) và Cloudflare (free)
Đã cài đặt Git (git --version) và Github CLI
GitHub CLI đã cài và đăng nhập (gh auth status)
Đã cài đặt rclone đã cài
Blog WordPress đang chạy

Công việc sẽ gồm 4 phần chính

Giai đoạn 1 - Chuyển đổi nội dung từ WordPress qua Markdown
Giai đoạn 2 - Cài đặt Astro
Giai đoạn 3 - Upload ảnh lên Cloudflare R2
Giai đoạn 4 - Đồng bộ lên Github và deploy lên Cloudflare Worker

Ngoài ra còn 2 giai đoạn phụ: Cài đặt Sveltia CMS để chỉnh sửa nội dung blog tiện lợi hơn và Giscus cho tính năng comment của blog, sẽ không được sử dụng cho blog balodeplao.com. Bao giờ mình chuyển đổi blog Thuanbui.me này qua Astro sẽ có bài hướng dẫn hai cái đó sau.

Bài viết [Phần 1] hôm nay sẽ chia sẻ về Giai đoạn 1 - Chuyển đổi nội dung từ WordPress qua Markdown. Đây là bước tốn nhiều thời gian nhất để bảo đảm nội dung và hình ảnh trên blog được giữ trọn vẹn sau khi chuyển qua Astro.

1. Export nội dung từ WordPress

WordPress lưu nội dung bài viết trong database. Trong khi đó các công cụ tạo static site như Astro, Hugo,… thường sử dụng Markdown file để quản lý nội dung, theo mô hình Jamstack (không cần database).

Vì vậy khi migrate từ WordPress sang Astro, bước đầu tiên là export nội dung từ WordPress, sau đó convert sang Markdown để dùng cho static site.

Vào WordPress Admin → Tools → Export → All Content
Click Download Export File
Lưu file .xml về máy

2. Tạo thư mục làm việc

Tạo thư mục trên máy để xử lý file xml vừa mới tải về

1
mkdir ~/blog-migration
2
mv ~/Downloads/*.xml ~/blog-migration/
3
cd ~/blog-migration

3. Xử lý link ảnh

Chú ý: bước này không bắt buộc, bạn có thể bỏ qua nếu muốn giữ nguyên cấu trúc nội dung blog hiện tại.

Trên blog cũ, khá nhiều hình ảnh được chèn trong bài viết không phải ảnh gốc full size mà ảnh thumbnail (size Large / Medium). Các file này thường có thêm phần thông tin size được chèn sau tên, ví dụ filename-900x600.jpg

Mình muốn tải file gốc filename.jpg thay vì ảnh thumbnail nên cần xử lý file xml trước khi chuyển đổi qua markdown.

Tạo file mới có tên gọi wp-image-fixer.sh trong thư mục blog-migration và copy nội dung này vào

https://gist.github.com/10h30/f6720ebbad3d5acd40e20a9883690bcb

1
#!/usr/bin/env bash
2
# ==============================================================================
3
# Replaces resized WordPress image URLs with originals in an XML export file.
4
# Usage:
5
#   ./wp-image-fixer.sh           # dry-run: scan and log results
6
#   ./wp-image-fixer.sh --apply   # apply replacements from cached log
7
# ==============================================================================
8
set -euo pipefail
9
LOG=".wp-image-check.log"
10
URLS=".wp-image-urls.tmp"
11
MAP=".wp-image-map.txt"
12
APPLY=false
13
PARALLEL=50
14
TIMEOUT=5
15
[[ "${1:-}" == "--apply" ]] && APPLY=true
16
info()    { echo "[info]  $*"; }
17
success() { echo "[ok]    $*"; }
18
warn()    { echo "[warn]  $*"; }
19
die()     { echo "[error] $*" >&2; exit 1; }
20
# ------------------------------------------------------------------------------
21
# Cleanup on exit or Ctrl+C
22
# ------------------------------------------------------------------------------
23
cleanup() {
24
    rm -f "$URLS" "${LOG}.lock"
25
    kill 0 2>/dev/null || true
26
}
27
trap cleanup INT TERM
28
trap 'rm -f "$URLS" "${LOG}.lock"' EXIT
29
# ------------------------------------------------------------------------------
30
# Detect existing log / prompt for input
31
# ------------------------------------------------------------------------------
32
if $APPLY; then
33
    [[ -f "$LOG" ]] || die "No scan found. Run the script without --apply first."
34
    INPUT=$(grep '^FILE|' "$LOG" | cut -d'|' -f2)
35
    info "Existing scan found for: $INPUT"
36
    echo
37
    read -rp "Apply fixes using cached results? (y/N): " confirm
38
    [[ "$confirm" != "y" ]] && exit 0
39
else
40
    if [[ -f "$LOG" ]]; then
41
        info "Removing previous scan results..."
42
        rm -f "$LOG"
43
    fi
44
    read -rp "Enter WordPress XML export file: " INPUT
45
    [[ -f "$INPUT" ]] || die "File not found: $INPUT"
46
    echo "FILE|$INPUT" > "$LOG"
47
fi
48
# ------------------------------------------------------------------------------
49
# DRY RUN — scan images and check originals
50
# ------------------------------------------------------------------------------
51
if ! $APPLY; then
52
    echo
53
    info "Extracting resized image URLs..."
54
    grep -oE 'https?://[^"[:space:]]+-[0-9]+x[0-9]+\.(jpg|jpeg|png|webp)' "$INPUT" \
55
        | sort -u > "$URLS"
56
    TOTAL=$(wc -l < "$URLS" | tr -d ' ')
57
    info "Found $TOTAL resized image URLs"
58
    echo
59
    if [[ "$TOTAL" -eq 0 ]]; then
60
        warn "No resized images found. Nothing to do."
61
        rm -f "$LOG"
62
        exit 0
63
    fi
64
    EST=$(( (TOTAL / PARALLEL) * TIMEOUT ))
65
    info "Checking originals (~${EST}s estimated)..."
66
    echo
67
    check_url() {
68
        local resized="$1"
69
        local log="$2"
70
        local timeout="$3"
71
        local lockfile="${log}.lock"
72
        local original
73
        original=$(echo "$resized" | sed -E 's/-[0-9]+x[0-9]+(\.(jpg|jpeg|png|webp))/\1/')
74
        local code
75
        # Follow redirects (-L) so we resolve 301/302 to a final status
76
        code=$(curl -s -o /dev/null -w "%{http_code}" \
77
            --max-time "$timeout" \
78
            --head \
79
            -L \
80
            --retry 1 --retry-delay 1 \
81
            "$original" 2>/dev/null || echo "000")
82
        # Fall back to GET range if server blocks HEAD
83
        if [[ "$code" == "405" || "$code" == "403" || "$code" == "000" ]]; then
84
            code=$(curl -s -o /dev/null -w "%{http_code}" \
85
                --max-time "$timeout" \
86
                -L \
87
                -H "Range: bytes=0-0" \
88
                "$original" 2>/dev/null || echo "000")
89
        fi
90
        local result
91
        if [[ "$code" == "200" || "$code" == "206" ]]; then
92
            result="OK|$resized|$original"
93
        else
94
            result="MISS|$resized|$original ($code)"
95
        fi
96
        # Atomic write with flock to prevent race conditions from parallel workers
97
        (
98
            flock -x 200
99
            echo "$result" >> "$log"
100
        ) 200>"$lockfile"
101
    }
102
    export -f check_url
103
    # Feed via cat to avoid xargs -a flag (not supported on all systems)
104
    cat "$URLS" | xargs -P "$PARALLEL" -I{} bash -c 'check_url "$@"' _ {} "$LOG" "$TIMEOUT" &
105
    WORKER_PID=$!
106
    while kill -0 "$WORKER_PID" 2>/dev/null; do
107
        DONE=$(grep -c '^\(OK\|MISS\)' "$LOG" 2>/dev/null || true)
108
        printf "\r    Progress: %d / %d" "$DONE" "$TOTAL" >&2
109
        sleep 0.3
110
    done
111
    wait "$WORKER_PID" 2>/dev/null || true
112
    DONE=$(grep -c '^\(OK\|MISS\)' "$LOG" 2>/dev/null || true)
113
    printf "\r    Progress: %d / %d\n" "$DONE" "$TOTAL" >&2
114
    OK_COUNT=$(grep -c '^OK'   "$LOG" || true)
115
    MISS_COUNT=$(grep -c '^MISS' "$LOG" || true)
116
    echo
117
    echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
118
    success "$OK_COUNT images ready to fix"
119
    [[ "$MISS_COUNT" -gt 0 ]] && warn "$MISS_COUNT originals not found — will be skipped"
120
    echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
121
    if [[ "$MISS_COUNT" -gt 0 ]]; then
122
        echo
123
        info "Skipped URLs:"
124
        grep '^MISS' "$LOG" | cut -d'|' -f2
125
    fi
126
    echo
127
    info "To apply fixes run:  ./wp-image-fixer.sh --apply"
128
    echo
129
    exit 0
130
fi
131
# ------------------------------------------------------------------------------
132
# APPLY — fast single-pass Perl replacement
133
# ------------------------------------------------------------------------------
134
INPUT=$(grep '^FILE|' "$LOG" | cut -d'|' -f2)
135
OUTPUT="fixed-$(basename "$INPUT")"
136
echo
137
info "Applying fixes to $INPUT..."
138
grep '^OK' "$LOG" | awk -F'|' '{print $2 "\t" $3}' > "$MAP"
139
COUNT=$(wc -l < "$MAP" | tr -d ' ')
140
if [[ "$COUNT" -eq 0 ]]; then
141
    warn "No fixes to apply."
142
    rm -f "$MAP" "$LOG"
143
    exit 0
144
fi
145
REPLACED=$(perl - "$INPUT" "$MAP" "$OUTPUT" <<'PERL'
146
use strict;
147
use warnings;
148
my ($infile, $mapfile, $outfile) = @ARGV;
149
open(my $mfh, '<', $mapfile) or die "Cannot open map: $!";
150
my %map;
151
while (<$mfh>) {
152
    chomp;
153
    my ($from, $to) = split(/\t/, $_, 2);
154
    $map{$from} = $to if defined $from && defined $to;
155
}
156
close($mfh);
157
my $pattern = join('|', map { quotemeta($_) } sort { length($b) <=> length($a) } keys %map);
158
my $regex    = qr/$pattern/;
159
open(my $in,  '<', $infile)  or die "Cannot open input: $!";
160
open(my $out, '>', $outfile) or die "Cannot open output: $!";
161
my %seen;
162
while (my $line = <$in>) {
163
    $line =~ s/($regex)/do { $seen{$1} = 1; $map{$1} }/ge;
164
    print $out $line;
165
}
166
close($in);
167
close($out);
168
print scalar keys %seen, "\n";
169
PERL
170
)
171
rm -f "$MAP" "$LOG"
172
echo
173
echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
174
success "$REPLACED image URLs replaced — saved as $OUTPUT"
175
echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
176
echo

Cấp quyền thực thi cho file vừa tạo

1
chmod +x wp-image-fixer.sh

Chạy lệnh sau để kiểm tra danh sách có bao nhiêu file cần chỉnh sửa

1
./wp-image-fixer.sh

Nhập vào tên file xml để xử lý và ngồi đợi khoảng vài phút để hệ thống xử lý, tùy thuộc vào số lượng hình ảnh đang có trên blog.

Mục đích của file này là để kiểm tra xem file gốc filename.jpg có tồn tại không. Nhiều trường hợp file gốc không còn trên server, việc đổi tên sẽ khiến link đến file không tồn tại

Kết quả như sau: có 43 link không cần cập nhật vì file gốc không tồn tại

1
Enter WordPress XML export file: balampdplo.WordPress.2026-03-10.xml
2
[info]  Extracting resized image URLs...
3
[info]  Found 1782 resized image URLs
4
[info]  Checking originals (~175s estimated)...
5
    Progress: 1782 / 1782
6
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
7
[ok]    1739 images ready to fix
8
[warn]  43 originals not found — will be skipped
9
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
10
[info]  Skipped URLs:
11
[info]  To apply fixes run:  ./wp-image-fixer.sh --apply

Cần chạy lệnh trên thêm một lần nữa với tham số --apply để áp dụng những thay đổi này lên file xml. Bước đầu tiên chỉ để kiểm tra và tạo log, bước apply này sẽ tạo ra một file mới với cái link hình ảnh đã được cập nhập.

1
./wp-image-fixer.sh --apply

Xác nhận y và đợi vài giây là xong

1
[info]  Existing scan found for: balampdplo.WordPress.2026-03-08.xml
2
Apply fixes using cached results? (y/N): y
3
[info]  Applying fixes to balampdplo.WordPress.2026-03-08.xml...
4
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
5
[ok]    1739 image URLs replaced — saved as fixed-balampdplo.WordPress.2026-03-08.xml
6
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

File xml sau khi chỉnh sửa sẽ có tên fixed-xxxx.xml sẵn sàng được chuyển đổi qua Markdown ở bước kế tiếp

4. Chuyển đổi XML sang Markdown

Để chuyển đổi file XML sang Markdown (*.md), mình sử dụng công cụ wordpress-export-to-markdown.

1
npx wordpress-export-to-markdown \
2
  --prefix-date=true \
3
  --post-folders=false \
4
  --frontmatter-fields=title,author,date:pubDatetime,categories,tags,coverImage:image,draft,slug \
5
  --save-images=all \
6
  --date-folders=none

Lưu ý: Với 100+ bài, quá trình download ảnh mất 10–20 phút. Không đóng Terminal trong khi xử lý.

Toàn bộ nội dung sẽ được lưu trong thư mục output/:

Tất cả nội dung của log được lưu dưới định dạng .md trong thư mục con posts
Các trang (pages) được lưu trong thư mục pages
Các nội dung khác sẽ nằm trong custom
Thư mục images/ chứa toàn bộ ảnh

1
output
2
├── custom
3
│   ├── advanced_ads
4
│   │   └── images
5
│   ├── cp_popups
6
│   ├── foogallery
7
│   ├── google_maps
8
│   ├── surl
9
│   ├── tablepress_table
10
│   └── wpcf7_contact_form
11
├── pages
12
│   ├── _drafts
13
│   └── images
14
└── posts
15
    └── images

5. Dọn dẹp ảnh, Gutenberg block, shortcode,…

Đây là bước tốn nhiều thời gian nhất. Tùy thuộc vào số lượng bài viết, cấu trúc nội dung bài viết mà cần phải tùy biến cho phù hợp.

Đầu tiên, mình kiểm tra một số file md thì thấy còn khá nhiều link hình ảnh vẫn còn liên kết đến ảnh gốc dạng https://…., ví dụ

1
![](/images/sansai-ryori-bldl01.jpg)](https://balodeplao.com/wp-content/uploads/2017/04/sansai-ryori-bldl01.jpg)

Mình chạy thử lệnh này để kiểm tra xem bao nhiêu file gặp tình trạng này

1
grep -rn 'wp-content' output/posts/ --include='*.md'

Kết quả trả về quá nhiều nên không thể chỉnh sửa thủ công được. Dùng lệnh này để xử lý toàn bộ

1
find output/posts/ -name '*.md' -exec perl -i -pe '
2
s/\[!\[.*?\]\(([^)]+)\)\]\((https?:)?\/\/[^)]*wp-content\/uploads[^)]*\)/![]($1)/g;
3
s/\[\]\((https?:)?\/\/[^)]*wp-content\/uploads[^)]*\)//g;
4
' {} +

Lệnh này sẽ cập nhật tất cả các link dạng [![](/images/local.jpg)](https://site.com/image.jpg) thành ![](/images/local.jpg)

Tiếp theo dùng lệnh này để kiểm tra xem các link ảnh trong file md có tồn tại trong thư mục images. Vì nếu ảnh không tồn tại sẽ bị lỗi khi Astro build sau này.

1
# Find all images referenced in .md files, then check if the file actually exists
2
find output/posts/ -name "*.md" | while read f; do
3
  dir=$(dirname "$f")
4
  grep -oE '!\[[^]]*\]\(/images/[^)]+\)' "$f" | grep -oE 'images/[^)]+' | while read img; do
5
    if [ ! -f "$dir/$img" ]; then
6
      echo "MISSING: $dir/$img (in $f)"
7
    fi
8
  done
9
done

Kết quả

1
MISSING: /home/mcj/test_folder/output/posts/_drafts/images/q (in /home/mcj/test_folder/output/posts/_drafts/id-4313.md)
2
MISSING: /home/mcj/test_folder/output/posts/_drafts/images/ir (in /home/mcj/test_folder/output/posts/_drafts/id-4313.md)
3
MISSING: /home/mcj/test_folder/output/posts/images/credit-card-statement-620x387.jpg (in /home/mcj/test_folder/output/posts/2015-07-10-lam-gi-khi-the-tin-dung-cua-ban-bi-hack.md)
4
MISSING: /home/mcj/test_folder/output/posts/images/ubersuv-voi-gia-uberBLACK.jpg (in /home/mcj/test_folder/output/posts/2015-12-07-ubersuv-nhieu-cho-hon-gia-khong-doi.md)

Để xử lý, mình sẽ tải thủ công các file này về hoặc xóa link trong file markdown tương ứng để tránh gặp lỗi khi Astro compile.

Tiếp theo sẽ cần phải dọn dẹp các hình ảnh hồi xa xưa còn dùng shortcode caption, và xóa các dòng comment liên quan đến Guterberg.

Chạy thử kiểm tra

1
bash << 'EOF'
2
cd output/posts
3
fixed=0
4
for file in *.md; do
5
  original=$(cat "$file")
6
  content=$(perl -0777 -pe '
7
    s/\\\[caption\b[^\[]*?\\\]\s*(!\[[^\]]*\]\([^)]*\))\s*(.*?)\s*\\\[\/caption\\\]/
8
      my $img = $1; my $cap = $2;
9
      $cap =~ s|^\s+||; $cap =~ s|\s+$||;
10
      $img =~ m|!\[([^\]]*)\]\(([^)]*)\)|;
11
      my $alt = $1; my $src = $2;
12
      $cap ? "![$cap]($src)" : "![$alt]($src)"
13
    /gxse;
14
    s/<!--\s*wp:[^>]+-->//g;
15
    s/<!--\s*\/wp:[^>]+-->//g;
16
  ' "$file")
17
  content=$(printf '%s' "$content" | perl -0777 -pe 's/\n{3,}/\n\n/g')
18
  if [ "$content" != "$original" ]; then
19
    echo "Would fix: $file"
20
    ((fixed++))
21
  fi
22
done
23
echo ""
24
echo "Total: $fixed files would be fixed"
25
EOF

Chạy thiệt để chỉnh sửa

1
bash << 'EOF'
2
cd output/posts
3
fixed=0
4
for file in *.md; do
5
  original=$(cat "$file")
6
  content=$(perl -0777 -pe '
7
    s/\\\[caption\b[^\[]*?\\\]\s*(!\[[^\]]*\]\([^)]*\))\s*(.*?)\s*\\\[\/caption\\\]/
8
      my $img = $1; my $cap = $2;
9
      $cap =~ s|^\s+||; $cap =~ s|\s+$||;
10
      $img =~ m|!\[([^\]]*)\]\(([^)]*)\)|;
11
      my $alt = $1; my $src = $2;
12
      $cap ? "![$cap]($src)" : "![$alt]($src)"
13
    /gxse;
14
    s/<!--\s*wp:[^>]+-->//g;
15
    s/<!--\s*\/wp:[^>]+-->//g;
16
  ' "$file")
17
  content=$(printf '%s' "$content" | perl -0777 -pe 's/\n{3,}/\n\n/g')
18
  if [ "$content" != "$original" ]; then
19
    printf '%s\n' "$content" > "$file"
20
    echo "✅ Fixed: $file"
21
    ((fixed++))
22
  fi
23
done
24
echo ""
25
echo "✨ Done! Fixed $fixed files."
26
EOF

6. Xóa ảnh không sử dụng

Mình cũng sẽ kiểm tra xem có file ảnh nào nằm trong thư mục images nhưng không sử dụng (không xuất hiện trong bất kỳ file md nào).
Kiểm tra thử xem có bao nhiêu file ảnh không sử dụng

1
bash << 'EOF'
2
cd output/posts
3
{
4
  grep -ohE 'images/[^)]+' *.md
5
  grep -ohE '^coverImage:\s*"[^"]*"' *.md | grep -ohE '[^/"]+\.(jpg|jpeg|png|webp|gif)' | sed 's/^/images\//'
6
} | sort -u > .used_images.tmp
7
unused=0
8
while read img; do
9
  rel="images/$(basename "$img")"
10
  if ! grep -qF "$rel" .used_images.tmp; then
11
    echo "UNUSED: $img"
12
    ((unused++))
13
  fi
14
done < <(find images/ -type f)
15
rm .used_images.tmp
16
echo "---"
17
echo "Total unused: $unused"
18
EOF

Kết quả

1
UNUSED: images/Nusa-Dua-BLDL-17.jpg
2
UNUSED: images/Flower-Dome-07.jpg
3
UNUSED: images/Cloud-Forest-09.jpg
4
UNUSED: images/Cloud-Forest-08.jpg
5
UNUSED: images/Flower-Dome-06.jpg
6
UNUSED: images/Wings-of-Time06.jpg
7
UNUSED: images/Nusa-Dua-BLDL-16.jpg
8
---
9
Total unused: 60

Xóa các file không sử dụng bằng lệnh này

1
bash << 'EOF'
2
cd output/posts
3
{
4
  grep -ohE 'images/[^)]+' *.md
5
  grep -ohE '^coverImage:\s*"[^"]*"' *.md | grep -ohE '[^/"]+\.(jpg|jpeg|png|webp|gif)' | sed 's/^/images\//'
6
} | sort -u > .used_images.tmp
7
deleted=0
8
while read img; do
9
  rel="images/$(basename "$img")"
10
  if ! grep -qF "$rel" .used_images.tmp; then
11
    echo "DELETED: $img"
12
    rm "$img"
13
    ((deleted++))
14
  fi
15
done < <(find images/ -type f)
16
rm .used_images.tmp
17
echo "---"
18
echo "Total deleted: $deleted"
19
EOF

Vậy là xong Giai đoạn 1. Tất cả bài viết trên WordPress đã được chuyển đổi thành công qua file markdown, sẵn sàng để dọn nhà qua Astro.

Hẹn gặp lại [Phần 2] Cài đặt và cấu hình Astro