Khi vận hành một website, việc đảm bảo các công cụ tìm kiếm có thể thu thập và lập chỉ mục toàn bộ nội dung là yếu tố sống còn. Một trong những công cụ hỗ trợ đắc lực cho quá trình này chính là XML Sitemap. Tuy nhiên, không phải lúc nào tệp sitemap cũng hoạt động trơn tru. Vậy xml sitemap lỗi là gì? Đó là tình trạng tệp sitemap không được Google hoặc các công cụ tìm kiếm khác đọc hiểu hoặc xử lý đúng cách, dẫn đến việc các URL quan trọng không được lập chỉ mục, ảnh hưởng trực tiếp đến thứ hạng và lưu lượng truy cập. Bài viết này sẽ giúp bạn hiểu rõ bản chất của từng loại lỗi, cách phát hiện sớm và giải pháp sửa chữa hiệu quả nhất.
Tổng Quan Về XML Sitemap Và Vai Trò Trong SEO

Trước khi đi sâu vào các lỗi thường gặp, cần nắm rõ XML Sitemap là một tệp chứa danh sách các URL trên website, kèm theo thông tin phụ trợ như ngày cập nhật cuối, tần suất thay đổi và mức độ ưu tiên. Tệp này đóng vai trò như một bản đồ chỉ đường cho bot của Google, Bing, Yahoo,… giúp chúng tìm thấy và thu thập các trang web một cách có hệ thống. Nếu không có sitemap hoặc sitemap bị lỗi, các bot có thể bỏ sót nhiều trang quan trọng, đặc biệt là với những website có cấu trúc phức tạp hoặc nội dung mới được đăng tải.
Các Loại Lỗi XML Sitemap Phổ Biến Và Cách Nhận Diện
Dựa trên thực tế kiểm tra hàng trăm website, các lỗi sitemap thường được phân loại thành các nhóm chính sau:
1. Lỗi Cú Pháp (Syntax Error)
Đây là lỗi phổ biến nhất khi tệp sitemap không tuân thủ đúng định dạng XML. Ví dụ: thiếu thẻ đóng, tên thẻ bị viết hoa không đúng quy tắc, hoặc chứa ký tự đặc biệt không được mã hóa. Google sẽ trả về thông báo “Lỗi cú pháp” trong công cụ Search Console và không thể đọc bất kỳ URL nào trong tệp đó.
- Thiếu dấu </urlset> hoặc </url>
- Sai thứ tự thẻ (ví dụ: <lastmod> đặt trước <loc>)
- Ký tự &, ‘, <, > không được thay thế bằng &, ', <, >
- URL có chứa khoảng trắng: https://example.com/san pham
- URL không có giao thức: example.com/page
- URL chứa ký tự tiếng Việt không encode: https://example.com/sản phẩm
- Sử dụng plugin không tương thích: Nhiều plugin WordPress tạo sitemap lỗi thời, không tuân thủ chuẩn XML mới nhất.
- Thủ công chỉnh sửa tệp: Một số người tự viết sitemap bằng tay và mắc các lỗi cú pháp cơ bản.
- Không kiểm tra sau khi di chuyển domain: Khi chuyển đổi tên miền, sitemap cũ vẫn chứa URL của domain cũ, dẫn đến lỗi chuyển hướng hoặc 404.
- Sitemap quá lớn không được chia nhỏ: Các website thương mại điện tử với hàng trăm nghìn sản phẩm thường gặp lỗi này.
- Tỷ lệ lập chỉ mục tăng trung bình 30-50% sau 2 tuần sửa lỗi (theo dữ liệu từ các case study).
- Bot Google tiết kiệm thời gian crawl, tập trung vào các trang quan trọng.
- Cải thiện thứ hạng từ khóa nhờ các trang mới được index nhanh hơn.
- Giảm tỷ lệ lỗi 404 và redirect không đáng có.
- Đưa quá nhiều URL không quan trọng: Sitemap chỉ nên chứa các trang có giá trị SEO, không phải trang lọc, tag, archive vô dụng.
- Không cập nhật sitemap sau khi xóa trang: Khi xóa bài viết, cần loại bỏ URL đó khỏi sitemap để tránh lỗi 404.
- Chỉ dùng sitemap mà không kiểm tra: Nhiều người quên gửi lại sitemap qua Search Console sau khi chỉnh sửa.
- Đặt giá trị priority và changefreq không thực tế: Google không dùng các giá trị này làm tín hiệu xếp hạng, nhưng việc gán sai có thể gây nhầm lẫn cho bot.
- Luôn sử dụng plugin có uy tín: Yoast SEO, Rank Math, All in One SEO hoặc tạo sitemap động bằng code.
- Kiểm tra sitemap hàng tuần qua Google Search Console, đặc biệt sau khi thay đổi cấu trúc lớn.
- Nén tệp sitemap bằng Gzip để giảm dung lượng và tăng tốc độ tải.
- Đối với website đa ngôn ngữ, sử dụng thẻ
<xhtml:link rel="alternate">để chỉ định các phiên bản ngôn ngữ. - Sitemap nên được đặt ở thư mục gốc (root) và có thể truy cập trực tiếp qua URL.
2. Lỗi URL Không Hợp Lệ (Invalid URL)
Lỗi này xảy ra khi URL trong sitemap không đúng chuẩn. Các trường hợp thường gặp: URL chứa dấu cách, ký tự Unicode không được mã hóa phần trăm, hoặc đường dẫn quá dài (vượt quá 4.000 ký tự). Công cụ tìm kiếm sẽ bỏ qua những URL đó và có thể gây lỗi toàn bộ tệp nếu số lượng vi phạm quá nhiều.
3. Lỗi Chuyển Hướng (Redirect Error)
Một trong những yêu cầu bắt buộc của sitemap là các URL phải trả về mã trạng thái 200 OK. Nếu URL dẫn đến trang 404, bị chuyển hướng 301, 302 hoặc gặp lỗi server 5xx, Google sẽ coi đó là lỗi và không lập chỉ mục. Điều này thường xảy ra khi website thay đổi cấu trúc link mà quên cập nhật sitemap.
4. Lỗi Kích Thước Tệp Vượt Quá Giới Hạn
Google chỉ chấp nhận tệp sitemap có kích thước tối đa 50MB (chưa nén) và tối đa 50.000 URL. Nếu vượt quá, toàn bộ tệp sẽ bị từ chối. Nhiều website lớn mắc lỗi này do không chia nhỏ sitemap thành nhiều tệp chỉ mục (sitemap index).
5. Lỗi Liên Quan Đến Ngày Tháng Và Tần Suất
Thẻ <lastmod> phải tuân thủ định dạng W3C Datetime (ví dụ: 2025-03-20T10:30:00+07:00). Nếu nhập sai format, Google sẽ bỏ qua giá trị đó. Tương tự, thẻ <changefreq> và <priority> không bắt buộc nhưng nếu sử dụng sai giá trị (ví dụ: “daily” viết sai chính tả) cũng có thể gây lỗi nhẹ nhưng không ảnh hưởng đến việc đọc tệp.
6. Lỗi Do Robots.txt Chặn Sitemap
Mặc dù không phải lỗi trong tệp sitemap, nhưng nếu tệp robots.txt chứa chỉ thị Disallow: / hoặc chặn đường dẫn đến sitemap, bot sẽ không thể truy cập được sitemap. Khi kiểm tra trong Google Search Console, bạn sẽ thấy thông báo “Sitemap bị chặn bởi robots.txt”.
Bảng So Sánh Các Loại Lỗi Sitemap Và Mức Độ Ảnh Hưởng

| Loại Lỗi | Dấu Hiệu Nhận Biết | Mức Độ Ảnh Hưởng | Thời Gian Xử Lý |
|---|---|---|---|
| Cú pháp XML | Không đọc được toàn bộ sitemap | Cao (toàn bộ URL không được crawl) | Ngay lập tức |
| URL không hợp lệ | Một số URL bị bỏ qua | Trung bình | Cần kiểm tra danh sách cụ thể |
| Chuyển hướng | Google báo “Trang không có chỉ mục” | Cao nếu là chuyển hướng 301 sai | Phải cập nhật URL thực tế |
| Kích thước tệp | Không đọc được sitemap | Cao (phải chia nhỏ lại) | 1-2 giờ tùy dung lượng |
| Robots.txt chặn | Search Console báo “Lỗi tìm nạp” | Rất cao (không thể truy cập) | Chỉ cần sửa robots.txt |
Nguyên Nhân Gốc Rễ Gây Ra Lỗi XML Sitemap
Phần lớn các lỗi sitemap đến từ việc quản trị viên thiếu kiểm tra sau khi thay đổi cấu trúc website, hoặc sử dụng plugin tạo sitemap tự động nhưng không cập nhật kịp. Cụ thể:
Cách Phát Hiện Lỗi XML Sitemap Nhanh Chóng

Có ba công cụ chính xml version=”1.0″ encoding=”UTF-8″?> và thẻ gốc <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">. Nếu sử dụng plugin, hãy tái tạo lại sitemap từ đầu hoặc nâng cấp plugin lên phiên bản mới nhất.
Cách Sửa Lỗi URL Không Hợp Lệ
Rà soát danh sách URL trong sitemap, mã hóa tất cả ký tự đặc biệt bằng percent-encoding (ví dụ: sản phẩm -> s%E1%BA%A3n%20ph%E1%BA%A9m). Sử dụng công cụ online để encode hàng loạt. Đồng thời loại bỏ các URL trùng lặp, URL chứa tham số không cần thiết.
Cách Sửa Lỗi Chuyển Hướng
Thay thế tất cả các URL cũ bằng URL cuối cùng sau khi redirect. Nếu website đã thay đổi cấu trúc, hãy cập nhật lại sitemap với các URL mới. Đối với các trang đã bị xóa, hãy gỡ bỏ hoàn toàn khỏi sitemap hoặc trả về mã 410 (Gone) thay vì 301.
Cách Sửa Lỗi Kích Thước Quá Lớn
Chia tệp sitemap thành nhiều phần, mỗi phần không quá 50.000 URL và 50MB. Sau đó tạo một tệp sitemap chỉ mục (sitemap index) liệt kê tất cả các tệp thành phần. Google sẽ tự động theo dõi từng tệp con.
Cách Xử Lý Lỗi Robots.txt
Mở tệp robots.txt và kiểm tra dòng Disallow: không chặn đường dẫn sitemap. Thêm dòng Sitemap: https://example.com/sitemap.xml để chỉ định rõ cho bot. Nếu vô tình chặn toàn bộ website, sửa lại thành Disallow:(để trống) hoặc chỉ chặn các thư mục không cần thiết.
Lợi Ích Khi Khắc Phục Triệt Để Lỗi Sitemap
Sai Lầm Thường Gặp Khi Tối Ưu XML Sitemap

Lưu Ý Quan Trọng Khi Xây Dựng Và Duy Trì Sitemap
Câu Hỏi Thường Gặp Về XML Sitemap Lỗi (FAQ)

Làm sao để biết sitemap của tôi có lỗi hay không?
Sử dụng Google Search Console: vào Sitemap, nếu trạng thái hiển thị “Có lỗi” hoặc “Cảnh báo”, tức là sitemap đang gặp vấn đề. Bạn cũng có thể dùng trình duyệt mở trực tiếp tệp sitemap.xml để kiểm tra lỗi cú pháp.
Lỗi sitemap có ảnh hưởng đến toàn bộ website không?
Không hoàn toàn. Google vẫn có thể thu thập các trang thông qua link nội bộ. Tuy nhiên, nếu sitemap lỗi lớn (cú pháp, kích thước), các trang mới hoặc sâu sẽ khó được index kịp thời.
Có cần xóa sitemap cũ và tạo lại từ đầu không?
Nếu sitemap có quá nhiều lỗi không thể sửa thủ công, bạn nên tạo lại từ plugin hoặc công cụ hỗ trợ. Sau đó, xóa sitemap cũ khỏi Search Console và gửi URL mới.
Sitemap có thể chứa URL của trang khác domain không?
Không. Mỗi sitemap chỉ được phép chứa URL thuộc cùng một domain hoặc subdomain đã được khai báo. Nếu muốn khai báo nhiều domain, cần tạo từng sitemap riêng.
Lỗi “Sitemap có thể đọc được nhưng có cảnh báo” có nghiêm trọng không?
Cảnh báo thường không ngăn Google đọc sitemap, nhưng có thể làm giảm hiệu quả lập chỉ mục. Ví dụ: URL trong sitemap bị noindex, chuyển hướng hoặc 404. Bạn nên xử lý càng sớm càng tốt.
Kết Luận
Hiểu rõ xml sitemap lỗi là gì và cách xử lý từng loại lỗi là kỹ năng thiết yếu với bất kỳ SEOer hay quản trị website nào. Những lỗi tưởng chừng nhỏ như cú pháp sai, URL hỏng, hay kích thước quá lớn có thể khiến hàng trăm trang quan trọng bị bỏ qua bởi Google. Bằng cách thường xuyên kiểm tra, cập nhật sitemap và áp dụng các giải pháp khắc phục đã nêu, bạn sẽ đảm bảo website luôn được thu thập dữ liệu một cách tối ưu nhất. Đừng quên kết hợp sitemap với chiến lược link building và nội dung chất lượng để đạt được thứ hạng bền vững trên bảng xếp hạng.
- Khắc phục lỗi WordPress EmailOctopus SMTP: Nguyên nhân và giải pháp chi tiết
- Theme WordPress Author Page Lỗi: Nguyên Nhân, Cách Khắc Phục và Tối Ưu Toàn Diện
- Khắc phục lỗi WordPress Email Image Attachment: Nguyên nhân và giải pháp toàn diện
- Theme WordPress theme.json là gì? Hướng dẫn toàn diện từ A đến Z cho người mới bắt đầu
- WordPress Filter Hook là gì? Hướng dẫn toàn diện từ cơ bản đến nâng cao cho lập trình viên












