Robots Blocked là gì trong GSC? Nguyên nhân và cách khắc phục triệt để

robots blocked là gì trong gsc

Khi kiểm tra Google Search Console (GSC), nhiều người làm SEO bắt gặp báo cáo “robots blocked” (bị chặn bởi robots.txt) và không biết phải xử lý thế nào. Đây là một trong những vấn đề phổ biến nhất ảnh hưởng đến khả năng lập chỉ mục của website. robots blocked trong GSC là trạng thái cho thấy Googlebot không thể truy cập vào một URL cụ thể do bị chặn bởi tệp robots.txt trên máy chủ. Hiểu rõ bản chất, nguyên nhân và cách khắc phục lỗi này sẽ giúp bạn tối ưu quá trình crawl và index, từ đó cải thiện thứ hạng từ khóa.

Robots Blocked trong GSC là gì? Giải thích chi tiết

robots blocked là gì trong gsc - Hình 5

robots blocked là gì trong gsc? Trong Google Search Console, mục Coverage (độ phủ) báo cáo “Blocked” với mô tả “Blocked by robots.txt” có nghĩa là Googlebot đã cố gắng truy cập URL đó nhưng bị từ chối bởi tệp robots.txt. Đây không phải lỗi website hay lỗi server, mà là do chính quy tắc trong tệp robots.txt đã chặn quyền truy cập của Googlebot.

Khi Googlebot gặp URL bị robots.txt chặn, nó sẽ không thể đọc nội dung trang, không thể lấy dữ liệu để đưa vào chỉ mục. Trang vẫn có thể tồn tại trên website, nhưng Google sẽ không index nó trừ khi bạn có chỉ thị index trong thẻ meta hoặc sitemap. Nếu trang không được index, cơ hội xuất hiện trên kết quả tìm kiếm gần như bằng không.

Phân biệt robots.txt chặn Googlebot với các loại chặn khác

Để hiểu rõ robots blocked là gì trong gsc, cần phân biệt với các loại chặn khác:

Loại chặn Cơ chế Ảnh hưởng đến crawl Cách khắc phục
Blocked by robots.txt Chặn ngay từ đầu, Googlebot không thể truy cập URL Ngăn crawl hoàn toàn, trang không được index Sửa tệp robots.txt
Noindex meta tag Cho phép crawl nhưng yêu cầu không index Trang bị crawl nhưng không xuất hiện trên SERP Xóa hoặc thay đổi thẻ noindex
Blocked by.htaccess Chặn ở cấp server, thường dùng IP hoặc User-Agent Chặn mọi bot, không chỉ Googlebot Cấu hình lại.htaccess
Blocked by meta robots Chặn trong thẻ HTML của trang Cho phép crawl nhưng không theo link (nofollow) Chỉnh sửa thẻ meta robots

robots blocked trong GSC chỉ liên quan đến tệp robots.txt, không phải các cơ chế chặn khác. Nếu bạn thấy “Blocked by robots.txt” trong GSC, vấn đề nằm ở tệp robots.txt của bạn.

Nguyên nhân chính gây ra lỗi robots blocked trong GSC

robots blocked là gì trong gsc - Hình 4

1. Tệp robots.txt chặn toàn bộ Googlebot

Nhiều website khi mới phát triển hoặc đang bảo trì đã đặt quy tắc chặn tất cả bot bằng lệnh Disallow: /. Nếu bạn vô tình giữ quy tắc này khi website đã hoạt động chính thức, toàn bộ URL sẽ bị robots blocked.

2. Chặn thư mục chứa nội dung quan trọng

Ví dụ bạn chặn thư mục /blog/ hoặc /san-pham/ trong robots.txt, nhưng lại muốn Google index các bài viết trong đó. Điều này tạo ra mâu thuẫn: Googlebot không thể vào thư mục, nhưng sitemap vẫn gửi URL từ thư mục đó.

3. Sử dụng robots.txt không chính xác với sitemap

Nhiều SEOer không kiểm tra sự tương thích giữa robots.txt và sitemap. Bạn gửi URL vào sitemap nhưng robots.txt lại chặn Googlebot truy cập chính URL đó, kết quả là hàng loạt lỗi robots blocked trong GSC.

4. Quy tắc Disallow quá rộng

Đôi khi bạn chỉ muốn chặn một vài trang riêng lẻ nhưng lại viết quy tắc Disallow bao phủ cả thư mục. Ví dụ: Disallow: /admin có thể vô tình chặn cả /admin-tools, /admin-panel v.v.

5. Kế thừa robots.txt từ template hoặc plugin

Nhiều CMS tự động tạo robots.txt mặc định. Plugin bảo mật hoặc cache đôi khi thêm quy tắc chặn Googlebot mà bạn không biết. Khi chuyển đổi theme hoặc cài plugin mới, robots.txt có thể thay đổi mà không được kiểm tra.

Tác động của robots blocked đến SEO và hiệu suất website

robots blocked là gì trong gsc và ảnh hưởng như thế nào đến SEO? Khi Googlebot không thể truy cập URL, hệ quả nghiêm trọng:

    • Trang không được lập chỉ mục: Nếu trang quan trọng như trang chủ, trang danh mục sản phẩm bị chặn, bạn mất cơ hội hiển thị trên Google.
    • Giảm lượng crawl budget: Googlebot lãng phí thời gian vào các URL bị chặn, giảm khả năng crawl các trang thực sự có giá trị.
    • Ảnh hưởng đến thứ hạng từ khóa: Các trang bị robots blocked không thể xếp hạng cho bất kỳ từ khóa nào.
    • Gây nhầm lẫn trong báo cáo GSC: Nếu có quá nhiều URL bị chặn, bạn khó phát hiện các lỗi thực sự khác.
    • Mất lưu lượng truy cập tự nhiên: Khi Google không index trang, traffic organic từ Google sẽ giảm đáng kể.

    Cách kiểm tra và xác định URL bị robots blocked trong GSC

    robots blocked là gì trong gsc - Hình 3

    Bước 1: Vào mục Coverage trong Google Search Console

    Đăng nhập GSC, chọn property của website, vào mục “Index” > “Coverage”. Tại đây bạn sẽ thấy các tab “Error”, “Valid with warnings”, “Valid”, “Excluded”. Lỗi “Blocked by robots.txt” nằm trong tab “Error” hoặc “Excluded” tùy phiên bản GSC.

    Bước 2: Lọc báo cáo “Blocked”

    Nhấp vào dòng “Blocked by robots.txt” để xem danh sách chi tiết các URL. GSC hiển thị từng URL và thời điểm phát hiện lỗi.

    Bước 3: Kiểm tra URL bằng công cụ URL Inspection

    Copy một URL bị lỗi, dán vào thanh tìm kiếm URL Inspection ở đầu GSC. Công cụ sẽ cho biết trạng thái crawl, và nếu bị chặn, nó sẽ hiển thị cả quy tắc robots.txt nào đã chặn.

    Bước 4: Mở tệp robots.txt trực tiếp

    Truy cập https://yourdomain.com/robots.txt để xem nội dung tệp robots.txt. So sánh với quy tắc mà GSC báo cáo để xác định nguyên nhân.

    Hướng dẫn khắc phục lỗi robots blocked chi tiết

    Trường hợp 1: Chặn toàn bộ website

    Nếu robots.txt có dòng Disallow: / cho User-agent: Googlebot, bạn cần sửa lại. Thay bằng Disallow: (để trống) để cho phép crawl tất cả, hoặc chỉ chặn những thư mục thực sự cần như /admin, /private.

    Trường hợp 2: Chặn thư mục có nội dung quan trọng

    Ví dụ bạn chặn /wp-admin nhưng lại có các bài viết nằm trong /wp-admin? Thực tế nội dung không nên để trong thư mục admin. Nếu cần chặn, hãy chặn chính xác từng URL hoặc dùng mẫu chính xác hơn. Sửa robots.txt thành Disallow: /wp-admin/ (có dấu gạch cuối) để chỉ chặn thư mục admin, không ảnh hưởng đến các thư mục khác.

    Trường hợp 3: Mâu thuẫn với sitemap

    Nếu robots.txt chặn URL nhưng sitemap vẫn chứa URL đó, bạn phải làm hai việc:

    • Loại bỏ URL khỏi sitemap nếu không muốn index.
    • Bỏ chặn URL trong robots.txt nếu muốn index.

    Sau đó gửi lại sitemap qua GSC và yêu cầu Google re-crawl.

    Trường hợp 4: Plugin hoặc theme tự động chặn

    Kiểm tra cài đặt SEO plugin như Yoast, Rank Math, All in One SEO. Trong phần “Tools” hoặc “Advanced”, thường có tùy chọn “Disallow search engines from indexing this site”. Đảm bảo tùy chọn này không được bật khi website đã live. Ngoài ra, kiểm tra tệp robots.txt gốc do CMS tạo ra, đôi khi plugin ghi đè lên tệp này.

    Cách viết robots.txt đúng chuẩn để tránh lỗi robots blocked

    robots blocked là gì trong gsc - Hình 2

    Một tệp robots.txt chuẩn cho website WordPress thường như sau:

    User-agent: Googlebot
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/themes/
    Allow: /wp-content/uploads/ User-agent: *
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Disallow: /private/ Sitemap: https://yourdomain.com/sitemap.xml
    

    Lưu ý quan trọng: Bạn nên sử dụng cả Allow để đảm bảo Googlebot có thể truy cập các thư mục chứa nội dung quan trọng như /wp-content/uploads/ (hình ảnh, file tải). Không chặn Googlebot đối với thư mục chứa nội dung chính.

    Sau khi sửa robots.txt, bạn cần kiểm tra lại bằng công cụ “robots.txt Tester” trong GSC. Công cụ này cho phép bạn nhập URL và mô phỏng hành vi của Googlebot để xác định xem URL có bị chặn hay không.

    Sai lầm thường gặp khi xử lý lỗi robots blocked

    • Xóa hoàn toàn tệp robots.txt: Không nên xóa vì robots.txt giúp bạn kiểm soát crawl budget, chặn bot xấu, giữ băng thông.
    • Không kiểm tra lại sau khi sửa: Chỉnh sửa robots.txt mà không dùng robots.txt Tester hoặc URL Inspection để xác nhận sẽ gây ra lỗi mới.
    • Chặn CSS và JavaScript: Một số người chặn các thư mục chứa file CSS, JS để tiết kiệm crawl, nhưng việc này có thể khiến Google không render được trang, ảnh hưởng đến thứ hạng.
    • Đặt quy tắc không tương thích: Ví dụ vừa có Disallow vừa có Allow cho cùng một URL, thứ tự ưu tiên trong robots.txt là Allow thắng Disallow nếu độ dài khớp, nhưng điều này dễ gây nhầm lẫn.
    • Không cập nhật sitemap sau khi thay đổi: Sau khi bỏ chặn URL, bạn cần yêu cầu Google index lại thông qua GSC hoặc sitemap để đẩy nhanh quá trình.

Lưu ý quan trọng khi làm việc với robots.txt và GSC

robots blocked là gì trong gsc - Hình 1

robots blocked là gì trong gsc và lưu ý gì? Đầu tiên, robots.txt chỉ là hướng dẫn, không phải lệnh bắt buộc. Googlebot tuân thủ theo chuẩn, nhưng các bot độc hại có thể bỏ qua. Vì vậy không nên dựa vào robots.txt để bảo mật dữ liệu nhạy cảm.

Thứ hai, thay đổi robots.txt có hiệu lực ngay lập tức, nhưng Googlebot cần thời gian để re-crawl các URL bị ảnh hưởng.

Không hoàn toàn. Chỉ các URL bị chặn mới mất traffic. Các URL khác không bị ảnh hưởng nếu robots.txt cho phép crawl. Tuy nhiên, nếu trang chủ bị chặn, toàn bộ website có thể bị ảnh hưởng gián tiếp.

Làm sao biết URL nào bị robots blocked?

Trong GSC, vào Coverage > Blocked by robots.txt. Bạn sẽ thấy danh sách URL. Dùng URL Inspection để kiểm tra từng URL.

Có nên xóa tệp robots.txt nếu bị lỗi không?

Không nên. Thay vào đó, hãy sửa lại tệp robots.txt đúng chuẩn. Xóa tệp sẽ khiến Googlebot tự do crawl mọi thứ, có thể gây quá tải server và lãng phí crawl budget.

Bao lâu sau khi sửa robots.txt thì lỗi hết trong GSC?

Thường từ 1-2 ngày đến vài tuần tùy vào tần suất crawl của Googlebot.

Có. Nếu bạn không chỉ định User-agent riêng cho Googlebot-mobile, quy tắc chung sẽ áp dụng cho cả Googlebot desktop và mobile.

Kết luận

robots blocked là gì trong gsc? Đó là thông báo cho biết Googlebot không thể truy cập URL do tệp robots.txt chặn. Đây là vấn đề phổ biến nhưng hoàn toàn có thể kiểm soát. Bằng cách kiểm tra định kỳ báo cáo Coverage, sử dụng robots.txt Tester, viết quy tắc chính xác và đồng bộ với sitemap, bạn sẽ giảm thiểu tối đa lỗi này. Hãy nhớ rằng mỗi URL bị robots blocked là một cơ hội bị bỏ lỡ. Chủ động khắc phục ngay khi phát hiện để đảm bảo Google index đầy đủ nội dung giá trị trên website của bạn.

Bài viết cùng chủ đề:

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *