Robots.txt là gì? Cách tạo file Robots.txt trong WordPress

Bạn có biết: Bạn hoàn toàn có thể kiểm soát được việc Bot (spider) quét và lập chỉ mục đối với một trang xác định trên website của mình không?

Tất cả được làm thông qua một file gọi là robots.txt.

Robots.txt là một file text đơn giản, mục đích để nói cho các bot  rằng trang nào trên website được phép quét và thu thập dữ liệu và ngược lại, trang nào không.

Tuy nhiên, hầu như các website mới thường không có file robots.txt.

Vậy làm cách nào để tạo ra một file robots.txt ? Cách sử dụng nó như thế nào sao cho chuẩn SEO và những điều bạn nên tránh khi sử dụng nó?

Trong bài viết này, mình sẽ chia sẻ mọi thứ bạn cần biết về Robots.txt và cách sử dụng nó trên website.

Robots.txt là gì?

Quay trở lại những ngày khi internet mới phát triển, các lập trình viên,kỹ sư tạo ra các robot hay spider để đi khắp các website trên mạng để quét và thu thập dữ liệu.

Đôi khi, những con bot này thu thập cả những dữ liệu mà người chủ trang web không muốn được index. Ví dụ như website đang trong thời gian bảo trì hay website cá nhân.

Để giải quyết vấn đề này, Martjin Koster, một kỹ sư người Hà Lan đã đề xuất một tiêu chuẩn mà mọi con bot phải tuân theo.

Những tiêu chuẩn này sau này được biết đến như là “Robots Exclusion Protocol” (Phương thức ngăn chặn bot).

Và file Robots.txt như là bản tuyên ngôn thực thi quy luật này.

Do vậy, mọi con bot từ Googlebot đến MSNbot phải tuân theo những quy luật mà Robots.txt đưa ra.

Để xem file robots.txt của một website bất kỳ. Bạn chỉ cần truy cập theo đường dẫn: https://domain/robots.txt

Ví dụ: Đây là file robots.txt của Facebook:

Robots.txt là gì

Sử dụng Robots.txt

Cần phải nói thêm, file robots.txt không phải là một file bắt buộc đối với một website. Website của bạn có thể có thứ hạng tốt không với file này.

Xem thêm: Google AMP là gì? Cách thiết lập AMP cho website.

Tuy nhiên, sử dụng file robots.txt sẽ mang lại một số lợi ích sau:

  • Ngăn bot thu thập dữ liệu và lập chỉ mục với một trang bất kỳ: Đôi khi có những trang bạn sẽ không muốn để Google index hoặc thỉnh thoảng website của bạn bảo trì, bạn sẽ không muốn Google Index một website đang bị lỗi phải không?
  • Kiểm soát được tài nguyên sử dụng: Mỗi lần bot quét website của bạn, nó sẽ làm tiêu hao bandwidth và nguồn tài nguyên trên máy chủ. Đối với website có nhiều nội dung hay những website có lượng bandwidth bị giới hạn, điều này có thể gây nên trải nghiệm không tốt với người dùng.
  • Ưu tiên những trang quan trọng: Bạn muốn những con bot thu thập dữ liệu từ những trang quan trọng trên website của mình, thay vì lãng phí tài nguyên vào những trang vô ích. Bằng cách chặn những trang không hữu ích, bạn có thể làm bot tập trung vào những trang quan trọng hơn.

Tìm file Robots.txt ở đâu?

File robots.txt được lưu trữ trong thư mục gốc của website. Để tìm, đơn giản chỉ cần mở FTP và truy cập public_html.tìm file robots.txt

Tuy nhiên, có thể bạn sẽ không thấy được file Robots.txt. Trong trường hợp này, bạn sẽ cần phải tự tạo một file robots.txt.

Đây là cách làm:

Cách tạo file Robots.txt

Như đã nói ở đầu bài viết, file Robots.txt là một file đơn giản, đồng nghĩa việc tạo cũng rất dễ dàng.

Chỉ cần tạo một file bất kỳ trên máy tính và đặt tên là robots.txt là xong.

Tiếp theo, chúng ta cần upload file này lên thư mục gốc của website.

Để upload, chúng ta có nhiều cách. Trong bài viết này mình sử dụng phần mềm FTP để upload dữ liệu.

Tham khảo bài viết: Upload dữ liệu sử dụng Filezilla.

Lưu ý: Upload vào thư mục public_html nhé.

Sau khi kết nối được với server, bạn chỉ cần kéo file robots.txt vừa tạo vào thư mục gốc:

upload file robots.txt

Như vậy, bạn đã tạo được một file robots.txt cho website.

Cấu hình file Robots.txt

1. Chặn tất cả các bot khỏi website

Bạn muốn chặn tất cả các bot khỏi website?

Thêm đoạn code này vào nhé:

User-agent: *
Disallow: /

2. Chặn tất cả các bot truy cập vào trang bất kỳ

Nếu bạn muốn chặn bot truy cập để thu thập dữ liệu thư mục bất kỳ. Ví dụ thư mục /hinhanh.

Sử dụng câu lệnh sau:

User-agent: *
Disallow: /[tên thư mục]/

c3. Chặn những bot xác định khỏi website.

Có rất nhiều loại bot khác như như Google bot, MSNbot. Nếu bạn muốn chặn Googlebot khỏi website. Chỉ cần làm theo sau:

User-agent: [robot name] Disallow: /

robots.txt


Robots.txt không phải là một file bắt buộc đối với mọi website. Tuy nhiên, nếu sử dụng hợp lý sẽ có ảnh hưởng tốt đến SEO. Ngược lại, nếu dùng không đúng cách, có thể đó sẽ là 1 thảm họa. Vì vậy, hãy đọc kỹ trước khi cấu hình nhé.

 

Viết một bình luận