Công cụ tìm kiếm được trang bị rô bốt, còn được gọi là nhện hoặc bot, thu thập thông tin và lập chỉ mục các trang web. Nếu trang web hoặc trang của bạn đang được phát triển hoặc chứa nội dung nhạy cảm, bạn có thể muốn chặn bot thu thập thông tin và lập chỉ mục trang web của mình. Tìm hiểu cách chặn toàn bộ trang web, các trang và liên kết bằng tệp robots.txt cũng như chặn các trang và liên kết cụ thể bằng thẻ html. Đọc tiếp để khám phá cách chặn các bot cụ thể truy cập nội dung của bạn.
Các bước
Phương pháp 1/2: Chặn công cụ tìm kiếm bằng tệp robots.txt
Bước 1. Hiểu tệp robots.txt
Tệp robots.txt là một tệp văn bản thuần túy hoặc ASCII thông báo cho trình thu thập dữ liệu công cụ tìm kiếm những gì chúng được phép truy cập trên trang web của bạn. Các tệp và thư mục được liệt kê trong tệp robots.txt có thể không được thu thập thông tin và lập chỉ mục bởi trình thu thập thông tin của công cụ tìm kiếm. Bạn có thể cần tệp robots.txt nếu:
- Bạn muốn chặn nội dung cụ thể khỏi trình thu thập thông tin của công cụ tìm kiếm.
- Bạn đang phát triển một trang web đang hoạt động và không chuẩn bị để trình thu thập thông tin của công cụ tìm kiếm thu thập thông tin và lập chỉ mục trang web
- Bạn muốn giới hạn quyền truy cập vào các bot có uy tín.
Bước 2. Tạo và lưu và tệp robots.txt
Để tạo tệp, hãy khởi chạy trình soạn thảo văn bản thuần túy hoặc trình soạn thảo mã. Lưu tệp dưới dạng: robots.txt. Tất cả tên tệp phải là chữ thường.
- Đừng quên "s."
- Khi bạn lưu tệp, hãy chọn phần mở rộng “'.txt”'. Nếu bạn đang sử dụng Word, hãy chọn tùy chọn “Văn bản thuần túy”.
Bước 3. Viết tệp robots.txt không cho phép đầy đủ
Có thể chặn mọi trình thu thập thông tin công cụ tìm kiếm có uy tín thu thập dữ liệu và lập chỉ mục trang web của bạn bằng tệp robots.txt “không cho phép”. Viết các dòng sau vào tệp văn bản của bạn:
Tác nhân người dùng: * Không cho phép: /
Bước 4. Viết tệp robots.txt có điều kiện cho phép
Thay vì chặn tất cả các bot, hãy xem xét việc chặn các trình thu thập dữ liệu cụ thể từ các khu vực nhất định trên trang web của bạn. Các lệnh cho phép có điều kiện phổ biến bao gồm:
- Chặn một bot cụ thể: thay thế các dấu hoa thị bên cạnh Đại lý người dùng với googlebot, googlebot-news, googlebot-image, bingbot, hoặc teoma.
-
Chặn một thư mục và nội dung của nó:
Tác nhân người dùng: * Disallow: / sample-directory /
-
Chặn một trang web:
Tác nhân người dùng: * Disallow: /private_file.html
-
Chặn hình ảnh:
Tác nhân người dùng: googlebot-image Disallow: /images_mypicture.jpg
-
Chặn tất cả hình ảnh:
Tác nhân người dùng: googlebot-image Disallow: /
-
Chặn một định dạng tệp cụ thể:
Tác nhân người dùng: * Disallow: /p*.gif$
Bước 5. Khuyến khích bot lập chỉ mục và thu thập dữ liệu trang web của bạn
Nhiều người muốn chào đón, thay vì chặn, trình thu thập thông tin công cụ tìm kiếm vì họ muốn toàn bộ trang web của họ được lập chỉ mục. Để thực hiện điều này, bạn có ba lựa chọn. Trước tiên, bạn có thể chọn không tạo tệp robots.txt - khi rô bốt không tìm thấy tệp robots.txt, rô bốt sẽ tiếp tục thu thập thông tin và lập chỉ mục toàn bộ trang web của bạn. Thứ hai, bạn có thể tạo một tệp robots.txt trống - rô bốt sẽ tìm thấy tệp robots.txt, nhận ra rằng nó trống và tiếp tục thu thập thông tin và lập chỉ mục trang web của bạn. Cuối cùng, bạn có thể viết tệp robots.txt cho phép đầy đủ. Sử dụng mã:
Tác nhân người dùng: * Không cho phép:
Bước 6. Lưu tệp txt vào thư mục gốc của miền của bạn
Sau khi bạn đã ghi tệp robots.txt, hãy lưu các thay đổi. Tải tệp lên thư mục gốc của trang web của bạn. Ví dụ: nếu miền của bạn là www.yourdomain.com, đặt tệp robots.txt tại www.yourdomain.com/robots.txt.
Phương pháp 2/2: Chặn công cụ tìm kiếm bằng thẻ meta
Bước 1. Hiểu các thẻ meta rô bốt HTML
Thẻ meta rô bốt cho phép lập trình viên thiết lập các thông số cho bot hoặc trình thu thập thông tin của công cụ tìm kiếm. Các thẻ này được sử dụng để chặn bot lập chỉ mục và thu thập dữ liệu toàn bộ trang web hoặc chỉ các phần của trang web. Bạn cũng có thể sử dụng các thẻ này để chặn một trình thu thập thông tin công cụ tìm kiếm cụ thể lập chỉ mục nội dung của bạn. Các thẻ này xuất hiện trong phần đầu của tệp HTML của bạn.
Phương pháp này thường được sử dụng bởi các lập trình viên không có quyền truy cập vào thư mục gốc của trang web
Bước 2. Chặn bot khỏi một trang
Có thể chặn tất cả các bot lập chỉ mục một trang và hoặc theo dõi các liên kết của một trang. Thẻ này thường được sử dụng khi một trang web trực tiếp đang được phát triển. Sau khi trang web hoàn tất, chúng tôi khuyên bạn nên xóa thẻ này. Nếu bạn không xóa thẻ, trang của bạn sẽ không được lập chỉ mục hoặc không thể tìm kiếm được qua các công cụ tìm kiếm.
- Bạn có thể chặn bot lập chỉ mục trang và theo dõi bất kỳ liên kết nào:
- Bạn có thể chặn tất cả các bot lập chỉ mục trang:
- Bạn có thể chặn tất cả các bot đi theo các liên kết của trang:
Bước 3. Cho phép các bot lập chỉ mục một trang, nhưng không theo các liên kết của nó
Nếu bạn cho phép các bot lập chỉ mục trang, trang sẽ được lập chỉ mục; nếu bạn ngăn chặn các trình thu thập thông tin theo các liên kết, thì đường dẫn liên kết từ trang cụ thể này đến các trang khác sẽ bị đứt. Chèn dòng mã sau vào tiêu đề của bạn:
Bước 4. Để các trình thu thập thông tin của công cụ tìm kiếm theo các liên kết nhưng không lập chỉ mục trang
Nếu bạn cho phép các bot đi theo các liên kết, đường dẫn liên kết từ trang cụ thể này đến các trang khác sẽ vẫn nguyên vẹn; nếu bạn hạn chế họ lập chỉ mục trang, trang web của bạn sẽ không xuất hiện trong chỉ mục. Chèn dòng mã sau vào tiêu đề của bạn:
Bước 5. Chặn một liên kết gửi đi
Để ẩn một liên kết trên một trang, hãy nhúng một quan hệ trong thẻ liên kết. Bạn có thể muốn sử dụng thẻ này để chặn các liên kết trên các trang khác dẫn đến trang cụ thể mà bạn muốn chặn.
Chèn liên kết đến trang bị chặn
Bước 6. Chặn một con nhện công cụ tìm kiếm cụ thể
Thay vì chặn tất cả các bot khỏi trang web của bạn, bạn có thể muốn ngăn một bot thu thập dữ liệu và lập chỉ mục trang. Để thực hiện điều này, hãy thay thế "'robot"' trong thẻ meta bằng tên của một bot cụ thể. Những ví dụ bao gồm: googlebot, googlebot-news, googlebot-image, bingbot, và teoma.
Bước 7. Khuyến khích bot thu thập thông tin và lập chỉ mục trang của bạn
Nếu bạn muốn đảm bảo rằng trang của bạn sẽ được lập chỉ mục và các liên kết của nó sẽ được theo dõi, bạn có thể chèn phép theo dõi meta “rô bốt” vào tiêu đề của bạn. Sử dụng mã sau: