Cách chặn Công cụ Tìm kiếm (với Hình ảnh)

Mục lục:

Cách chặn Công cụ Tìm kiếm (với Hình ảnh)
Cách chặn Công cụ Tìm kiếm (với Hình ảnh)

Video: Cách chặn Công cụ Tìm kiếm (với Hình ảnh)

Video: Cách chặn Công cụ Tìm kiếm (với Hình ảnh)
Video: Cách chuyển đổi định dạng file ODS 2024, Có thể
Anonim

Công cụ tìm kiếm được trang bị rô bốt, còn được gọi là nhện hoặc bot, thu thập thông tin và lập chỉ mục các trang web. Nếu trang web hoặc trang của bạn đang được phát triển hoặc chứa nội dung nhạy cảm, bạn có thể muốn chặn bot thu thập thông tin và lập chỉ mục trang web của mình. Tìm hiểu cách chặn toàn bộ trang web, các trang và liên kết bằng tệp robots.txt cũng như chặn các trang và liên kết cụ thể bằng thẻ html. Đọc tiếp để khám phá cách chặn các bot cụ thể truy cập nội dung của bạn.

Các bước

Phương pháp 1/2: Chặn công cụ tìm kiếm bằng tệp robots.txt

576315 1
576315 1

Bước 1. Hiểu tệp robots.txt

Tệp robots.txt là một tệp văn bản thuần túy hoặc ASCII thông báo cho trình thu thập dữ liệu công cụ tìm kiếm những gì chúng được phép truy cập trên trang web của bạn. Các tệp và thư mục được liệt kê trong tệp robots.txt có thể không được thu thập thông tin và lập chỉ mục bởi trình thu thập thông tin của công cụ tìm kiếm. Bạn có thể cần tệp robots.txt nếu:

  • Bạn muốn chặn nội dung cụ thể khỏi trình thu thập thông tin của công cụ tìm kiếm.
  • Bạn đang phát triển một trang web đang hoạt động và không chuẩn bị để trình thu thập thông tin của công cụ tìm kiếm thu thập thông tin và lập chỉ mục trang web
  • Bạn muốn giới hạn quyền truy cập vào các bot có uy tín.
576315 2
576315 2

Bước 2. Tạo và lưu và tệp robots.txt

Để tạo tệp, hãy khởi chạy trình soạn thảo văn bản thuần túy hoặc trình soạn thảo mã. Lưu tệp dưới dạng: robots.txt. Tất cả tên tệp phải là chữ thường.

  • Đừng quên "s."
  • Khi bạn lưu tệp, hãy chọn phần mở rộng “'.txt”'. Nếu bạn đang sử dụng Word, hãy chọn tùy chọn “Văn bản thuần túy”.
576315 3 1
576315 3 1

Bước 3. Viết tệp robots.txt không cho phép đầy đủ

Có thể chặn mọi trình thu thập thông tin công cụ tìm kiếm có uy tín thu thập dữ liệu và lập chỉ mục trang web của bạn bằng tệp robots.txt “không cho phép”. Viết các dòng sau vào tệp văn bản của bạn:

    Tác nhân người dùng: * Không cho phép: /

  • Bạn không nên sử dụng tệp robots.txt “full-disallow”. Khi một bot, chẳng hạn như Bingbot, đọc tệp này, nó sẽ không lập chỉ mục trang web của bạn và công cụ tìm kiếm sẽ không hiển thị trang web của bạn.
  • Tác nhân người dùng: đây là một thuật ngữ khác để chỉ trình thu thập thông tin công cụ tìm kiếm hoặc rô bốt
  • *: dấu hoa thị biểu thị rằng mã áp dụng cho tất cả các tác nhân người dùng
  • Không cho phép: /: dấu gạch chéo về phía trước cho biết rằng toàn bộ trang web không có giới hạn đối với bot
576315 4 1
576315 4 1

Bước 4. Viết tệp robots.txt có điều kiện cho phép

Thay vì chặn tất cả các bot, hãy xem xét việc chặn các trình thu thập dữ liệu cụ thể từ các khu vực nhất định trên trang web của bạn. Các lệnh cho phép có điều kiện phổ biến bao gồm:

  • Chặn một bot cụ thể: thay thế các dấu hoa thị bên cạnh Đại lý người dùng với googlebot, googlebot-news, googlebot-image, bingbot, hoặc teoma.
  • Chặn một thư mục và nội dung của nó:

    Tác nhân người dùng: * Disallow: / sample-directory /

  • Chặn một trang web:

    Tác nhân người dùng: * Disallow: /private_file.html

  • Chặn hình ảnh:

    Tác nhân người dùng: googlebot-image Disallow: /images_mypicture.jpg

  • Chặn tất cả hình ảnh:

    Tác nhân người dùng: googlebot-image Disallow: /

  • Chặn một định dạng tệp cụ thể:

    Tác nhân người dùng: * Disallow: /p*.gif$

576315 5
576315 5

Bước 5. Khuyến khích bot lập chỉ mục và thu thập dữ liệu trang web của bạn

Nhiều người muốn chào đón, thay vì chặn, trình thu thập thông tin công cụ tìm kiếm vì họ muốn toàn bộ trang web của họ được lập chỉ mục. Để thực hiện điều này, bạn có ba lựa chọn. Trước tiên, bạn có thể chọn không tạo tệp robots.txt - khi rô bốt không tìm thấy tệp robots.txt, rô bốt sẽ tiếp tục thu thập thông tin và lập chỉ mục toàn bộ trang web của bạn. Thứ hai, bạn có thể tạo một tệp robots.txt trống - rô bốt sẽ tìm thấy tệp robots.txt, nhận ra rằng nó trống và tiếp tục thu thập thông tin và lập chỉ mục trang web của bạn. Cuối cùng, bạn có thể viết tệp robots.txt cho phép đầy đủ. Sử dụng mã:

    Tác nhân người dùng: * Không cho phép:

  • Khi một bot, chẳng hạn như googlebot, đọc tệp này, nó sẽ thoải mái truy cập toàn bộ trang web của bạn.
  • Tác nhân người dùng: đây là một thuật ngữ khác để chỉ trình thu thập thông tin công cụ tìm kiếm hoặc rô bốt
  • *: dấu hoa thị biểu thị rằng mã áp dụng cho tất cả các tác nhân người dùng
  • Không cho phép: lệnh không cho phép trống cho biết rằng tất cả các tệp và thư mục đều có thể truy cập được
576315 6
576315 6

Bước 6. Lưu tệp txt vào thư mục gốc của miền của bạn

Sau khi bạn đã ghi tệp robots.txt, hãy lưu các thay đổi. Tải tệp lên thư mục gốc của trang web của bạn. Ví dụ: nếu miền của bạn là www.yourdomain.com, đặt tệp robots.txt tại www.yourdomain.com/robots.txt.

Phương pháp 2/2: Chặn công cụ tìm kiếm bằng thẻ meta

576315 7
576315 7

Bước 1. Hiểu các thẻ meta rô bốt HTML

Thẻ meta rô bốt cho phép lập trình viên thiết lập các thông số cho bot hoặc trình thu thập thông tin của công cụ tìm kiếm. Các thẻ này được sử dụng để chặn bot lập chỉ mục và thu thập dữ liệu toàn bộ trang web hoặc chỉ các phần của trang web. Bạn cũng có thể sử dụng các thẻ này để chặn một trình thu thập thông tin công cụ tìm kiếm cụ thể lập chỉ mục nội dung của bạn. Các thẻ này xuất hiện trong phần đầu của tệp HTML của bạn.

Phương pháp này thường được sử dụng bởi các lập trình viên không có quyền truy cập vào thư mục gốc của trang web

576315 8
576315 8

Bước 2. Chặn bot khỏi một trang

Có thể chặn tất cả các bot lập chỉ mục một trang và hoặc theo dõi các liên kết của một trang. Thẻ này thường được sử dụng khi một trang web trực tiếp đang được phát triển. Sau khi trang web hoàn tất, chúng tôi khuyên bạn nên xóa thẻ này. Nếu bạn không xóa thẻ, trang của bạn sẽ không được lập chỉ mục hoặc không thể tìm kiếm được qua các công cụ tìm kiếm.

  • Bạn có thể chặn bot lập chỉ mục trang và theo dõi bất kỳ liên kết nào:
  • Bạn có thể chặn tất cả các bot lập chỉ mục trang:
  • Bạn có thể chặn tất cả các bot đi theo các liên kết của trang:
576315 9
576315 9

Bước 3. Cho phép các bot lập chỉ mục một trang, nhưng không theo các liên kết của nó

Nếu bạn cho phép các bot lập chỉ mục trang, trang sẽ được lập chỉ mục; nếu bạn ngăn chặn các trình thu thập thông tin theo các liên kết, thì đường dẫn liên kết từ trang cụ thể này đến các trang khác sẽ bị đứt. Chèn dòng mã sau vào tiêu đề của bạn:

576315 10
576315 10

Bước 4. Để các trình thu thập thông tin của công cụ tìm kiếm theo các liên kết nhưng không lập chỉ mục trang

Nếu bạn cho phép các bot đi theo các liên kết, đường dẫn liên kết từ trang cụ thể này đến các trang khác sẽ vẫn nguyên vẹn; nếu bạn hạn chế họ lập chỉ mục trang, trang web của bạn sẽ không xuất hiện trong chỉ mục. Chèn dòng mã sau vào tiêu đề của bạn:

576315 11
576315 11

Bước 5. Chặn một liên kết gửi đi

Để ẩn một liên kết trên một trang, hãy nhúng một quan hệ trong thẻ liên kết. Bạn có thể muốn sử dụng thẻ này để chặn các liên kết trên các trang khác dẫn đến trang cụ thể mà bạn muốn chặn.

    Chèn liên kết đến trang bị chặn

576315 12
576315 12

Bước 6. Chặn một con nhện công cụ tìm kiếm cụ thể

Thay vì chặn tất cả các bot khỏi trang web của bạn, bạn có thể muốn ngăn một bot thu thập dữ liệu và lập chỉ mục trang. Để thực hiện điều này, hãy thay thế "'robot"' trong thẻ meta bằng tên của một bot cụ thể. Những ví dụ bao gồm: googlebot, googlebot-news, googlebot-image, bingbot, và teoma.

576315 13
576315 13

Bước 7. Khuyến khích bot thu thập thông tin và lập chỉ mục trang của bạn

Nếu bạn muốn đảm bảo rằng trang của bạn sẽ được lập chỉ mục và các liên kết của nó sẽ được theo dõi, bạn có thể chèn phép theo dõi meta “rô bốt” vào tiêu đề của bạn. Sử dụng mã sau:

Đề xuất: