Hãy tạo file robots.txt cho blog

44
1449

File robots.txt dùng để hướng dẫn cho các con robot của các bộ máy tìm kiếm biết trang hoặc phần nào trên website hay blog của bạn nên đọc và thường xuyên đến để đánh chỉ mục, trang hoặc phần nào không nên đọc.

Hầu hết các website và các blog đều có các thư mục chẳng liên quan gì hoặc chẳng có tác dụng gì cho các bộ máy tìm kiếm như là các file ảnh và các file admin. Vì thế việc tạo một file robots.txt hoàn toàn có thể cải thiện được việc đánh chỉ mục cho website hay blog của bạn.

File robots.txt là một file văn bản đơn giản, bạn có thể tạo nó bằng Notepad. Nếu như bạn sử dụng WordPress thì file robots.txt mẫu có thể tạo như sau:

User-agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/

User-agent: *”: câu lệnh này có nghĩa là cho phép tất cả các con bot tìm kiếm (từ Google, Yahoo, MSN và các bộ máy tìm kiếm khác) sẽ dùng lệnh hướng dẫn này để đọc website hay blog của bạn. Trừ khi website hay blog của bạn quá phức tap, nếu không bạn không cần đặt các chỉ dẫn khác nhau cho các spider khác nhau. Bạn chỉ cần đặt y như trên là đủ.

Disallow: /wp-“: câu lệnh này giúp các con bot của các bộ máy tìm kiếm bỏ qua tất cả các file của WordPress (các file trong các folder như: wp-admin, wp-content, wp-includes) khi đánh chỉ mục cho blog của bạn. Nó giúp bạn tránh bị trùng lặp nội dung và đọc các file admin nhạy cảm.

Còn nếu các bạn không dùng WordPress, hãy thay thế những dòng Disallow bằng các file hay các folder trên website mà bạn không muốn các con bot này nhòm ngó đến. Ví dụ:

User-agent: *
Disallow: /images/
Disallow: /cgi-bin/
Disallow: /bất cứ file hay folder nào mà bạn không muốn crawler đọc/

Sau khi bạn đã tạo xong file robots.txt, hãy upload nó lên thư mục gốc trên web host của bạn. Thế là xong thôi. Bây giờ thì bạn có thể an tâm là các con robot của các bộ máy tìm kiếm chỉ đọc nội dung trên blog của bạn chứ không đọc nội dung của các file WordPress. Điều này là thực sự quan trọng vì nó giúp nội dung trên blog của bạn sẽ không bị trùng lặp, và các thông tin của các file nhạy cảm cần bảo mật trên web host sẽ không bị chúng nhòm ngó.

44 BÌNH LUẬN

  1. Cảm ơn anh, cái này hay mà giờ em mới biết. Em đang làm thử, có gì em sẽ hỏi anh tiếp nhé!

  2. Thanks bác. Em cũng phải làm cái, không biết thì thôi chứ biết thì phải làm :D.

  3. thanks, mình copy về nhà để mai mốt dùng hihihi, vì bây giờ mình chưa áp dụng nó.

  4. BÀI VIẾT NÓI CHUNG CHUNG QUÁ!NÓI THẾ HIỂU ĐƯOC CHẾT LIỀN.TẠO NÓ RA RÒI UP LEN TRNG GỐC CỦA BLOG U? VẬY XIN CHO HỎI TRANG GÓC CỦA BLOG LA Ở ĐÂU VẬY TA?
    VÀ TÁC DỤNG CỦA NÓ LA LÀM NHỮNG GI VÂY?

  5. Thưa bạn Hồng Thịnh,

    Trước hết, Phamen cảm ơn bạn đã ghé thăm và cho ý kiến. Nếu bạn muốn hỏi hay bạn đã biết và muốn thử kiểm tra trình độ của Phamen thì xin bạn cứ nói rõ, không nên comment như thế 🙂

    Thứ hai, bạn hãy đọc lại, Phamen không nói là upload lên trang gốc, mà Phamen nói là upload lên thư mục gốc.

    Tác dụng của nó thì Phamen đã nói rồi.

  6. Anh ơi anh có thể gửi mail dạy em cặn kẽ hơn chút xíu không ạ,em bíết ít về các lệnh này lắm và cũng không biết jì nhiều em rất mong được anh chỉ dạy,em cảm ơn anh rất nhiều.

  7. ah` anh ui có phải mình chèn thêm đoạn lệnh này vào CSS ko ạ vì em ko dùng website mà dùng blog ạ anh cho em biết sớm nha.

  8. To: Hà Kim Dung,

    Bạn không phải chèn gì vào cả, chỉ cần dùng mẫu như ở trên thôi và save lại với tên là robots.txt và upload lên root directory của webhost thôi.

  9. Nhưng anh ơi em dùng opera thi phải up ở đâu ạ em làm như anh day rồi nhưng em ko biết phải up ở đâu trong phần cài đặt nữa anh làm ơn chỉ giúp em nha.Em xin lỗi đã hỏi anh nhiều wa’ nhưng từ sáng sớm đến giờ lang thang ở đây em học được rất nhiều em cảm ơn anh nghe

  10. Rất tiếc :), blog opera thì bạn không có quyền quản lý host do đó bạn không thể upload file robots.txt này lên được.

    Tốt nhất bạn hãy chuyển sang sử dụng blog wordpress với tên miền riêng và rất chuyên nghiệp, bạn có toàn quyền quản lý nó. WordPress.org có rất nhiều theme để bạn có thể chọn lựa. Khi đã sử dụng wordpress, bạn sẽ cảm thấy Opera như một em bé so với gã khổng lồ wordpress.

    Bạn có thể tham khảo loạt bài của Phamen viết về tạo blog chuyên nghiệp với tên miền riêng

  11. sao lai chan /feed/ nhi ? Rat nhieu trang lam the nay ma thuc ra nen mo feed full text nua co 😀

  12. Chặn feed để tránh duplicated content. Lại là duplicated content. Nó thực sự cực kì quan trọng cho SEO.

  13. @phamen:Hai cai nay ten giong nhau ten goi nhung ban chac khac nhau ma ;)). Mot cai cung ten mien, mot cai khac ten mien. Hi, gio neu mo rong tam mat hon nua thi sao nhi 😀

  14. Anh có thể nói chi tiết là thư mục gốc là thư mục nào được không, là thư mục nào của blog, em đang dùng wordpress host của byethost13, em sợ úp nhầm thì chết

  15. Phamen cho mình hỏi: tại sao phải disalow feed, phải chăng để chống duplicate content?
    Cả vụ trackback nữa, cho mình hỏi luôn tại sao phải disalow trackback.
    Cảm ơn về bài viết bổ ích!

  16. To: Fontchu.com,

    Về cơ bản, một bài viết khi đăng lên sẽ có 4 link được tạo cho nó.
    Ví dụ: Phamen viết bài: Hãy tạo file robots cho blog thì sẽ có các link sau:

    http://www.phamen.com/hay-tao-file-robots-cho-blog
    http://www.phamen.com/category/hay-tao-file-robots-cho-blog
    http://www.phamen.com/tags/hay-tao-file-robots-cho-blog
    http://www.phamen.com/feeds/hay-tao-file-robots-cho-blog

    Và khi Google index tất cả những trang này, nó sẽ lưỡng lự không biết trả lại kết quả tìm kiếm như thế nào vì theo nó đây là 4 bài viết khác nhau nhưng lại có cùng một dung giống y hệt nhau.

    Việc này sẽ làm mất Pagerank của bạn và sẽ đưa ít khách hơn đến bài viết này.

    Không phải Google index càng nhiều bài viết trong blog càng tốt. Chất lượng tốt hơn số lượng. Vì vậy, tốt nhất chỉ để 1 URL cho 1 bài viết.

    Đó chính là lí do tại sao Phamen đã block: feeds, tags và category trên blog của mình.

  17. Bài của anh đa phần dành cho wordpress. Nhưng bọn em sử dụng Blog Multiply thì đánh code để chèn trong Css thế nào anh. E muốn tăng thứ hạng của mình trên một số cỗ máy tìm kiếm thì nên làm thế nào?

  18. Anh ơi, cho em hỏi cái URL ở trong blog có ý nghĩa gì? Công dụng ra sao? Và điền gì vào cái URL ở trong phần BLast? Em chưa hiểu mong anh bảo rõ:D. Cảm ơn anh trước!

  19. noi chung la` cung~ dc ,dau ai chi tu a~z

    thang phammen no chiu viet la` cam on no di.

  20. cảm ơn admin Phamen, bài viết rất hay, mình cũng đã tạo được file robots.txt cho site của mình.

    Site mình là trang tưởng thuật kết quả xổ số trực tiếp, nhanh nhất và chính xác nhất.

    http://ketqua.org.

    Chân thành cảm ơn những kiến thức mà Phamen đã đem đến cho độc giả.

  21. Anh làm ơn cho em hỏi chút, em đã tạo file robots.txt cho web của em,plugin cũng chỉ dùng Wp-super cache mà không hiểu sao chủ host cứ báo web em dùng tốn tài nguyên CPU.Đặc biệt là file index.php. Mong được anh chỉ giáo

  22. Hình như bác admin thôi viết blog này rồi…những bài viết ko đc cập nhật nhưng lạ là rất nhiều lần em qua đây và tìm được thứ mình cần….Hi vọng anh trở lại 😀

  23. Các thánh giúp giùm mình với. Khi tìm trang web của mình trên google thì nó hiện: Không có mô tả cho kết quả này do robots.txt của trang web này – tìm hiểu thêm.
    Mình check file robots thì thấy vẫn ổn. Web của mình http://etpco.vn/ .
    Thanks!

  24. Hiện tại em đang sử dụng wordpress. Blog của em trước kia file robots.txt nó có nội dung khác. Và bây giờ em muốn thay đổi nội dung cho file robots.txt. Nhưng cái khó khăn em đang gặp ở đây chính là việc. Em úp file lên host rồi, nhưng khi kiểm tra lại bằng đường dẫn domain.com/robots.txt thì nội dung vẫn y như cũ, nó vẫn không thay đổi so với trước. Em có dùng WP Super Cache, không biết bây giờ em phải khắc phục như thế nào luôn. Đi hỏi đây đó mà chưa giải quyết được 🙁

VIẾT BÌNH LUẬN