Lỗi "Duplicate Content" trong SEO

“Duplicate Content” hay còn gọi là trùng lặp nội dung, đây là lỗi thường gặp mà không ít Website mắc phải khiến google phạt và đánh giá không tốt. Để hiểu rõ hơn về lỗi này, sau đây là một số thông tin bổ ích cho bạn “bỏ túi”.

“Duplicate Content” là gì?

“Duplicate Content” trong SEO là lỗi trùng lặp nội dung

“Duplicate Content” trong SEO là lỗi trùng lặp nội dung

Nội dung trùng lặp là nội dung xuất hiện trên Internet ở nhiều nơi. Đó là nơi có một địa chỉ trang web (URL) duy nhất - vì vậy, nếu cùng một nội dung xuất hiện tại nhiều hơn một địa chỉ web, thì bạn đã có nội dung trùng lặp.

Mặc dù về mặt kỹ thuật không phải là một hình phạt, nội dung trùng lặp đôi khi vẫn có thể ảnh hưởng đến thứ hạng của công cụ tìm kiếm. Khi có nhiều phần, như Google gọi nó là nội dung "tương tự đáng chú ý" ở nhiều hơn một địa điểm trên Internet, công cụ tìm kiếm có thể khó quyết định phiên bản nào phù hợp hơn với truy vấn tìm kiếm nhất định.

Nội dung trùng lạp có quan trọng không?

Nội dung trùng lặp vô cùng quan trọng nó tác động đến hai yếu tố sau:

Đối với công cụ tìm kiếm

Nội dung trùng lặp có thể trình bày ba vấn đề chính cho các công cụ tìm kiếm:

  • Họ không biết (các) phiên bản nào sẽ bao gồm/loại trừ khỏi các chỉ số của họ.
  • Họ không biết nên hướng các số liệu liên kết (tin cậy, thẩm quyền, văn bản neo, vốn chủ sở hữu liên kết, v.v.) vào một trang hay giữ nó cách biệt giữa nhiều phiên bản.
  • Họ không biết nên xếp hạng phiên bản nào cho kết quả truy vấn.

Dành cho chủ sở hữu trang web

Khi có nội dung trùng lặp, chủ sở hữu trang web có thể bị xếp hạng và mất lưu lượng truy cập. Những mất mát này thường xuất phát từ hai vấn đề chính:

Để cung cấp trải nghiệm tìm kiếm tốt nhất, các công cụ tìm kiếm sẽ hiếm khi hiển thị nhiều phiên bản của cùng một nội dung và do đó buộc phải chọn phiên bản nào có khả năng là kết quả tốt nhất. Điều này làm loãng khả năng hiển thị của từng bản sao.

Vốn chủ sở hữu liên kết có thể được pha loãng thêm vì các trang web khác cũng phải chọn giữa các bản sao, thay vì tất cả các liên kết trong nước trỏ đến một phần nội dung, chúng liên kết đến nhiều phần, lan truyền vốn chủ sở hữu liên kết giữa các bản sao. Bởi vì các liên kết trong là một yếu tố xếp hạng, điều này sau đó có thể ảnh hưởng đến khả năng hiển thị tìm kiếm của một phần nội dung.

Cách để nội dung trùng lặp không xảy ra

Cần tránh nội dung trùng lặp trong website

Cần tránh nội dung trùng lặp trong website

Trong thực tế theo một số ước tính, có tới 29% web thực sự là nội dung trùng lặp! Chúng ta hãy xem một số cách phổ biến nhất mà nội dung trùng lặp được tạo ra một cách vô tình:

Các biến thể URL 

Các tham số URL, chẳng hạn như theo dõi nhấp chuột và một số mã phân tích, có thể gây ra sự cố trùng lặp nội dung. Đây có thể là một vấn đề gây ra không chỉ bởi chính các tham số mà còn cả thứ tự xuất hiện các tham số đó trong chính URL.

Tương tự, ID phiên là một trình tạo nội dung trùng lặp phổ biến. Điều này xảy ra khi mỗi người dùng truy cập một trang web được gán một ID phiên khác nhau được lưu trữ trong URL.

HTTP so với HTTPS hoặc WWW so với các trang không WWW

Nếu trang web của bạn có các phiên bản riêng biệt tại "www.site.com" và "site.com" (có và không có tiền tố "www") và cùng một nội dung tồn tại ở cả hai phiên bản, bạn đã tạo ra các bản sao của từng phiên bản một cách hiệu quả trang.

Điều tương tự cũng áp dụng cho các trang web duy trì các phiên bản ở cả “http:// và https://”. Nếu cả hai phiên bản của một trang đều trực tiếp và hiển thị cho các công cụ tìm kiếm, bạn có thể gặp phải sự cố trùng lặp nội dung.

Nội dung bị loại bỏ hoặc sao chép

Nội dung bao gồm không chỉ bài đăng trên blog hoặc nội dung biên tập, mà còn trang thông tin sản phẩm. Scrapers tái xuất bản nội dung blog của bạn trên các trang web của riêng họ có thể là một nguồn nội dung trùng lặp quen thuộc hơn, nhưng cũng có một vấn đề chung cho các trang web thương mại điện tử: thông tin sản phẩm.

Nếu nhiều trang web khác nhau bán cùng một mặt hàng và tất cả chúng đều sử dụng mô tả của nhà sản xuất về các mặt hàng đó, nội dung giống hệt nhau sẽ xuất hiện ở nhiều địa điểm trên web.

Cách khắc phục sự cố trùng lặp nội dung

Bất cứ khi nào nội dung trên một trang web có thể được tìm thấy tại nhiều URL, nó sẽ được hợp quy hóa cho các công cụ tìm kiếm. Chúng ta hãy đi qua ba cách chính để làm điều này:

Chuyển hướng 301

Điều hướng 301 cho nội dung trùng lặp

Điều hướng 301 cho nội dung trùng lặp

Trong nhiều trường hợp, cách tốt nhất để chống lại nội dung trùng lặp là thiết lập chuyển hướng 301 từ trang "trùng lặp" sang trang nội dung gốc.

Khi nhiều trang có khả năng xếp hạng tốt được kết hợp thành một trang duy nhất, chúng không chỉ ngừng cạnh tranh với nhau; họ cũng tạo ra một sự liên quan mạnh mẽ hơn và tín hiệu phổ biến nói chung. Điều này sẽ tác động tích cực đến khả năng xếp hạng tốt của trang "chính xác".

Rel = "kinh điển"

Một tùy chọn khác để xử lý nội dung trùng lặp là sử dụng thuộc tính rel = canonical. Điều này cho các công cụ tìm kiếm biết rằng một trang nhất định phải được xử lý như thể đó là bản sao của một URL được chỉ định và tất cả các liên kết, số liệu nội dung và "sức mạnh xếp hạng" mà các công cụ tìm kiếm áp dụng cho trang này thực sự phải được ghi có vào chỉ định URL.

Robot.txt

Đây là phương pháp được dùng khi bạn muốn nội dung trùng lặp hiển thị với người dùng nhưng ngăn chặn không cho bọ tìm kiếm thu thập thông tin. Điều này được thực hiện khá đơn giản. Tuy nhiên nó chỉ hiệu quả với các trang chưa index , còn với các trang đã được index thì nó vô tác dụng.

Google URL Removal

Cách làm này theo tôi là phương pháp cuối cùng nếu phải thực hiện việc xóa bỏ các nội dung trùng lặp. Nó được sử dụng trong google webmaster tool. Để làm được bạn làm theo các bước sau : Vào google webmaster tool rồi Click vào “Site Configuration” => click tiếp “Crawler Access” . Sau bước này bạn sẽ thấy hiển thị ra 3 tab. Hãy click vào cái thứ 3 “Remove URL” .

Nội dung trùng lặp là một vấn đề nghiêm trọng dẫn đến giảm thứ hạng và do đó mất lưu lượng truy cập. Có một loạt các lý do khác nhau tại sao các bản duplicate có thể xuất hiện và điều quan trọng là phải loại bỏ chúng kịp thời.