Breaking News

Tất tật về nội dung trùng lặp (duplicate content ) trong SEO

Do tự nhiên hôm nay đi làm về có ông anh trong ngành SEO inbox em hỏi về nội dung trùng lặp trong website, nên bỗng nhiên em nảy sinh ý tưởng viết về nội dung trùng lặp trong SEO, mong phần nào giúp mọi người hiểu hơn về duplicate content và xử lý nó một cách đơn giản.

Nội dung trùng lặp ( Ảnh : Internet )
1. Nội dung trùng lặp là gì

Nội dung trùng lặp ( duplicate content ) đơn giản chúng ta được hiểu là một nội dung mới giống như một bản sao với nội dung Gốc.

Những điển hình của nội dung trùng lặp :
  • Nội dung chính xác hoàn toàn , hoặc phần lớn các nội dung tương tự
  • Nội dung trên một số lĩnh vực, tên miền phụ hoặc URL đồng thời có thể truy cập (www / non-www / http / https / index.html /? Utm ... =)
  • Từ khoá, tiêu đề, mô tả, nội dung trong bài giống hệt nhau
Các loại Google không cho là trùng lặp
  • Dịch thủ công
  • Nội dung trong Apps
  • Nội dung địa phương ...vùng miền
2. Nội dung trùng lặp nội bộ là gì ?

Nội dung trùng lặp nội bộ là nội dung giống hệt hoặc tương tự nằm trong một website có 1 domain chung. Những nội dung trùng lặp này được tạo ra bởi quá trình xây dựng website chưa có khảo sát tính toán cụ thể.

Dưới đây là các trường hợp thường gặp phải lỗi nội dung trùng lặp nội bộ :

  • Trang Tag
  • Trang Filter
  • Kết quả trang search nội bộ
  • Trang Category
  • Trang sản phẩm đơn lẻ bị add vào nhiều Category khác nhau
  • Phân trang ( xem thêm hướng dẫn từ Google về nội dung được phân trang )
3. Nội dung trùng lặp bên ngoài là gì ?

Nội dung trùng lặp bên ngoài nói một cách dễ hiểu tương tự với nội dung trùng lặp nội bộ, đều là các nội dung giống hệt hoặc tương tự được sinh ra, nhưng điều khác ở đây là chúng không cùng nằm trong một domain.

Loại nội dung trùng lặp này thì thường sẽ là một lỗi khá nặng đối với bộ lọc của Google, sau đây em sẽ gợi ý vài trường hợp điển hình có thể gặp :
  • Các mô tả Sản Phẩm của những trang thương mại điện tử
  • Nội dung tạo bằng cách sử dụng kỹ thuật tạo từ đồng nghĩa hoặc mã hóa ( spin content )
  • Ăn trộm nội dung của đối thủ thủ công
  • Nội dung cóp nhặt ( tìm hiểu thêm tại đây )
  • Lấy nội dung qua RSS feeds
  • Sử dụng lại các thông cáo báo chí
  • Sử dụng content của các affiliate sites
4. Google phát hiện nội dung trùng lặp khi nào ?

Kĩ thuật lọc và xác định nội dung của Google nằm ở 3 điểm khi Google lập chỉ mục nội dung :
  • Khi lên Lịch ( Scheduler )
  • Trong thời gian lập chỉ mục ( indexing )
  • Trong các kết quả tìm kiếm
Thời điểm xác định trùng lặp
Thời điểm xác định trùng lặp ( Ảnh : TienAnhplus )

5. Hình phạt của Google.

Đối với trùng lặp nội dung nội bộ được nêu ở trên gần như Google không áp dụng hình phạt với chúng, tuy nhiên với trùng lặp nội dung bên ngoài Google rất gay gắt với chúng. Và có các hình phạt như
  • Thứ hạng giảm xuống
  • Loại bỏ index
  • Loại bỏ website khỏi công cụ tìm kiếm
6. Tại sao Google không thích nội dung trùng lặp ?

Google đang nỗ lực để lập chỉ mục và hiển thị các trang với thông tin riêng biệt, họ muốn đưa tới người dùng một kết quả tìm kiếm liên quan đến truy vấn của người dùng nhất.

Tuy nhiên thì vẫn có một vài lí do khác mà Google chưa nói đến :

Google phải tiết kiệm thời gian

Có vẻ không khó hiểu với mọi người, nhưng em cũng xin nói qua một chút, Google có hàng chục triệu website mới cần index mỗi ngày, với một khoảng thời gian giới hạn hệ thống cần phải thu thập hết dữ liệu về. 

Quá nhiều nội dung trả về mỗi ngày nên nếu nội dung trùng lặp không được loại bỏ Google sẽ không còn đủ thời gian để crawl và nó sẽ kết thúc sớm.

Tất nhiên điều này dẫn tới các URL quan trọng được lập chỉ mục.

Google phải tiết kiệm khả năng lưu trữ

Lý do này đương nhiên thuyết phục, bởi bộ nhớ Google mặc dù là khổng lồ, nhưng tốc độ tăng trưởng sinh ra các website thực sự quá nhanh, Google cần phải lo lắng cho hệ thống lưu trữ của mình.

7. Làm thế nào Google phát hiện tác giả của bài viết gốc

Đây là một vấn đề mà gần đây cũng khá nhiều anh em có inbox facebook cá nhân và hỏi em : " làm thế nào Google phát hiện được tác giả bài viết gốc hay làm sao Google biết đó là một bản sao ".

Em xin trả lời như sau, Google xác định tác gỉa bài viết gốc khi mà chỉ khi website chứa bài viết được lập chỉ mục ( index ) đầu tiên.

Điều này có thể gây ra những vấn đề đặc biệt mà trước đây em đã từng gặp phải, là trang web mới hơn ( nó hiếm khi được Google bot ghé thăm và index ) bị một trang uy tín hay một trang được Google bot thường xuyên ghé thăm copy bài. Nghiễm nhiên kẻ copy lại được lên thứ hạng cao, trong khi nội dung gốc lại tụt dần và biến mất.

Để khắc phục điều em mới nêu trên thì, sau khi viết bài xong hãy truy cập Search console của mình và submit URL của bài viết mới của mọi người ngay lập tức. 

8. Giải pháp với vấn đề nội dung trùng lặp

Dựa trên gợi ý của Google dưới đây, mọi người có thể dễ dàng giải quyết vấn đề về nội dung trùng lặp theo một số bước và đảm bảo rằng khách truy cập sẽ xem được nội dung mà mọi người muốn họ xem.

- Sử dụng 301s: Nếu mọi người đã cấu trúc lại trang web của mình, hãy sử dụng chuyển hướng 301 ("RedirectPermanent") trong tệp .htaccess của mọi người để chuyển hướng nhanh người dùng, Googlebot và các trình thu thập dữ liệu khác

- Sử dụng meta noindex : nếu phát hiện nội dung trùng lặp mọi người cũng có thể nhanh chóng triển khai trong meta thẻ noindex để chặn bot index bài viết này, tránh ảnh hướng xấu toàn site.

- Sử dụng canonical : Nếu mọi người vẫn muốn giữ nội dung đó là cho website của mọi người mà không muốn sử dụng noindex thì mọi người có thể thêm rel="canonical" vào trong thẻ meta.

- Đồng nhất: Mọi người nên giữ liên kết nội bộ đồng nhất. Ví dụ: không liên kết tới example.com/page/ và example.com/page và example.com/page/index.htm.

- Sử dụng các tên miền cấp cao: Để giúp Google cung cấp phiên bản tài liệu phù hợp nhất, hãy sử dụng các tên miền cấp cao bất cứ khi nào có thể để quản lý nội dung theo từng quốc gia. 

Ví dụ: example.vn chứa nội dung tập trung vào nước Đức hơn là example.com/vi hoặc vn.example.com.

- Thận trọng khi cung cấp nội dung ra ngoài: Nếu mọi người cung cấp nội dung của mình cho nhiều trang web khác, Google sẽ luôn hiển thị phiên bản mà Google cho là phù hợp nhất đối với người sử dụng trong mỗi tìm kiếm định sẵn. 

Tuy nhiên, sẽ rất hữu ích khi đảm bảo rằng mỗi trang web được mọi người cung cấp nội dung đều có chứa một liên kết quay trở lại bài viết gốc của mình. Mọi người cũng có thể yêu cầu những người sử dụng tài liệu do mọi người cung cấp sử dụng thẻ meta noindex để ngăn công cụ tìm kiếm lập chỉ mục phiên bản nội dung của họ.

- Sử dụng Search Console : để cho Google biết cách mọi người muốn trang web của mọi người được lập chỉ mục. Mọi người có thể cho Google biết miền ưa thích của mình 
(ví dụ: www.example.com hay example.com).

- Giảm thiểu sự lặp lại của nội dung cần thiết : Ví dụ: thay vì đặt văn bản dài dòng về nội dung bản quyền ở cuối mỗi trang, hãy chèn một bản tổng hợp vắn tắt và sau đó liên kết tới một trang chi tiết hơn. Hoặc sử dụng hình ảnh chứa nội dung đó.

- Tránh xuất bản nội dung trang trống : người dùng không muốn nhìn thấy các trang "trống".

- Hiểu được hệ thống quản lý nội dung của mọi người : đảm bảo rằng mọi người biết rõ cách thức hiển thị nội dung trên trang web của mọi người.

Ví dụ: rất dễ trùng lặp nếu mọi người để url theo các category hoặc tag khác nhau, nếu không tối ưu url ( example.com/abc/noi-dung-trung-lap và example.com/cde/noi-dung-trung-lap )

- Giảm thiểu nội dung tương tự nhau: Nếu mọi người có nhiều trang tương tự nhau, hãy cân nhắc việc mở rộng mỗi trang hoặc hợp nhất các trang thành một.

Có thể bạn quan tâm :

Có lẽ đến đây cũng đủ dài để mọi người hiểu hết về nội dung trùng lặp ( duplicate content ). Nếu có bất kì thắc mắc về SEO, hỏi về nơi Đào tạo SEO tốt, hay muốn bổ sung cho em, mọi người vui lòng comment xuống cái box ở dưới để em trả lời ạ, em cám ơn ạ.

Bài đăng phổ biến