Tranh cãi về duplicated/unique content giữa người và robot?

Posted by

Đôi khi, con người và robot máy tính luôn có những mâu thuẫn về định nghĩa thế nào là một content (nội dung) trùng lặp (duplicated content) và thế nào là một nội dung độc nhất (unique content). Đáng tiếc rằng kết quả chúng ta nỗ lực lại được robot cơ sở dữ liệu đánh giá, và dù tốt hay xấu, chúng ta phải chấp nhận nó.

Bối cảnh được xảy ra khi chúng ta quan tâm đến thứ hạng SEO. SEO là tập hợp những kĩ thuật nhằm mục đích nâng cao thứ hạng của website trong kết quả tìm kiếm. “Content is the king” đã là một câu trả lời rõ ràng cho câu hỏi yếu tố nào quyết định thứ hạng của một trang web. Các công cụ tìm kiếm sẽ đánh giá cao nếu nhưng website chúng ta hữu ích và được cộng đồng nhận xét thông tin hữu ích. Nội dung chính là điểm mấu chốt. Nội trung trùng lặp có thể ảnh hưởng xấu đến thứ hạng vì robot cho rằng đây là một loại spam. Nhưng đôi khi xảy ra nghịch cảnh, nội dung rõ ràng là trùng lặp nhưng robot công cụ tìm kiếm lại cho rằng đó là content độc nhất. 

Làm thế nào robot tìm kiếm đánh giá đó là content trùng lặp?

Hãy nói đến trang web số 1 thế giới Google. Google sử dụng các thuật toán cao cấp để xác định xem hai trang hoặc một phần của trang có phải là nội dung trùng lặp hoặc gần giống nhau hay không. Thuật toán Simhash sẽ phân tích các phần nội dung trên một trang web. Sau đó, nó sẽ tính toán một mã định danh duy nhất cho mỗi phần và tạo ra một hàm băm (Hash function), hoặc dấu vân tay cho mỗi trang.

hash function

Cuối cùng, Google sử dụng tỷ lệ tương tự có trọng số loại trừ một số phần nội dung giống hệt nhau (vi dụ như các tiêu chí về tiêu đề, điều hướng, thanh cuộn, header/footer;…). Nó tính đến chủ đề của trang bằng phân tích n-gram để xác định từ nào trên trang lặp lại thường xuyên nhất.

Xác nhận các từ khóa với rel=canonicals 

Đây là một kỉ thuật rất được anh em SEOers yêu thích trong trường hợp content bị đánh giá là trùng lặp.Điều này đặt biệt xảy ra rất phổ biến với các trang web bán hàng thương mại điện tử.

Chúng ta sử dụng Canonical URLs để chỉ ra trang chính trong một nhóm các trang tương tự là cách phân cụm cho robot biết trang nào là trang gốc. Thiết lập lý tưởng nhất là các cụm được tạo bởi canonical và những cụm được thiết lập bởi Simhash phải giống hệt nhau.

Vậy chúng ta nên làm gì khi content độc nhất bị đánh giá là content trùng lặp?

Với các trường hợp “khoai” mãi không lên được top

  • Bạn có thể khai báo trực tiếp với Google coi chúng là các trang khác nhau bằng cách liên kết giữa các trang trong cụm từ khóa, sử dụng văn bản riêng biệt cho mỗi trang.

seo on crawls

  • Bạn sẽ cần phải làm phong phú nội dung thật khác để phân biệt các trang hoặc hợp nhất các trang thành một.

Giảm số lượng chiều website

Nếu các trang trùng lặp của bạn có liên quan đến nhiều chiều (Facet Navigation), bạn có thể gặp vấn đề về lập chỉ mục. Duy trì các chiều đã xếp hạng và giới hạn số lượng các chiều bạn cho phép Google lập chỉ mục.

Bạn có thể cân nhắc tăng thêm độ “độc nhất” cho website bằng cách thực hiện một số thao tác sau:

  • Thêm nội dung văn bản vào các trang.
    • Thêm mô tả khác nhau của hình ảnh.
    • Bao gồm đánh giá đầy đủ của khách hàng (Nếu đánh giá áp dụng cho nhiều trang, hãy hợp nhất các trang lại với nhau!).
    • Thêm thông tin bổ sung.
    • Thêm thông tin liên quan.
  • Sử dụng các hình ảnh khác nhau.
    • Giảm số lượng mã nguồn chung giữa các trang tương tự.
    • Cải thiện mật độ ngữ nghĩa trên các trang.
    • Tăng vốn từ vựng liên quan đến chủ đề và giảm các từ lặp lại.

Gộp một số trang web có nội dung tương tự

Quá nản lòng khi phải “nhồi nhét” cho mỗi trang web thêm phong phú hơn? Bạn muốn giữ mỗi trang web một nội dung đơn giản và ngắn gọn, các kế hoạch CTA cần thật nhanh chóng càng tốt? Vậy thì hãy cân nhắn gộp những trang có nội dung liên quan hoặc tương tự nhau vào làm một.

seo on crawl

  • Giữ lại URL đang được đánh giá tốt nhất
  • Điều hướng những trang lỗi 301 về trang có lưu lượng truy cập (traffic) tốt
  • Gộp những nội dung hữu ích từ các trang lỗi vào các trang được giữ lại và tối ưu tổng hợp cho các cụm từ đang được thứ hạng cao

Công việc hiểu nội dung của một trang Google là liên tục thay đổi các tiêu chí đánh giá. Với khả năng ngày càng chính xác để xác định thế nào là một content tốt, Google cần đảm bảo các công cụ của mình “thực” hơn, tránh sự đánh giá cứng nhắc hay tất cả thứ hạng website bị dồn nặng vào content quá, thay vì cải tiến một số tiêu chí khác.

Cho đến lúc đó, con người nên hiểu lý do tại sao nội dung của bạn chưa thuyết phục Google. Hãy tìm cách an toàn đế chứng minh website của bạn là hữu ích, chấp nhận tuân theo cuộc chơi, là chìa khóa để SEO thành công cho các trang tương tự.

Pre-sale Questions