Đừng đánh giá thấp sức mạnh của tính năng lọc nâng cao khi phân tích dữ liệu
Nhà viết chuyên mục Glenn Gabe chia sẻ nhiều cách lọc dữ liệu thu thập thông tin khác nhau để có được thông tin chi tiết hữu ích.
Trong khi giúp khách hàng xử lý các bản cập nhật thuật toán lớn, khắc phục sự cố kỹ thuật SEO và hơn thế nữa, tôi thường kiểm tra các trang web quy mô lớn. Điều đó hầu như luôn luôn yêu cầu thu thập dữ liệu trang web kỹ lưỡng (thường là một số lần thu thập thông tin trong suốt thời gian của một tương tác).
Với khả năng lọc dữ liệu tốt, bạn thường có thể hiển thị các loại trang, phần hoặc tên miền phụ có thể gây ra sự cố nghiêm trọng. Sau khi xuất hiện, bạn có thể phân tích nhiều lĩnh vực đó để hiểu rõ hơn các vấn đề cốt lõi và sau đó giải quyết những gì cần được khắc phục. cùng xem thêm cách cách khắc phúc khác.
Dưới đây, tôi sẽ trình bày một số ví dụ về việc sử dụng tính năng lọc trong cả hai công cụ. Bằng cách lọc dữ liệu thu thập thông tin, bạn sẽ sẵn sàng để cô lập và hiển thị các khu vực cụ thể của một trang web để phân tích thêm.
1.Ví dụ về lọc trong DeepCrawl
Các trang có thể lập chỉ mục
Hãy bắt đầu với một bộ lọc cơ bản nhưng quan trọng. Các vấn đề về chất lượng nội dung có thể cực kỳ nghiêm trọng ở một số cấp độ và bạn chắc chắn muốn đảm bảo rằng những vấn đề đó không xuất hiện trên các trang có thể lập chỉ mục. Khi Google đánh giá một trang web từ góc độ chất lượng, nó sẽ tính đến toàn bộ trang web của bạn. Điều đó bao gồm mọi trang được lập chỉ mục.
Vì vậy, khi bạn phát hiện các vấn đề trên trang web, thật tuyệt khi lọc danh sách đó theo các URL có thể lập chỉ mục để tập trung phân tích vào các trang có thể ảnh hưởng đến chất lượng trang web của bạn. Và tôi không nói là bỏ qua các URL khác vì chúng không được lập chỉ mục! Bạn cũng nên chăm sóc chúng. Hãy nhớ rằng người dùng đang tương tác với các trang đó và bạn không muốn người dùng không hài lòng.
Nội dung mỏng + regex cho loại trang
Đối với những bạn yêu thích regex, tôi có một tin vui. DeepCrawl hỗ trợ các biểu thức chính quy để lọc nâng cao. Vì vậy, bạn có thể chọn một bộ lọc và sau đó chọn “Đối sánh với regex” hoặc “Không khớp với regex” để thực hiện một số kiểu lọc. Nhân tiện, thật tuyệt vời khi có bộ lọc “Không khớp với regex” để bắt đầu loại bỏ các URL bạn muốn loại trừ so với bao gồm.
Ví dụ: hãy bắt đầu đơn giản bằng cách sử dụng các ký tự để kết hợp ba thư mục khác nhau trong bộ lọc. Một ký tự ống dẫn đại diện cho “hoặc” trong một biểu thức chính quy.
Hoặc, làm thế nào về việc loại trừ các thư mục cụ thể và sau đó tập trung vào các URL chỉ kết thúc bằng hai hoặc ba ký tự (đó là một ví dụ thực tế về các URL mà tôi cho là có vấn đề từ quan điểm nội dung trong quá trình kiểm tra cụ thể):
Hoặc, làm thế nào về việc trộn regex cho loại trang với số lượng từ để xác định các trang thực sự mỏng theo loại trang hoặc thư mục? Đây là lý do tại sao tính năng lọc rất mạnh mẽ (và tiết kiệm thời gian).
Bạn nhận được hình ảnh. Bạn có thể bao gồm hoặc loại trừ bất kỳ loại URL hoặc mẫu nào bạn muốn. Và bạn có thể xếp lớp trên các bộ lọc để hoàn thiện báo cáo của mình. Thật tuyệt vời khi tập trung thu thập thông tin quy mô lớn.
Vấn đề chính: Tiêu đề phản hồi
Năm ngoái, tôi đã viết một bài về cách kiểm tra X-Robots-Tag để khắc phục sự cố các chỉ thị robot nguy hiểm tiềm ẩn (vì chúng có thể được gửi qua phản hồi tiêu đề và không thể nhìn thấy bằng mắt thường). Trên các trang web quy mô lớn, điều này có thể cực kỳ nham hiểm, vì các trang có thể không được lập chỉ mục không chính xác.
Bạn cũng có thể đặt tiêu đề tương đối thông qua phản hồi tiêu đề. Và điều đó có thể dẫn đến một số vấn đề kỳ lạ (có thể khiến bạn phát điên nếu bạn không biết cách thiết lập rel canonical.) Và trong một số trường hợp, bạn có thể kết thúc với nhiều thẻ canonical cho một URL (một thẻ thông qua phản hồi tiêu đề và một bộ trong html), thêm các thẻ tiêu đề ví vụ tại đây. Khi điều đó xảy ra, Google có thể bỏ qua tất cả các thẻ chuẩn, như đã giải thích trong bài đăng trên blog của họ về những lỗi phổ biến với tương đối chuẩn.
Bằng cách kiểm tra báo cáo “Trang không có thẻ hợp lệ”, sau đó lọc theo cả URL tiêu đề chuẩn tương đối và URL html chuẩn tương đối, bạn có thể hiển thị tất cả các URL có vấn đề này. Sau đó, bạn có thể tìm hiểu kỹ với nhóm nhà phát triển của mình để xác định lý do tại sao điều đó lại xảy ra theo phương thức mã.
Tìm thấy tại URL - Xác định nguồn liên kết đến lỗi
Bạn chắc chắn sẽ gặp lỗi thu thập thông tin trong quá trình thu thập thông tin quy mô lớn (như 404, 500 và các lỗi khác). Chỉ biết các URL trả về lỗi thường không đủ tốt. Bạn thực sự cần theo dõi nơi các URL đó đang được liên kết trên toàn bộ trang web.
Bạn muốn khắc phục các vấn đề trên quy mô lớn, và không chỉ một lần. Để thực hiện việc này, hãy lọc theo URL "tìm thấy tại" từ bất kỳ báo cáo lỗi thu thập thông tin nào (hoặc từ báo cáo không phải 200). Sau đó, bạn có thể sử dụng regex để hiển thị các loại trang và / hoặc thư mục có thể liên kết nhiều đến các trang trả về lỗi thu thập thông tin.
Kiểm tra kỹ các URL AMP: Tất cả các liên kết liên quan
Sử dụng Trang trên thiết bị di động được tăng tốc (AMP)? Để kiểm tra kỹ các URL mà bạn đang tham chiếu qua “rel = amphtml” trong html của mình, bạn có thể kiểm tra báo cáo “Tất cả các liên kết rel” và lọc theo amphtml. Sau đó, bạn có thể áp dụng một bộ lọc khác cho “URL tới” để đảm bảo rằng đó thực sự là các URL amp mà bạn đang tham chiếu. Một lần nữa, đó chỉ là một ví dụ nhanh khác về cách lọc có thể phát hiện ra các vấn đề nham hiểm đang nằm dưới bề mặt.
2. Lọc trong Screaming Frog
Đối với Screaming Frog, các bộ lọc không mạnh bằng nhưng bạn vẫn có thể lọc dữ liệu ngay trong giao diện người dùng. Nhiều người không biết điều này, nhưng regex được hỗ trợ trong hộp tìm kiếm. Vì vậy, bạn có thể sử dụng bất kỳ cụm từ thông dụng nào bạn đang sử dụng trong DeepCrawl (hoặc ở nơi khác) để lọc URL theo loại báo cáo ngay trong Screaming Frog.
Ví dụ: kiểm tra mã phản hồi và muốn kiểm tra nhanh các URL đó theo thư mục? Sau đó, sử dụng các ký tự ống dẫn để bao gồm các loại trang hoặc thư mục (hoặc mẫu) cụ thể. Bạn sẽ thấy báo cáo thay đổi dựa trên regex.
Và bạn có thể tận dụng các báo cáo được lọc trước và sau đó phân lớp trên bộ lọc của riêng bạn. Ví dụ: bạn có thể kiểm tra các trang có tiêu đề dài và sau đó lọc bằng cách sử dụng biểu thức chính quy để bắt đầu hiển thị các loại hoặc mẫu trang cụ thể.
Và bộ lọc áp dụng cho tất cả các cột! Vì vậy, bạn có thể sử dụng regex cho bất kỳ cột nào được liệt kê trong báo cáo cụ thể đó. Ví dụ: bên dưới, tôi bắt đầu với tất cả các URL có chứa thẻ URL chuẩn, sau đó tôi hiển thị các URL có chứa thẻ meta robot bằng cách sử dụng “noindex”.
Nếu một URL không được lập chỉ mục, thì nó không được chứa thẻ URL chuẩn (hai URL này đi ngược lại với nhau). Rel canonical cho các công cụ biết đâu là URL ưu tiên để lập chỉ mục, trong khi thẻ meta robot sử dụng noindex cho các công cụ biết không lập chỉ mục URL. Điều đó không có ý nghĩa. Đây chỉ là một ví dụ nhanh về những gì bạn có thể làm với tính năng lọc trong Screaming Frog. Lưu ý: Screaming Frog có báo cáo "lỗi chính tắc", nhưng đây là một cách nhanh chóng để lọc trong giao diện người dùng để tìm ra các vấn đề.
Từ quan điểm xuất, rất tiếc, bạn không thể chỉ xuất dữ liệu đã lọc. Nhưng bạn có thể nhanh chóng sao chép và dán dữ liệu đã lọc vào Excel. Và ai biết được, có thể những người thông minh ở Screaming Frog sẽ xây dựng một tùy chọn "xuất dữ liệu đã lọc".