Cách trích xuất URL của trang web của bạn từ Archive.org (Wayback Machine)

Trên 10 phút đọc - Người đăng: Administrator

Bạn đang làm về mảng content muốn lấy dữ liệu trên webarchive để edit lại content ? Bạn không rành về kỹ thuật, yên tâm mình sẽ hướng dẫn bạn lấy hết các url trên Webarchive một cách đơn giản nhất.

Thường thì các bạn làm content hay focus vào các site đã hết hạn tên miền và không gia hạn. Lên archive và lấy content.

Tuy nhiên, có những link qua các catelogy bị lỗi , bạn sẽ gặp khó khăn trong việc lấy content.

----

Mình không đề cập đến vấn đề dùng tool nhé: ( Nếu bạn dùng Wordpress hiện tại có các tool cho bạn crawl lại dữ liệu từ webArchive ) mình sẽ hướng dẫn sau.

Nếu không có kiến ​​thức đầy đủ về cấu trúc trang web cũ của trang web và các URL bên trong nó, có thể có rất nhiều giá trị bị mất cho các trang 404.

Sử dụng dữ liệu Archive.org

Archive.org, hay Wayback Machine như thường được biết đến, là một hệ thống lập chỉ mục và thu thập dữ liệu web cho các trang web của internet để lưu trữ lịch sử. Ví dụ, đó là một công cụ tuyệt vời cho phép chúng ta xem xét Google trông như thế nào khi nó vẫn còn trong giai đoạn Beta vào năm 1998.

Vì nó thu thập thông tin một tỷ lệ lớn trên internet nên rất có thể trang web của bạn đã được thu thập thông tin bởi trình thu thập thông tin web của họ. Bằng cách truy xuất dữ liệu có sẵn công khai này, chúng ta có thể tổng hợp lại một ý tưởng sơ bộ về cấu trúc trang web của trang web được di chuyển trước có thể là gì.

Dữ liệu được cung cấp miễn phí để sử dụng và Archive.org có sơ lược về cách API có thể được truy cập.

Bản thân không phải là chuyên gia sử dụng API, trong quá trình sau, tôi sẽ quay lại phương pháp sao chép và dán cổ điển mà các Chuyên gia về nạn nhân của Công cụ Tìm kiếm ở bất kỳ cấp độ kỹ năng nào đều có thể sử dụng.

Tệp nhật ký txt mẫu trên archive.org

Cách trích xuất các URL cũ từ Archive.org

Định vị tệp JSON hoặc TXT của trang web của bạn

Bắt đầu bằng cách điều hướng đến URL sau, thay đổi example.com miền gốc đang giữ thành gốc của chính trang web của bạn.

Bạn có thể làm 1 trong 2 cách bên dưới