Trước khi bạn tìm kiếm, các trình thu thập dữ liệu web thu thập thông tin từ hàng trăm tỷ trang web và sắp xếp thông tin trong chỉ mục Tìm kiếm.

Những khái niệm cơ bản về Tìm kiếm

Quy trình thu thập dữ liệu bắt đầu với danh sách các địa chỉ web từ các lần thu thập dữ liệu trước và các sơ đồ trang web do chủ sở hữu trang web cung cấp. Khi truy cập các trang web này, trình thu thập dữ liệu web của chúng tôi sử dụng các liên kết trên trang để khám phá các trang khác. Những phần mềm này đặc biệt chú ý đến các trang web mới, thay đổi đối với trang hiện có và các liên kết hỏng. Các chương trình máy tính xác định dữ liệu trang web nào cần thu thập, tần suất thu thập dữ liệu và số trang cần tìm nạp từ mỗi trang web.

Chúng tôi cung cấp công cụ Search Console để đem đến cho chủ sở hữu trang web các lựa chọn thật chi tiết về cách Google thu thập dữ liệu trang web của họ: họ có thể đưa ra hướng dẫn chi tiết về cách xử lý các trang trên trang web của mình, cũng như yêu cầu thu thập lại dữ liệu hoặc có thể chọn không thu thập dữ liệu bằng cách sử dụng tệp có tên “robots.txt”. Google không bao giờ nhận tiền để thu thập dữ liệu một trang web thường xuyên hơn — chúng tôi cung cấp các công cụ giống nhau cho tất cả các trang web để đảm bảo mang lại kết quả tốt nhất có thể cho người dùng của mình.

Tìm kiếm thông tin bằng cách thu thập dữ liệu

Web giống như một thư viện không ngừng phát triển với hàng tỷ cuốn sách và không có hệ thống lọc trung tâm. Chúng tôi sử dụng phần mềm có tên gọi trình thu thập dữ liệu web để khám phá các trang web công khai. Trình thu thập dữ liệu web xem xét các trang web và theo liên kết trên các trang đó, cũng như điều bạn sẽ thực hiện khi duyệt nội dung trên web. Trình thu thập dữ liệu đi từ liên kết này sang liên kết khác và gửi dữ liệu liên quan đến các trang web đó về máy chủ của Google.

Sắp xếp thông tin bằng cách lập chỉ mục

Khi trình thu thập dữ liệu web tìm thấy một trang web, hệ thống của chúng tôi hiển thị nội dung của trang, tương tự như một trình duyệt. Chúng tôi lưu ý các tín hiệu chính — từ từ khóa cho đến độ cập nhật của trang web — và theo dõi những điều này trong chỉ mục Tìm kiếm.

Chỉ mục Google Tìm kiếm chứa hàng trăm tỷ trang web và có kích thước lớn hơn 100.000.000 gigabyte. Chỉ mục này cũng giống như mục lục ở cuối một cuốn sách — với một mục cho mỗi từ chúng tôi bắt gặp trên mọi trang web được lập chỉ mục. Khi lập chỉ mục một trang web, chúng tôi thêm trang vào các mục cho tất cả các từ có trên trang đó.

 

 

Với Sơ đồ tri thức, chúng tôi tiếp tục vượt ra ngoài khả năng đối sánh từ khóa để hiểu rõ hơn những người, địa điểm và sự vật mà bạn quan tâm. Để làm điều này, chúng tôi không chỉ sắp xếp thông tin về các trang web mà còn cả các loại thông tin khác. Hiện nay, Google Tìm kiếm có thể giúp bạn tìm kiếm văn bản từ hàng triệu cuốn sách trong các thư viện lớn, tìm giờ khởi hành, giờ đến của các hãng vận chuyển công cộng trong vùng của bạn, hoặc giúp bạn tìm dữ liệu từ các nguồn công cộng như Ngân hàng thế giới.