Google hoạt động thế nào ? Caffeine ?
Bài viết này được dịch dựa trên bài How Google Works của Matt Cutts, một nhân viên kĩ thuật nổi tiếng của Google.
Index và Spider ?
Trước tiên, bạn nên biết rằng, tất cả kết quả tìm kiếm mà bạn tìm được
thực ra chỉ là những trang mà google đã index (đánh chỉ mục). Nói nôm
na, đó là những trang đã được các spider của google ghé qua, đóng dấu và
lưu vào một thư viện khổng lồ. Các spider hoạt động như những con nhện
(theo nghĩa đen), từ trang web này, bạn trỏ qua các trang webs khác,
spider đi theo liên kết và ghé qua các trang mà bạn trỏ đến, cứ thế và
spider ghé qua từng trang trên mạng lưới liên kết, đánh dấu chúng và ta
gọi là index. Các kết quả trong trang kết quả tìm kiếm SERP là những
trang được lấy tự thư viện các trang mà spider đã index, dựa trên thẻ
title, meta tags, nội dung trên trang, các kết quả này được liệt kê theo
độ tin cậy và mức độ liên quan giữa nội dung trang và keyword tìm kiếm.
Caffeine, hệ đánh chỉ mục mới của Google
Mới đây, theo Google webmaster central, google đã hoàn thành hệ thống đánh chỉ mục mới có tên là Caffeine.
Vào thời điểm viết bài này, chúng ta không đếm được số trang mới đang và
được hình thành, số video và ảnh mới xuất hiện trên internet, lưu lượng
này khiến chúng ta chóng mặt, như sử dụng chất kích thích caffeine. Các
trang trên internet ngày càng mở rộng, nội dung của chúng ngày càng
phức tạp và nhu cầu thông tin của con người đòi hỏi google phải cập nhật
những thông tin nhanh nhất, những webmaster thì luôn mong thông tin của
họ được đăng tải trên các bộ máy tìm kiếm nhanh nhất, bằng việc index
từng trang vào thư viện và xuất ra như đã nói ở trên quả là quá ngơp đối
với các spider, quá chậm đối với người sử dụng. Vì lẽ đó, caffeine của
google ra đời.
Caffeine, công cụ đánh chỉ mục mới của Google
Với hệ thống cũ, trang web sau khi được spider ghé qua sẽ mất ít nhất là
vài ngày để index đầy đủ nội dung và lâu hơn chút để có mặt trên SERP,
với caffeine thì khác, spider sau khi ghé qua web sẽ đánh dấu liền với
các mảng nhỏ nội dung và đưa vào Search index, sau đó được cập nhật liên
tục. Điều đó có nghĩa là nội dung trên trang web sẽ được cập nhật ngay
tắp lự (với điều kiện spider ghé qua!)
Caffeine cho phép google index lưu lượng trang trên một mang lưới khổng
lồ mà trên thực tế, caffeine xử lí song song hàng trăm nghìn trang
(vâng, là hundreds of thousands!), nếu xếp các trang này ra giấy và
chồng lên thì bạn sẽ được một cột giấy cao đến 3 dặm (khoảng 5km), mỗi
giây nhé !. Caffeine có lưu lượng lên đến 100.000.000 gigabytes (8 số 0)
với tốc độ cập nhật lên đến hàng trăm ngàn gigabytes mỗi ngày ! Để lưu
trữ lượng thông tin này, bạn sẽ cần đến 625 ngàn chiếc IPOD !
Caffeine không chỉ được xây dựng để cập nhật hệ thống index cũ, nó còn
là tầm nhìn về việc phát triển và chạy theo sự phát triển mạnh mẽ của
internet trong tương lai và vì vậy, hãy đợi và xem sự cải thiện của bộ
máy tìm kiếm google trong vài tháng tới !
Bài viết bởi Carrie Grimes, Kĩ sư phần mềm của Google. (Dich bởi David pham)