youtube ptit google plus ptit twitter ptit

Dữ liệu web sẽ bùng nổ

Theo Marissa Mayer - nhà điều hành Google cho biết dữ liệu đang "sinh sôi nảy nở" với tốc độ nhanh hơn cả định luật Moore. Theo hãng nghiên cứu IDC, số lượng dữ liệu được tạo ra trên toàn cầu vào năm vừa qua vượt mức 1 zettabyte (1 tỉ terabyte). Việc "tích lũy" chưa có tiền lệ này đã dẫn đến một cuộc đua công nghệ, các công ty đang tìm kiếm cách để chứa, quản lý và phân tích thông tin. 

Dĩ nhiên, Google là hãng tiên phong trong việc phát triển các công nghệ "nghiền" dữ liệu (data-crunching), chẳng hạn công cụ MapReduce, chứa một tập các thuật toán phân bố và xử lý các khối dữ liệu lớn. Ngoài ra, Google có các trung tâm dữ liệu siêu bí mật (supersecret) làm việc như các máy tính khổng lồ (warehouse-sized computer). 

Theo Gina Trapani, nhà phát triển ThinkUp (smarterware.org), Google có rất nhiều dữ liệu được thu thập từ web trong thời gian rất lâu, còn Facebook có được dữ liệu do người dùng tạo ra. Dữ liệu của Facebook có nhiều điều thú vị hơn so với Google

Dữ liệu mới sẽ có một phần rất lớn về web xã hội. Hiện tại, mỗi tháng những người dùng Facebook chia sẻ hơn 30 tỉ mẫu nội dung - các liên kết web, những mẫu tin, những bài viết trên blog, hình ảnh. Những người dùng Twitter tạo ra hơn 155 triệu tweet/ngày (tức tăng hơn 55 triệu so với năm trước). Hơn nữa, cả 2 công ty đang thiết lập các nền tảng tập hợp dữ liệu, chấp nhận các công ty khác truy cập đến các kết quả thông qua API hay các giao diện chương trình ứng dụng. (Facebook Connect, cho phép các trang web truy cập dữ liệu công cộng từ những người dùng Facebook, đó là một API điển hình). Dĩ nhiên, sự phát triển của các mối liên kết vẫn còn nhiều dữ liệu trực tuyến ở dạng "trứng nước" nhưng tiến triển theo dạng xoắn ốc mở rộng. 

Xoắn ốc này đang dần rời khỏi tay Google vì tính năng tìm kiếm xã hội (socia search) và thời gian thực, ngoài ra còn là mối đe dọa cho các công ty tìm kiếm khác. Facebook, Twitter và các trang hướng đến xã hội khác tích lũy khối lượng lớn dữ liệu và kết nối dữ liệu này đến các bản đồ xã hội của người dùng, có thể giúp người dùng tìm thông tin theo cách mà Google không thể làm được.

Trong cuộc đua này, các công ty công nghệ, gồm cả các công ty mới sáng lập như Cloudera đã xây dựng các công nghệ dữ liệu lớn (big-data) tốt hơn: kiến trúc máy chủ hoàn toàn mới, hệ thống cơ sở dữ liệu rất khác biệt từ các kế hoạch liên quan, các nền (framework) ngôn ngữ mới cho đến việc kết hợp các diện mạo tốt nhất của nhiều ngôn ngữ lập trình. Ngoài ra, các công ty còn nhờ vào các nhóm chuyên gia trình độ cao về khoa học dữ liệu. Dù các công ty giữ bí mật về những "kho" công nghệ của họ nhưng phần lớn đều dựa vào nguồn mở.