Google trình làng công cụ tìm kiếm tập dữ liệu
Bảng giá điện thoại Sony tháng 9/2018: 9 model giảm giá / Sony Xperia XZ2 giảm giá 5 triệu đồng tại Việt Nam
Công cụ tìm kiếm tập dữ liệu (Dataset Search) mới ra mắt của Google được kỳ vọng sẽ trở thành bạn đồng hành hữu hiệu với Google Scholar - công cụ tìm kiếm nghiên cứu và báo cáo học thuật hiện tại. Các viện nghiên cứu của các trường Đại học hay các tổ chức chính phủ khi công bố dữ liệu online sẽ cần thêm các metadata tags (các tags siêu dữ liệu) ở trang web để cung cấp mô tả về dữ liệu, bao gồm các thông tin về tác giả, thời gian công bố, cách thức dữ liệu được thu thập... Những thông tin này sau đó sẽ được sắp xếp lại theo thứ tự thành mục lục trên Dataset Search.
Phát biểu trong bài phỏng vấn của The Verge, Natasha Noy - một nhà khoa học nghiên cứu tại Google AI, người đã góp phần tạo nên Dataset Search - chia sẻ về mục tiêu hợp nhất 10.000 kho dữ liệu online: "Chúng tôi muốn dữ liệu được chia sẻ nhưng không bị di chuyển mà ở nguyên tại nơi đang lưu giữ".
Hiện tại, các tập dữ liệu công khai khá rời rạc. Mỗi lĩnh vực khoa học khác nhau lại có kho dữ liệu riêng. Điều này xảy ra tương tự với các kho dữ liệu của chính phủ hay chính quyền địa phương. Natasha Noy cho biết thêm: "Các nhà khoa học chia sẻ rằng họ biết chính xác nơi tìm kiếm dữ liệu cho lĩnh vực của họ nhưng không phải lúc nào cũng vậy. Khi bước ra khỏi lĩnh vực thế mạnh của mình, họ sẽ gặp khó khăn".
Noy lấy ví dụ về cuộc trò chuyện mới đây với một nhà nghiên cứu khí hậu. Cô than phiền với Noy rằng mình đang tìm kiếm tập dữ liệu về nhiệt độ đại dương cho một nghiên cứu sắp tới nhưng không thể thấy. Mãi đến khi tình cờ gặp một người đồng nghiệp ở một buổi hội thảo, cô mới biết dữ liệu mình cần được lưu giữ ở đâu. Cũng chỉ đến lúc đó cô mới có thể tiếp tục nghiên cứu của mình.
"Thậm chí đó không phải là một kho dữ liệu quý hiếm đặc biệt" - Noy nhấn mạnh - "Tập dữ liệu được ghi chép và lưu giữ ở một nơi khá nổi tiếng nhưng vẫn rất khó để tìm thấy".
Ví dụ cho kết quả tìm kiếm về báo cáo thời tiết bằng Google Dataset Search
Trong lần ra mắt đầu tiên, Dataset Search sẽ bao gồm các chủ đề khoa học môi trường, khoa học xã hôi, dữ liệu chính phủ và các tập dữ liệu từ những viện tin tức như ProPublica. Tuy nhiên, nếu ứng dụng này trở nên phổ biến, lượng dữ liệu thu thập được sẽ tăng lên nhanh chóng bởi các viện nghiên cứu và các nhà khoa học sẽ tranh nhau chia sẻ thông tin của họ.
Jeni Tennison - CEO của Viện nghiên cứu Dữ liệu mở (ODI) - cho hay: "Tìm kiếm tập dữ liệu luôn khó khăn nhưng tôi hy vọng sự tham gia của Google sẽ giúp điều này trở nên dễ dàng hơn".
Theo Tennison, để tạo một công cụ tìm kiếm hiệu quả, cần phải nắm rõ hai điều. Thứ nhất là cần xây dựng một hệ thống thân thiện với người dùng. Thứ hai, cần tìm hiểu tâm lý hành vi hay ý định của người dùng khi họ gõ các cụm từ cụ thể để tìm kiếm. Google biết cách thực hiện cả hai điều trên.
Thật vậy, Tennison chia sẻ, lý tưởng nhất là Google sẽ công bố hướng dẫn cách vận hành của Dataset Search. Mặc dù các metadata tags sẽ công khai nguồn dữ liệu được công bố, các công cụ lấy dữ liệu tự động vẫn là một tiêu chuẩn mở, nghĩa là bất kỳ đối thủ nào, ví dụ như Bing hay Yandex, đều có thể phát triển một dịch vụ cạnh tranh. Công cụ tìm kiếm phát triển nhanh nhất chỉ khi một lượng người dùng đáng kể cùng chia sẻ dữ liệu của họ.
"Điều cơ bản và quan trọng nhất là phải hiểu cách mọi người tìm kiếm thông tin" - Tennison nói - "Nếu chúng ta muốn hiểu được cách mọi người tìm kiếm thông tin và khiến thông tin dễ dàng được tìm thấy, sẽ thật tuyệt nếu Google chia sẻ dữ liệu của chính họ về điều này".
End of content
Không có tin nào tiếp theo
Xem nhiều nhất
Công nghệ số: Động lực then chốt thúc đẩy kinh tế xanh
Chân dung Nhà khoa học Việt đầu tiên được trao Giải thưởng TechWomen 100
Khốc liệt cuộc đua trên thị trường internet vệ tinh: Công ty Trung Quốc vươn lên mạnh mẽ, cạnh tranh với SpaceX của Elon Musk
Hàng loạt tính năng mới được Meta trang bị cho Messenger: Gọi video chất lượng HD, sử dụng AI để tạo phông nền
Các nhà khoa học đề xuất cách đo thời gian mới