Tìm...
Big Data là gì? Vì sao phải quan tâm tới công nghệ này
Ngày cập nhật 28/06/2017

Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và rất phức tạp đến nỗi những công cụ, ứng dụng xử lí dữ liệu truyền thống không thể nào đảm đương được. Tuy nhiên, Big Data lại chứa trong mình rất nhiều thông tin quý giá mà nếu trích xuất thành công, nó sẽ giúp rất nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán các dịch bệnh sắp phát sinh và thậm chí là cả việc xác định điều kiện giao thông theo thời gian thực. Chính vì thế, những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách khác so với bình thường

 
 
Big Data – Nó có nghĩa là gì?
 
Theo định nghĩa của Gartner: “Big Data là tài sản thông tin, mà những thông tin này có khối lượng dữ liệu lớn, tốc độ cao và dữ liệu đa dạng, đòi hỏi phải có công nghệ mới để xử lý hiệu quả nhằm đưa ra được các quyết định hiệu quả, khám phá được các yếu tố ẩn sâu trong dữ liệu và tối ưu hóa được quá trình xử lý dữ liệu”
 
Chúng ta hãy đào sâu hơn và hiểu điều này bằng một cách đơn giản hơn.
 
Thuật ngữ “Big Data” là một tập hợp dữ liệu rất lớn mà các kỹ thuật điện toán thông thường không thể xử lý được. Thuật ngữ “Big Data” không chỉ đề cập tới dữ liệu mà còn chỉ cơ cấu tổ chức dữ liệu, các công cụ và công nghệ liên quan.
 
Sự tiến bộ của công nghệ, sự ra đời của các kênh truyền thông mới như mạng xã hội và các thiết bị công nghệ mới tiên tiến hơn đã đặt ra thách thức cho các nền công nghiệp khác nhau phải tìm những cách khác để xử lý dữ liệu.
 
Từ khi hình thành cho tới đến hết năm 2003, toàn thế giới chỉ có khoảng 5 tỷ gigabyte dữ liệu. Cũng một lượng dữ liệu như vậy được tạo ra chỉ trong 2 ngày trong năm 2011. Đến năm 2013, khối lượng dữ liệu này được tạo ra cứ sau mỗi 10 phút. Do đó, không có gì ngạc nhiên khi mà 90% dữ liệu của toàn thế giới hiện nay được tạo ra trong một vài năm qua.
 
Tất cả những dữ liệu này cực kỳ hữu ích nhưng nó đã bị bỏ bê trước khi thuật ngữ “Big Data” ra đời.
Phân tích dữ liệu lớn
 
Những nguồn chính tạo ra Big Data
 
1. Hộp đen dữ liệu: đây là dữ liệu được tạo ra bởi máy bay, bao gồm máy bay phản lực và trực thăng. Hộp đen dữ liệu này bao gồm thông tin tạo ra bởi giọng nói của phi hành đoàn, các bản thu âm và thông tin về chuyến bay.
2. Dữ liệu từ các kênh truyền thông xã hội: Đây là dữ liệu được tạo ra và phát triển bởi như các trang web truyền thông xã hội như Twitter, Facebook, Instagram, Pinterest và Google+.
3. Dữ liệu giao dịch chứng khoán: Đây là số liệu từ thị trường chứng khoán đối với quyết định mua và bán cổ phiếu được thực hiện bởi khách hàng.
4. Dữ liệu điện lực: đây là dữ liệu tạo ra bởi điện lực. Nó bao gồm các thông tin cụ thể từ các điểm giao nhau của các nút thông tin sử dụng.
5. Dữ liệu giao thông: dữ liệu này bao gồm sức chưa và các mẫu phương tiện giao thông, độ sẵn sàng và khoảng cách đã đi được của từng phương tiện giao thông.
6. Dữ liệu các thiết bị tìm kiếm: đây là dữ liệu được tạo ra từ các công cụ tìm kiếm và đây cũng là nguồn dữ liệu lớn nhất của Big Data. Công cụ tìm kiếm có cơ sở dữ liệu cực kỳ rộng lớn, nơi họ có thể tìm thấy dữ liệu họ cần.
 
Thêm vào đó, Bernard Marr, chuyên gia về Big Data và phân tích Big Data, đã đưa ra danh sách 20 nguồn Big Data uy tín mà mọi người có thể truy cập miễn phí trên trang web. Dưới đây là một số ví dụ:
 
Data.gov - nơi mà mọi người được phép tự do truy cập tất cả các dữ liệu của Chính phủ Mỹ bao gồm các thông tin khác nhau, từ khí hậu đến tội phạm đang giam giữ.
 
Data.gov.uk – nơi tương tự của Chính phủ Anh. Tại đây, mọi người có thể tập hợp được siêu dữ liệu trên tất cả các sách và các ấn phẩm của Anh kể từ năm 1950.
 
Ngoài ra còn có Cục Điều tra Dân số Mỹ - bao gồm các thông tin có giá trị như dân số, địa lý và dữ liệu khác. Tương tự là kho dữ liệu mở Liên minh châu Âu, bao gồm các dữ liệu điều tra dân số của các tổ chức Liên minh châu Âu.
 
Và một thứ yêu thích của chúng ta đó là Facebook. Những biểu đồ của FB cung cấp cho chúng ta các thông tin và giao diện các ứng dụng, sau khi truy cập các thông tin công khai được cung cấp bởi người sử dụng.
 
Trong lĩnh vực y tế, đó là Healthdata.gov của Mỹ và Trung tâm Thông tin chăm sóc Y tế và xã hội NHS, từ Anh.
 
Bộ dữ liệu công cộng Google Trends, Google Finance, Amazon Web Services, là những ví dụ tương tự.
 
Võ Quang Huy
Các tin khác
Xem tin theo ngày