Dẫn luận về Dữ liệu lớn (Big Data)- phần 2
Chương 6 Dữ liệu lớn, kinh doanh lớn
Vào những năm 1920, J. Lyons and Co., một công ty cung cấp dịch vụ ăn uống của Anh nổi tiếng với các quán cà phê ‘Corner House’, đã thuê một nhà toán học trẻ của Đại học Cambridge, John Simmons, để làm công việc thống kê. Năm 1947, Raymond Thompson và Oliver Standingford, cả hai đều được Simmons tuyển dụng, được cử đi thăm Hoa Kỳ. Chính trong chuyến thăm này, họ lần đầu tiên nhận thức được máy tính điện tử và tiềm năng của chúng để thực hiện các phép tính thông thường. Simmons, bị ấn tượng bởi những phát hiện của họ, đã tìm cách thuyết phục Lyons mua một chiếc máy tính.
Hợp tác với Maurice Wilkes, người sau đó tham gia vào việc xây dựng Máy tính tự động lưu trữ độ trễ điện tử (Electronic Delay Storage Automatic Computer EDSAC) tại Đại học Cambridge, đã dẫn đến Văn phòng Điện tử Lyons. Máy tính này chạy trên thẻ đục lỗ và được Lyons sử dụng lần đầu tiên vào năm 1951 cho các nhiệm vụ kế toán cơ bản, chẳng hạn như cộng các cột số liệu. Đến năm 1954, Lyons đã thành lập doanh nghiệp máy tính của riêng mình và đang xây dựng LEO II, tiếp theo là LEO III. Mặc dù các máy tính văn phòng đầu tiên đã được lắp đặt vào đầu những năm 1950, do việc sử dụng van (6.000 trong trường hợp của LEO I) và băng từ, và dung lượng RAM rất nhỏ, những máy tính ban đầu này không đáng tin cậy và các ứng dụng của chúng bị hạn chế. Văn phòng Điện tử Lyons ban đầu được gọi rộng rãi là máy tính kinh doanh đầu tiên, mở đường cho thương mại điện tử hiện đại và sau một số lần sáp nhập, cuối cùng đã trở thành một phần của International Computers Limited (ICL), được thành lập vào năm 1968.
Thương mại điện tử/ e-Commerce
Các máy LEO và các máy tính lớn khổng lồ sau đó chỉ thích hợp cho các nhiệm vụ xử lý số liên quan đến các nhiệm vụ như kế toán và kiểm toán. Những người lao động theo truyền thống dành cả ngày để kiểm đếm các cột số liệu, giờ đây dành thời gian của họ để sản xuất các thẻ đục lỗ, một nhiệm vụ không kém phần tẻ nhạt, trong khi đòi hỏi mức độ chính xác cao như nhau.
Kể từ khi việc sử dụng máy tính trở nên khả thi đối với các doanh nghiệp thương mại, đã có sự quan tâm đến cách chúng có thể được sử dụng để cải thiện hiệu quả, cắt giảm chi phí và tạo ra lợi nhuận. Sự phát triển của bóng bán dẫn và việc sử dụng nó trong các máy tính có sẵn trên thị trường đã dẫn đến các máy móc ngày càng nhỏ hơn, và vào đầu những năm 1970, các máy tính cá nhân đầu tiên đã được giới thiệu. Tuy nhiên, phải đến năm 1981, khi International Business Machines (IBM) tung ra thị trường IBM-PC, với việc sử dụng đĩa mềm để lưu trữ dữ liệu, ý tưởng mới thực sự cất cánh trong kinh doanh. Khả năng xử lý văn bản và bảng tính của các thế hệ PC tiếp theo chịu trách nhiệm phần lớn trong việc giảm bớt phần lớn công việc vất vả của công việc văn phòng thông thường.
Công nghệ tạo điều kiện lưu trữ dữ liệu điện tử trên đĩa mềm sớm dẫn đến ý tưởng rằng trong tương lai, các doanh nghiệp có thể hoạt động hiệu quả mà không cần sử dụng giấy. Năm 1975, một bài báo trên tạp chí BusinessWeek của Mỹ suy đoán rằng văn phòng gần như không có giấy tờ sẽ trở thành hiện thực vào năm 1990. Đề xuất là bằng cách loại bỏ hoặc giảm đáng kể việc sử dụng giấy, văn phòng sẽ trở nên hiệu quả hơn và chi phí sẽ giảm. Việc sử dụng giấy trong văn phòng đã giảm một thời gian trong những năm 1980 khi phần lớn các thủ tục giấy tờ được tìm thấy trong tủ hồ sơ được chuyển sang máy tính, nhưng sau đó nó đã tăng lên mức cao nhất mọi thời đại vào năm 2007, với bản sao chiếm phần lớn sự gia tăng. Kể từ năm 2007, việc sử dụng giấy tờ đã giảm dần, phần lớn nhờ vào việc sử dụng ngày càng nhiều các thiết bị và tiện ích thông minh di động như chữ ký điện tử.
Mặc dù khát vọng lạc quan của thời đại kỹ thuật số ban đầu là làm cho văn phòng không cần giấy tờ vẫn chưa được thực hiện, nhưng môi trường văn phòng đã được cách mạng hóa bởi email, xử lý văn bản và bảng tính điện tử. Nhưng chính việc áp dụng rộng rãi Internet đã làm cho thương mại điện tử trở thành một đề xuất thực tế.
Mua sắm trực tuyến có lẽ là ví dụ quen thuộc nhất. Là khách hàng, chúng tôi tận hưởng sự tiện lợi khi mua sắm tại nhà và tránh xếp hàng tốn thời gian. Bất lợi cho khách hàng là rất ít, nhưng tùy thuộc vào loại giao dịch, việc thiếu liên lạc với nhân viên cửa hàng có thể cản trở việc sử dụng mua hàng trực tuyến. Những vấn đề này ngày càng được khắc phục bởi các phương tiện tư vấn khách hàng trực tuyến như ‘trò chuyện tức thì’, đánh giá trực tuyến và xếp hạng sao, sự lựa chọn lớn về hàng hóa và dịch vụ cùng với chính sách hoàn trả hào phóng. Cũng như mua và thanh toán hàng hóa, giờ đây chúng ta có thể thanh toán hóa đơn, ngân hàng, mua và thanh toán hàng hóa, bây giờ chúng ta có thể thanh toán hóa đơn, ngân hàng, mua vé máy bay và truy cập một loạt các dịch vụ khác trực tuyến.
eBay hoạt động khá khác và đáng nói vì lượng dữ liệu khổng lồ mà nó tạo ra. Với các giao dịch được thực hiện thông qua giá thầu bán và đấu giá, eBay tạo ra khoảng 50 Tb dữ liệu mỗi ngày, được thu thập từ mọi tìm kiếm, bán hàng và giá thầu được thực hiện trên trang web của họ bởi 160 triệu người dùng đang hoạt động được tuyên bố ở 190 quốc gia. Sử dụng dữ liệu này và phân tích thích hợp, họ hiện đã triển khai các hệ thống đề xuất tương tự như của Netflix, được thảo luận ở phần sau của chương này.
Các trang mạng xã hội cung cấp cho các doanh nghiệp phản hồi tức thì về mọi thứ, từ khách sạn và kỳ nghỉ đến quần áo, máy tính và sữa chua. Bằng cách sử dụng thông tin này, doanh nghiệp có thể xem điều gì hoạt động, hoạt động tốt như thế nào và điều gì làm phát sinh khiếu nại, đồng thời khắc phục sự cố trước khi chúng vượt khỏi tầm kiểm soát. Giá trị hơn nữa là khả năng dự đoán những gì khách hàng muốn mua dựa trên doanh số bán hàng hoặc hoạt động trang web trước đó. Các trang mạng xã hội như Facebook và Twitter thu thập một lượng lớn dữ liệu phi cấu trúc mà các doanh nghiệp có thể hưởng lợi về mặt thương mại với các phân tích thích hợp. Các trang web du lịch, chẳng hạn như TripAdvisor, cũng chia sẻ thông tin với bên thứ ba.
Quảng cáo trả tiền cho mỗi lần nhấp chuột
Các chuyên gia hiện đang ngày càng thừa nhận rằng việc sử dụng dữ liệu lớn một cách thích hợp có thể cung cấp thông tin hữu ích và tạo ra khách hàng mới thông qua việc cải thiện bán hàng và sử dụng quảng cáo nhắm mục tiêu tốt hơn. Bất cứ khi nào chúng ta sử dụng Web, chúng ta gần như chắc chắn nhận thức được quảng cáo trực tuyến và thậm chí chúng ta có thể tự đăng quảng cáo miễn phí trên các trang web đấu thầu khác nhau như eBay.
Một trong những loại quảng cáo phổ biến nhất tuân theo mô hình trả tiền cho mỗi lần nhấp chuột, là một hệ thống mà các quảng cáo có liên quan bật lên khi bạn đang thực hiện tìm kiếm trực tuyến. Nếu một doanh nghiệp muốn quảng cáo của họ được hiển thị liên quan đến một cụm từ tìm kiếm cụ thể, họ đặt giá thầu với nhà cung cấp dịch vụ cho một từ khóa được liên kết với cụm từ tìm kiếm đó. Họ cũng tuyên bố ngân sách tối đa hàng ngày. Các quảng cáo được hiển thị theo thứ tự theo hệ thống dựa trên một phần nhà quảng cáo đã đặt giá thầu cao nhất cho thời hạn đó.
Nếu bạn nhấp vào quảng cáo của họ, nhà quảng cáo sau đó phải trả cho nhà cung cấp dịch vụ những gì họ đặt giá thầu. Các doanh nghiệp chỉ trả tiền khi một bên quan tâm nhấp vào quảng cáo của họ, vì vậy những quảng cáo này phải phù hợp với cụm từ tìm kiếm để có nhiều khả năng người lướt web sẽ nhấp vào chúng. Các thuật toán phức tạp đảm bảo rằng đối với nhà cung cấp dịch vụ, ví dụ như Google hoặc Yahoo, doanh thu được tối đa. Việc triển khai quảng cáo trả tiền cho mỗi lần nhấp chuột được biết đến nhiều nhất là AdWords của Google. Khi chúng tôi tìm kiếm trên Google, các quảng cáo tự động xuất hiện ở bên cạnh màn hình được tạo bởi Adwords. Nhược điểm là các nhấp chuột có thể tốn kém và cũng có giới hạn về số lượng ký tự bạn được phép sử dụng để quảng cáo của bạn không chiếm quá nhiều dung lượng.
Gian lận nhấp chuột cũng là một vấn đề. Ví dụ: một công ty đối thủ có thể nhấp vào quảng cáo của bạn nhiều lần để sử dụng hết ngân sách hàng ngày của bạn. Hoặc một chương trình máy tính độc hại, được gọi là clickbot, có thể được sử dụng để tạo ra các nhấp chuột. Nạn nhân của loại gian lận này là nhà quảng cáo, vì nhà cung cấp dịch vụ được trả tiền và không có khách hàng nào tham gia. Tuy nhiên, vì lợi ích tốt nhất của các nhà cung cấp là đảm bảo an ninh và do đó bảo vệ một doanh nghiệp sinh lợi, nên nỗ lực nghiên cứu đáng kể đang được thực hiện để chống gian lận. Có lẽ phương pháp đơn giản nhất là theo dõi trung bình cần bao nhiêu nhấp chuột để tạo ra một giao dịch mua. Nếu điều này đột ngột tăng lên hoặc nếu có một số lượng lớn nhấp chuột và hầu như không có mua hàng thì có thể xảy ra nhấp chuột gian lận.
Trái ngược với các thỏa thuận trả tiền cho mỗi lần nhấp chuột, quảng cáo nhắm mục tiêu dựa trên hồ sơ hoạt động trực tuyến của mỗi người. Để xem điều này hoạt động như thế nào, chúng ta sẽ bắt đầu bằng cách xem xét kỹ hơn về cookie, mà tôi đã đề cập ngắn gọn trong Chương 1.
Cookies
Thuật ngữ này xuất hiện lần đầu tiên vào năm 1979 khi hệ điều hành UNIX chạy một chương trình gọi là Fortune Cookie, cung cấp các trích dẫn ngẫu nhiên cho người dùng được tạo ra từ một cơ sở dữ liệu lớn. Cookie có nhiều dạng, tất cả đều có nguồn gốc từ bên ngoài và được sử dụng để lưu giữ hồ sơ về một số hoạt động trên trang web và/hoặc máy tính. Khi bạn truy cập một trang web, một thông báo bao gồm một tệp nhỏ được lưu trữ trên máy tính của bạn được gửi bởi máy chủ Web đến trình duyệt của bạn. Thông báo này là một ví dụ về cookie, nhưng có nhiều loại khác, chẳng hạn như những loại được sử dụng cho mục đích xác thực người dùng và những loại được sử dụng để theo dõi của bên thứ ba.
Quảng cáo nhắm mục tiêu
Mỗi nhấp chuột bạn thực hiện trên Internet đều được thu thập và sử dụng cho quảng cáo được nhắm mục tiêu.
Dữ liệu người dùng này được gửi đến các mạng quảng cáo của bên thứ ba và được lưu trữ trên máy tính của bạn dưới dạng cookie. Khi bạn nhấp vào các trang web khác được hỗ trợ bởi mạng này, quảng cáo cho các sản phẩm bạn đã xem trước đó sẽ được hiển thị trên màn hình của bạn. Sử dụng Lightbeam, một tiện ích bổ sung miễn phí cho Mozilla Firefox, bạn có thể theo dõi những công ty nào đang thu thập dữ liệu hoạt động Internet của bạn.
Hệ thống đề xuất
Hệ thống đề xuất cung cấp một cơ chế lọc mà thông tin được cung cấp cho người dùng dựa trên sở thích của họ. Các loại hệ thống đề xuất khác, không dựa trên sở thích của người dùng, hiển thị những gì khách hàng khác đang xem trong thời gian thực và thường những hệ thống này sẽ xuất hiện như ‘xu hướng’. Netflix, Amazon và Facebook là những ví dụ về các doanh nghiệp sử dụng các hệ thống này.
Một phương pháp phổ biến để quyết định sản phẩm nào sẽ giới thiệu cho khách hàng là lọc cộng tác. Nói chung, thuật toán sử dụng dữ liệu thu thập được về khách hàng cá nhân từ các giao dịch mua và tìm kiếm trước đó của họ, đồng thời so sánh điều này với một cơ sở dữ liệu lớn về những gì khách hàng khác thích và không thích để đưa ra các đề xuất phù hợp cho việc mua hàng tiếp theo. Tuy nhiên, một so sánh đơn giản thường không mang lại kết quả tốt. Hãy xem xét ví dụ sau đây.
Giả sử một hiệu sách trực tuyến bán một cuốn sách nấu ăn cho một khách hàng. Sẽ rất dễ dàng để giới thiệu sau đó tất cả các cuốn sách nấu ăn, nhưng điều này khó có thể thành công trong việc đảm bảo các giao dịch mua tiếp theo. Có quá nhiều sách, và khách hàng đã biết mình thích sách nấu ăn. Điều cần thiết là một cách giảm số lượng sách xuống còn những cuốn sách mà khách hàng có thể thực sự mua. Hãy xem xét ba khách hàng, Smith, Jones và Brown, cùng với việc mua sách của họ (Hình 19).
Câu hỏi cho hệ thống giới thiệu là cuốn sách nào nên được giới thiệu cho Smith và cuốn nào được giới thiệu cho Jones. Chúng tôi muốn biết liệu Smith có nhiều khả năng mua Pasta Today hay Wine for All hay không.
Để làm điều này, chúng ta cần sử dụng một thống kê thường được sử dụng để so sánh các tập hợp và được gọi là chỉ số Jaccard. Điều này được định nghĩa là số lượng mục mà hai bộ có chung chia cho tổng số mục riêng biệt trong hai bộ. Chỉ số đo lường sự tương đồng giữa hai tập hợp như tỷ lệ chung của chúng. Khoảng cách Jaccard, được định nghĩa là một trừ đi chỉ số Jaccard, đo lường sự khác biệt giữa chúng.
Nhìn lại Hình 19, chúng ta thấy rằng Smith và Jones có một giao dịch mua sách chung, Daily Salads. Giữa họ, họ đã mua ba cuốn sách riêng biệt, Salad hàng ngày, Món tráng miệng ngày mai và Rượu vang cho tất cả. Điều này mang lại cho họ chỉ số Jaccard là 1/3 và khoảng cách Jaccard là 2/3. Hình 20 cho thấy tính toán cho tất cả các cặp khách hàng có thể có.
Smith và Jones có chỉ số Jaccard, hoặc điểm tương tự, cao hơn Smith và Brown. Điều này có nghĩa là Smith và Jones gần gũi hơn trong thói quen mua hàng của họ – vì vậy chúng tôi giới thiệu Wine for All cho Smith. Chúng ta nên giới thiệu gì cho Jones? Smith và Jones có chỉ số Jaccard cao hơn Jones và Brown, vì vậy chúng tôi giới thiệu Desserts Tomorrow cho Jones.
Bây giờ giả sử rằng khách hàng đánh giá mua hàng trên hệ thống năm sao. Để sử dụng thông tin này, chúng tôi cần tìm những khách hàng khác đã đánh giá tương tự cho những cuốn sách cụ thể và xem họ đã mua những gì khác cũng như xem xét lịch sử mua hàng của họ. Xếp hạng sao cho mỗi lần mua hàng được đưa ra trong Hình 21.
Trong ví dụ này, một phép tính khác, được gọi là thước đo tương đồng cosin/ cosine similarity measure, có tính đến xếp hạng sao, được mô tả. Đối với phép tính này, thông tin được cung cấp trong bảng Xếp hạng sao được biểu diễn dưới dạng vector. Chiều dài hoặc độ lớn của các vector được chuẩn hóa thành 1 và không đóng thêm vai trò nào trong các phép tính. Hướng của các vector được sử dụng như một cách để tìm xem hai vector giống nhau như thế nào và ai có xếp hạng sao tốt nhất. Dựa trên lý thuyết về không gian vector, một giá trị cho sự tương đồng cosin giữa hai vector được tìm thấy. Cách tính khá khác với phương pháp lượng giác quen thuộc, nhưng các tính chất cơ bản vẫn giữ nguyên với các cosin có giá trị từ 0 đến 1. Ví dụ, nếu chúng ta thấy rằng sự tương đồng cosin giữa hai vector, mỗi vector đại diện cho xếp hạng sao của một người, là 1 thì góc giữa chúng là 0 vì cosin (0) = 1, và do đó chúng phải trùng khớp và chúng ta có thể kết luận rằng chúng có thị hiếu giống hệt nhau. Giá trị của sự tương đồng cosin càng cao thì sự tương đồng về khẩu vị càng lớn.
Nếu bạn muốn xem các chi tiết toán học, có các tài liệu tham khảo trong phần Đọc thêm ở cuối sách này. Điều thú vị từ quan điểm của chúng tôi là sự tương đồng cosin giữa Smith và Jones là 0,350, và giữa Smith và Brown là 0,404. Đây là sự đảo ngược của kết quả trước đó, cho thấy Smith và Brown có thị hiếu gần gũi hơn so với Smith và Jones. Một cách không chính thức, điều này có thể được hiểu là Smith và Brown gần gũi hơn trong quan điểm của họ về Desserts Tomorrow so với Smith và Jones theo quan điểm của họ về Daily Salads.
Netflix và Amazon, mà chúng ta sẽ xem xét trong phần tiếp theo, đều sử dụng các thuật toán lọc cộng tác.
Amazon
Năm 1994, Jeff Bezos thành lập Cadabra, nhưng nhanh chóng đổi tên thành Amazon và vào năm 1995 Amazon.com được ra mắt. Ban đầu là một cửa hàng sách trực tuyến, hiện là một công ty thương mại điện tử quốc tế với hơn 304 triệu khách hàng trên toàn thế giới. Nó sản xuất và bán nhiều loại từ thiết bị điện tử đến sách và thậm chí cả các mặt hàng thực phẩm tươi sống như sữa chua, sữa và trứng thông qua Amazon Fresh. Đây cũng là một công ty dữ liệu lớn hàng đầu, với Amazon Web Services cung cấp các giải pháp dữ liệu lớn dựa trên đám mây cho doanh nghiệp, sử dụng các phát triển dựa trên Hadoop.
Amazon đã thu thập dữ liệu về những cuốn sách đã được mua, những cuốn sách mà khách hàng đã xem nhưng không mua, họ đã dành bao lâu để tìm kiếm, họ dành bao lâu để xem một cuốn sách cụ thể và liệu những cuốn sách họ lưu có được dịch thành mua hàng hay không. Từ đó, họ có thể xác định số tiền khách hàng chi cho sách hàng tháng hoặc hàng năm và xác định xem họ có phải là khách hàng thường xuyên hay không. Trong những ngày đầu, dữ liệu mà Amazon thu thập được đã được phân tích bằng các kỹ thuật thống kê tiêu chuẩn. Các mẫu đã được lấy từ một người và dựa trên những điểm tương đồng được tìm thấy, Amazon sẽ cung cấp cho khách hàng nhiều thứ tương tự hơn. Tiến thêm một bước nữa, vào năm 2001, các nhà nghiên cứu tại Amazon đã nộp đơn và được cấp bằng sáng chế về một kỹ thuật gọi là lọc cộng tác từ mặt hàng đến mặt hàng. Phương pháp này tìm các mặt hàng tương tự chứ không phải khách hàng tương tự.
Amazon thu thập một lượng lớn dữ liệu bao gồm địa chỉ, thông tin thanh toán và chi tiết về mọi thứ mà một cá nhân đã từng xem hoặc mua từ họ. Amazon sử dụng dữ liệu của mình để khuyến khích khách hàng chi nhiều tiền hơn cho họ bằng cách cố gắng thực hiện càng nhiều nghiên cứu thị trường của khách hàng càng tốt. Ví dụ, trong trường hợp sách, Amazon không chỉ cần cung cấp một lựa chọn khổng lồ mà còn tập trung các đề xuất vào từng khách hàng. Nếu bạn đăng ký Amazon Prime, họ cũng theo dõi thói quen xem và đọc phim của bạn. Nhiều khách hàng sử dụng điện thoại thông minh có khả năng GPS, cho phép Amazon thu thập dữ liệu hiển thị thời gian và vị trí. Lượng dữ liệu đáng kể này được sử dụng để xây dựng hồ sơ khách hàng cho phép các cá nhân tương tự và các đề xuất của họ được khớp nối.
Kể từ năm 2013, Amazon đã bán siêu dữ liệu của khách hàng cho các nhà quảng cáo để thúc đẩy hoạt động dịch vụ Web của họ, dẫn đến sự tăng trưởng vượt bậc. Đối với Amazon Web Services, nền tảng điện toán đám mây của họ, bảo mật là điều tối quan trọng và đa diện. Mật khẩu, cặp khóa và chữ ký số chỉ là một vài trong số các kỹ thuật bảo mật được áp dụng để đảm bảo rằng tài khoản của khách hàng chỉ có sẵn cho những người có ủy quyền chính xác.
Dữ liệu của Amazon cũng được đa bảo vệ và mã hóa tương tự, sử dụng thuật toán AES (Advanced Encryption Standard/ Tiêu chuẩn mã hóa nâng cao), để lưu trữ trong các trung tâm dữ liệu chuyên dụng trên khắp thế giới và Lớp cổng bảo mật (Secure Socket Layer SSL), tiêu chuẩn ngành, được sử dụng để thiết lập kết nối an toàn giữa hai máy, chẳng hạn như liên kết giữa máy tính gia đình và Amazon.com.
Amazon đang đi tiên phong trong việc vận chuyển dự đoán dựa trên phân tích dữ liệu lớn. Ý tưởng là sử dụng dữ liệu lớn để dự đoán những gì khách hàng sẽ đặt hàng. Ban đầu, ý tưởng là vận chuyển sản phẩm đến trung tâm giao hàng trước khi đơn đặt hàng thực sự thành hiện thực. Như một phần mở rộng đơn giản, một sản phẩm có thể được vận chuyển với một khách hàng hài lòng nhận được một gói bất ngờ miễn phí. Với chính sách hoàn trả của Amazon, đây không phải là một ý tưởng tồi. Người ta dự đoán rằng hầu hết khách hàng sẽ giữ các mặt hàng họ đặt hàng vì chúng dựa trên sở thích cá nhân của họ, được tìm thấy bằng cách sử dụng phân tích dữ liệu lớn. Bằng sáng chế năm 2014 của Amazon về vận chuyển dự đoán cũng nói rằng thiện chí có thể được mua bằng cách gửi một món quà khuyến mại. Thiện chí, tăng doanh số bán hàng thông qua tiếp thị có mục tiêu và giảm thời gian giao hàng đều làm cho điều mà Amazon tin là một liên doanh đáng giá. Amazon cũng đã nộp đơn xin cấp bằng sáng chế về giao hàng bằng máy bay không người lái tự động, được gọi là Prime Air. Vào tháng 9 năm 2016, Cục Hàng không Liên bang Hoa Kỳ đã nới lỏng các quy định về việc sử dụng máy bay không người lái của các tổ chức thương mại, cho phép chúng, trong một số tình huống được kiểm soát chặt chẽ, bay ra ngoài tầm nhìn của người điều khiển. Đây có thể là bước đệm đầu tiên trong nhiệm vụ của Amazon để giao các gói hàng trong vòng ba mươi phút sau khi đặt hàng, có thể dẫn đến việc giao sữa bằng máy bay không người lái sau khi cảm biến tủ lạnh thông minh của bạn cho biết rằng bạn sắp trống tủ.
Amazon Go, nằm ở Seattle, là một cửa hàng thực phẩm tiện lợi và là cửa hàng đầu tiên thuộc loại này không cần thanh toán. Kể từ tháng 12 năm 2016, nó chỉ mở cửa cho nhân viên Amazon và kế hoạch cung cấp cho công chúng vào tháng 1 năm 2017 đã bị hoãn lại. Hiện tại, các chi tiết kỹ thuật duy nhất có sẵn là từ bằng sáng chế được đệ trình hai năm trước, mô tả một hệ thống loại bỏ nhu cầu kiểm tra từng mục. Thay vào đó, thông tin chi tiết về giỏ hàng thực tế của khách hàng sẽ tự động được thêm vào giỏ hàng ảo khi họ mua sắm. Thanh toán được thực hiện bằng điện tử khi họ rời khỏi cửa hàng qua khu vực chuyển tiếp, miễn là họ có tài khoản Amazon và điện thoại thông minh với ứng dụng Amazon Go. Hệ thống Go dựa trên một loạt các cảm biến, rất nhiều trong số chúng, được sử dụng để xác định khi nào một mặt hàng được lấy từ hoặc trả lại kệ.
Điều này sẽ tạo ra một lượng lớn dữ liệu hữu ích về mặt thương mại cho Amazon. Rõ ràng, vì mọi hành động mua sắm được thực hiện giữa việc vào và rời khỏi cửa hàng đều được ghi lại, Amazon sẽ có thể sử dụng dữ liệu này để đưa ra các đề xuất cho lần ghé thăm tiếp theo của bạn theo cách tương tự như hệ thống đề xuất trực tuyến của họ. Tuy nhiên, có thể có vấn đề về việc chúng ta coi trọng quyền riêng tư của mình như thế nào, đặc biệt là các khía cạnh như khả năng được đề cập trong đơn xin cấp bằng sáng chế sử dụng hệ thống nhận dạng khuôn mặt để xác định khách hàng.
[Tháng 4/2024 công nghệ Just Walk Out technology được xem xét dừng hoạt động
https://www.axios.com/2024/04/04/amazon-walk-out-grocery-stores-ai-technology]
Netflix
Một công ty khác ở Thung lũng Silicon, Netflix, bắt đầu vào năm 1997 với tư cách là một công ty cho thuê DVD bưu điện. Bạn lấy ra một đĩa DVD và thêm một đĩa khác vào hàng đợi của mình, và sau đó chúng sẽ được gửi lần lượt. Khá hữu ích, bạn có khả năng ưu tiên hàng đợi của mình. Dịch vụ này vẫn có sẵn và vẫn sinh lợi, mặc dù nó dường như đang dần giảm dần. Bây giờ là một nhà cung cấp truyền thông quốc tế, phát trực tuyến Internet, với khoảng bảy mươi lăm triệu người đăng ký trên 190 quốc gia khác nhau, vào năm 2015, Netflix đã mở rộng thành công sang cung cấp các chương trình gốc của riêng mình.
Netflix thu thập và sử dụng lượng dữ liệu khổng lồ để cải thiện dịch vụ khách hàng, chẳng hạn như cung cấp các đề xuất cho khách hàng cá nhân trong khi cố gắng cung cấp khả năng phát trực tuyến phim đáng tin cậy. Đề xuất là trọng tâm của mô hình kinh doanh Netflix và hầu hết hoạt động kinh doanh của nó được thúc đẩy bởi các đề xuất dựa trên dữ liệu mà nó có thể cung cấp cho khách hàng. Netflix hiện theo dõi những gì bạn xem, những gì bạn duyệt, những gì bạn tìm kiếm và ngày và giờ bạn làm tất cả những điều này. Nó cũng ghi lại xem bạn đang sử dụng iPad, TV hay thứ gì khác.
Năm 2006, Netflix đã công bố một cuộc thi crowdsourcing nhằm cải thiện hệ thống giới thiệu của họ. Họ đã đưa ra giải thưởng 1 triệu đô la cho một thuật toán lọc hợp tác sẽ cải thiện 10% độ chính xác dự đoán của xếp hạng phim của người dùng. Netflix đã cung cấp dữ liệu đào tạo, hơn 100 triệu mục, cho cuộc thi học máy và khai thác dữ liệu này – và không có nguồn nào khác có thể được sử dụng. Netflix đã cung cấp một giải thưởng tạm thời (Giải thưởng Tiến bộ) trị giá 50.000 đô la, được nhóm Korbell giành được vào năm 2007 vì đã giải quyết một vấn đề liên quan nhưng có phần dễ dàng hơn. Dễ dàng hơn là một thuật ngữ tương đối ở đây, vì giải pháp của họ đã kết hợp 107 thuật toán khác nhau để đưa ra hai thuật toán cuối cùng, với sự phát triển liên tục, vẫn đang được Netflix sử dụng. Các thuật toán này được đánh giá để đối phó với 100 triệu xếp hạng trái ngược với năm tỷ mà thuật toán giải thưởng đầy đủ sẽ phải quản lý. Giải thưởng đầy đủ cuối cùng đã được trao vào năm 2009 cho nhóm Pragmatic Chaos của BellKor, người có thuật toán thể hiện sự cải thiện 10,06% so với thuật toán hiện tại. Netflix chưa bao giờ triển khai đầy đủ thuật toán chiến thắng, chủ yếu là vì vào thời điểm này mô hình kinh doanh của họ đã thay đổi sang mô hình phát trực tuyến phương tiện truyền thông quen thuộc.
Khi Netflix mở rộng mô hình kinh doanh của họ từ dịch vụ bưu chính sang cung cấp phim bằng cách phát trực tuyến, họ có thể thu thập nhiều thông tin hơn về sở thích và thói quen xem của khách hàng, từ đó cho phép họ cung cấp các đề xuất được cải thiện. Tuy nhiên, khác với phương thức kỹ thuật số, Netflix sử dụng những người gắn thẻ bán thời gian, tổng cộng khoảng bốn mươi người trên toàn thế giới xem phim và gắn thẻ nội dung, dán nhãn chúng là, ví dụ, ‘khoa học viễn tưởng’ hoặc ‘hài kịch’. Đây là cách các bộ phim được phân loại — sử dụng phán đoán của con người chứ không phải thuật toán máy tính ban đầu; điều đó đến sau.
Netflix sử dụng một loạt các thuật toán đề xuất cùng nhau tạo nên một hệ thống đề xuất. Tất cả các thuật toán này hoạt động dựa trên dữ liệu lớn tổng hợp do công ty thu thập. Ví dụ, lọc dựa trên nội dung phân tích dữ liệu được báo cáo bởi ‘người gắn thẻ’ và tìm các bộ phim và chương trình truyền hình tương tự theo các tiêu chí như thể loại và diễn viên. Lọc cộng tác theo dõi những thứ như thói quen xem và tìm kiếm của bạn. Đề xuất dựa trên những gì người xem có hồ sơ tương tự đã xem. Điều này kém thành công hơn khi một tài khoản người dùng có nhiều hơn một người dùng, thường là một số thành viên trong gia đình, với sở thích và thói quen xem khác nhau chắc chắn. Để khắc phục vấn đề này, Netflix đã tạo tùy chọn nhiều hồ sơ trong mỗi tài khoản.
Truyền hình Internet theo yêu cầu là một lĩnh vực tăng trưởng khác của Netflix và việc sử dụng phân tích dữ liệu lớn sẽ ngày càng trở nên quan trọng khi họ tiếp tục phát triển các hoạt động của mình. Cùng với việc thu thập dữ liệu tìm kiếm và xếp hạng sao, Netflix giờ đây có thể lưu giữ hồ sơ về tần suất người dùng tạm dừng hoặc tua đi nhanh và liệu họ có xem xong từng chương trình mà họ bắt đầu hay không. Họ cũng theo dõi cách thức, thời gian và địa điểm họ xem chương trình, và một loạt các biến số khác quá nhiều để đề cập. Sử dụng phân tích dữ liệu lớn, chúng tôi được biết rằng giờ đây họ thậm chí có thể dự đoán khá chính xác liệu khách hàng có hủy đăng ký của họ hay không.
Khoa học dữ liệu
‘Nhà khoa học dữ liệu’ là danh hiệu chung được đặt cho những người làm việc trong lĩnh vực dữ liệu lớn. Báo cáo của McKinsey năm 2012 nhấn mạnh sự thiếu hụt các nhà khoa học dữ liệu chỉ riêng ở Hoa Kỳ, ước tính rằng đến năm 2018, sự thiếu hụt sẽ lên tới 190.000. Xu hướng này rõ ràng trên toàn thế giới và ngay cả với các sáng kiến của chính phủ thúc đẩy đào tạo kỹ năng khoa học dữ liệu, khoảng cách giữa chuyên môn có sẵn và cần thiết dường như đang mở rộng. Khoa học dữ liệu đang trở thành một lựa chọn học tập phổ biến trong các trường đại học nhưng sinh viên tốt nghiệp cho đến nay vẫn không thể đáp ứng nhu cầu của thương mại và công nghiệp, nơi các vị trí trong khoa học dữ liệu mang lại mức lương cao cho các ứng viên có kinh nghiệm. Dữ liệu lớn cho các doanh nghiệp thương mại liên quan đến lợi nhuận và vỡ mộng sẽ nhanh chóng xuất hiện nếu một nhà phân tích dữ liệu quá tải với không đủ kinh nghiệm không mang lại kết quả tích cực như mong đợi. Quá thường xuyên, các công ty đang yêu cầu một mô hình nhà khoa học dữ liệu phù hợp với tất cả, người được kỳ vọng sẽ có năng lực trong mọi thứ, từ phân tích thống kê đến lưu trữ dữ liệu và bảo mật dữ liệu.
Bảo mật dữ liệu có tầm quan trọng cực kỳ quan trọng đối với bất kỳ công ty nào và dữ liệu lớn tạo ra các vấn đề bảo mật của riêng nó. Năm 2016, sáng kiến Netflix Prize 2 đã bị hủy bỏ vì lo ngại về bảo mật dữ liệu. Các vụ hack dữ liệu gần đây khác bao gồm Adobe vào năm 2013, eBay và JP Morgan Chase Bank vào năm 2014, Anthem (một công ty bảo hiểm y tế của Mỹ) và Carphone Warehouse vào năm 2015, MySpace vào năm 2016 và LinkedIn – một vụ hack năm 2012 không được phát hiện cho đến năm 2016. Đây là một mẫu nhỏ; Nhiều công ty khác đã bị tấn công hoặc bị các loại vi phạm bảo mật khác dẫn đến việc phát tán trái phép dữ liệu nhạy cảm. Trong Chương 7, chúng ta sẽ xem xét một số vi phạm bảo mật dữ liệu lớn một cách chuyên sâu.
Đọc thêm:
Leo Computers Society, LEO Remembered, By the People Who Worked on the World’s First Business Computers (Leo Computers Society, 2016).
James Marcus, Amazonia (The New Press, 2004). Bernard Marr, Big Data in Practice (Wiley, 2016).
Frank Pasquale, The Black Box Society: The Secret Algorithms That Control Money and Information (Harvard University Press, 2015).
Foster Provost and Tom Fawcett, Data Science for Business (O’Reilly, 2013).
Chương 7 Bảo mật dữ liệu lớn và trường hợp Snowden
Vào tháng 7 năm 2009, độc giả Amazon Kindle thấy cuộc sống bắt chước nghệ thuật khi bản sao cuốn tiểu thuyết 1984 của Orwell hoàn toàn biến mất khỏi thiết bị của họ. Trong 1984, ‘lỗ hổng ký ức’ được dùng để chỉ các tài liệu được coi là lật đổ hoặc không còn mong muốn. Tài liệu biến mất vĩnh viễn và lịch sử được viết lại. Đó gần như có thể là một trò đùa đáng tiếc nhưng 1984 và Trại súc vật của Orwell thực sự đã bị xóa do tranh chấp giữa Amazon và nhà xuất bản. Khách hàng đã tức giận, vì đã trả tiền cho cuốn sách điện tử và cho rằng đó là tài sản của họ. Một vụ kiện do một học sinh trung học và một người khác đệ trình đã được giải quyết ngoài tòa án. Trong thỏa thuận, Amazon tuyên bố rằng họ sẽ không còn xóa sách khỏi Kindle của mọi người, ngoại trừ trong một số trường hợp nhất định, bao gồm cả việc “lệnh tư pháp hoặc quy định yêu cầu xóa hoặc sửa đổi như vậy”. Amazon đã đề nghị khách hàng hoàn lại tiền, phiếu quà tặng hoặc khôi phục sách đã xóa. Ngoài việc không thể bán hoặc cho mượn sách Kindle của chúng ta, có vẻ như chúng ta không thực sự sở hữu chúng.
Mặc dù sự cố Kindle là để đáp ứng một vấn đề pháp lý và không có ý định ác ý, nhưng nó phục vụ để minh họa việc xóa các tài liệu điện tử đơn giản như thế nào, và nếu không có bản cứng, sẽ đơn giản như thế nào để xóa bỏ hoàn toàn bất kỳ văn bản nào được coi là không mong muốn hoặc lật đổ. Nếu bạn cầm phiên bản vật lý của cuốn sách này vào ngày mai và đọc nó, bạn biết chắc chắn rằng nó sẽ giống như ngày hôm nay, nhưng nếu bạn đọc bất cứ điều gì trên Web hôm nay, bạn không thể chắc chắn rằng nó sẽ giống như vậy khi bạn đọc nó vào ngày mai. Không có sự chắc chắn tuyệt đối trên Web. Vì các tài liệu điện tử có thể được sửa đổi và cập nhật mà tác giả không biết, chúng có thể dễ dàng bị thao túng. Tình huống này có thể cực kỳ thiệt hại trong nhiều tình huống khác nhau, chẳng hạn như khả năng ai đó giả mạo hồ sơ y tế điện tử. Ngay cả chữ ký số, được thiết kế để xác thực tài liệu điện tử, cũng có thể bị tấn công. Điều này làm nổi bật một số vấn đề mà các hệ thống dữ liệu lớn phải đối mặt, chẳng hạn như đảm bảo chúng thực sự hoạt động như dự kiến, có thể được khắc phục khi chúng bị hỏng và chống giả mạo và chỉ những người có ủy quyền chính xác mới có thể truy cập được.
Bảo mật mạng và dữ liệu mà nó lưu giữ là những vấn đề chính ở đây. Một biện pháp cơ bản được thực hiện để bảo vệ mạng chống lại truy cập trái phép là cài đặt tường lửa, cách ly mạng khỏi truy cập trái phép bên ngoài thông qua Internet. Ngay cả khi một mạng an toàn khỏi bị tấn công trực tiếp, ví dụ như từ virus và trojan, dữ liệu được lưu trữ trên đó, đặc biệt nếu nó không được mã hóa, vẫn có thể bị xâm phạm. Ví dụ, một kỹ thuật như vậy, đó là lừa đảo, cố gắng giới thiệu mã độc, thường bằng cách gửi email với tệp thực thi hoặc yêu cầu dữ liệu cá nhân hoặc bảo mật như mật khẩu. Nhưng vấn đề chính mà dữ liệu lớn phải đối mặt là tin tặc/ hack.
Cửa hàng bán lẻ Target đã bị tấn công vào năm 2013 dẫn đến việc đánh cắp thông tin chi tiết của ước tính 110 triệu hồ sơ khách hàng, bao gồm cả chi tiết thẻ tín dụng của 40 triệu người. Được biết, vào cuối tháng 11, những kẻ xâm nhập đã đẩy thành công phần mềm độc hại của họ đến hầu hết các máy điểm bán hàng của Target và có thể thu thập hồ sơ thẻ khách hàng từ các giao dịch thời gian thực. Vào thời điểm đó, hệ thống an ninh của Target đang được giám sát hai mươi bốn giờ một ngày bởi một nhóm chuyên gia làm việc ở Bangalore. Hoạt động đáng ngờ đã được gắn cờ và nhóm đã liên hệ với nhóm an ninh chính ở Minneapolis, người không may đã không hành động theo thông tin. Tấn công Home Depot, mà chúng ta sẽ xem xét tiếp theo, thậm chí còn lớn hơn nhưng sử dụng các kỹ thuật tương tự, dẫn đến một vụ đánh cắp dữ liệu lớn.
Tấn công Home Depot
Vào ngày 8 tháng 9 năm 2014, Home Depot, tự mô tả mình là nhà bán lẻ cải tiến nhà lớn nhất thế giới, đã thông báo trong một thông cáo báo chí rằng hệ thống dữ liệu thanh toán của họ đã bị tấn công. Trong một bản cập nhật vào ngày 18 tháng 9 năm 2014, Home Depot báo cáo rằng cuộc tấn công đã ảnh hưởng đến khoảng 56 triệu thẻ ghi nợ/thẻ tín dụng. Nói cách khác, năm mươi sáu triệu chi tiết thẻ ghi nợ/thẻ tín dụng đã bị đánh cắp. Ngoài ra, 53 triệu địa chỉ email cũng bị đánh cắp. Trong trường hợp này, tin tặc trước tiên có thể đánh cắp nhật ký của nhà cung cấp, cho phép họ dễ dàng truy cập vào hệ thống — nhưng chỉ vào phần của nhà cung cấp riêng lẻ trong hệ thống. Điều này được thực hiện bằng một nỗ lực lừa đảo thành công.
Bước tiếp theo yêu cầu tin tặc truy cập vào hệ thống mở rộng. Vào thời điểm đó, Home Depot đang sử dụng hệ điều hành Microsoft XP, có một lỗ hổng cố hữu mà tin tặc khai thác. Hệ thống tự thanh toán sau đó đã được nhắm mục tiêu vì bản thân hệ thống con này có thể được xác định rõ ràng trong toàn bộ hệ thống. Cuối cùng, tin tặc đã lây nhiễm phần mềm độc hại vào 7.500 thiết bị đầu cuối tự thanh toán để lấy thông tin khách hàng. Họ đã sử dụng BlackPOS, còn được gọi là Kaptoxa, một phần mềm độc hại cụ thể để thu thập thông tin thẻ tín dụng / thẻ ghi nợ từ các thiết bị đầu cuối bị nhiễm. Để bảo mật, thông tin thẻ thanh toán nên được mã hóa khi thẻ được quẹt tại thiết bị đầu cuối điểm bán hàng nhưng rõ ràng tính năng này, mã hóa điểm-điểm, đã không được triển khai và vì vậy các chi tiết đã được để ngỏ cho tin tặc.
Vụ trộm được phát hiện khi các ngân hàng bắt đầu phát hiện hoạt động gian lận trên các tài khoản đã thực hiện các giao dịch mua hàng khác gần đây tại Home Depot – chi tiết thẻ đã được bán thông qua Rescator, một cửa hàng tội phạm mạng được tìm thấy trên web đen. Điều thú vị là những người sử dụng máy tính tiền, cũng lấy thẻ, không bị ảnh hưởng bởi cuộc tấn công này. Lý do cho điều này dường như là trong máy tính lớn, máy tính tiền chỉ được xác định bằng cách đánh số và do đó tội phạm không dễ dàng xác định là điểm thanh toán. Nếu Home Depot cũng sử dụng đánh số đơn giản cho các thiết bị đầu cuối tự thanh toán của mình, nỗ lực tấn công này có thể đã bị thất bại. Phải nói rằng, vào thời điểm đó, Kaptoxa được coi là phần mềm độc hại hiện đại và hầu như không thể phát hiện được, vì vậy với quyền truy cập mở vào hệ thống mà tin tặc đã có được, gần như chắc chắn cuối cùng nó sẽ được giới thiệu thành công.
Vụ tấn công dữ liệu lớn nhất từ trước đến nay
Vào tháng 12 năm 2016, Yahoo! thông báo rằng một vụ vi phạm dữ liệu liên quan đến hơn một tỷ tài khoản người dùng đã xảy ra vào tháng 8 năm 2013. Được mệnh danh là vụ trộm dữ liệu cá nhân trên mạng lớn nhất từ trước đến nay, hoặc ít nhất là vụ trộm lớn nhất từng được tiết lộ bởi bất kỳ công ty nào, những tên trộm dường như đã sử dụng cookie giả mạo, cho phép truy cập vào tài khoản mà không cần mật khẩu. Điều này xảy ra sau khi tiết lộ một cuộc tấn công vào Yahoo! vào năm 2014, khi 500 triệu tài khoản bị xâm phạm. Thật ớn lạnh, Yahoo! cáo buộc vụ tấn công năm 2014 được thực hiện bởi một “hoạt động được nhà nước tài trợ” giấu tên.
Bảo mật đám mây
Danh sách các vi phạm bảo mật dữ liệu lớn tăng gần như hàng ngày. Đánh cắp dữ liệu, tiền chuộc dữ liệu và phá hoại dữ liệu là những mối quan tâm lớn trong một thế giới lấy dữ liệu làm trung tâm. Đã có nhiều nỗi sợ hãi liên quan đến tính bảo mật và quyền sở hữu dữ liệu kỹ thuật số cá nhân. Trước thời đại kỹ thuật số, chúng ta thường giữ ảnh trong album và âm bản là bản sao lưu của chúng ta. Sau đó, chúng ta lưu trữ ảnh điện tử trên ổ cứng trong máy tính của mình. Lưu trữ này có thể mất và chúng ta đã khôn ngoan khi có các bản sao lưu, nhưng ít nhất các tệp không thể truy cập công khai. Nhiều người trong chúng ta hiện đang lưu trữ dữ liệu trên Cloud/ Đám mây. Ảnh, video, phim gia đình đều yêu cầu nhiều dung lượng lưu trữ và vì vậy Cloud có ý nghĩa từ góc độ đó. Khi bạn lưu trữ các tệp của mình trên Cloud, bạn đang tải chúng lên một trung tâm dữ liệu — nhiều khả năng chúng sẽ được phân phối trên nhiều trung tâm — và nhiều hơn một bản sao sẽ được lưu giữ.
Nếu bạn lưu trữ tất cả ảnh của mình trên Đám mây, rất khó có khả năng bạn sẽ mất chúng. Mặt khác, nếu bạn muốn xóa thứ gì đó, có thể là ảnh hoặc video, sẽ rất khó để đảm bảo tất cả các bản sao đã bị xóa. Về cơ bản, bạn phải dựa vào nhà cung cấp của mình để làm điều này. Một vấn đề quan trọng khác là kiểm soát ai có quyền truy cập vào ảnh và dữ liệu khác mà bạn đã tải lên Đám mây. Nếu chúng ta muốn làm cho dữ liệu lớn an toàn, mã hóa là rất quan trọng.
Mã hóa / Encryption
Mã hóa, như đã đề cập ngắn gọn trong Chương 5, đề cập đến các phương pháp được sử dụng để xáo trộn các tệp để chúng không thể dễ dàng đọc được, và kỹ thuật cơ bản có từ thời La Mã. Suetonius, trong cuốn The Twelve Caesars, mô tả cách Julius Caesar mã hóa các tài liệu bằng cách sử dụng dịch chuyển ba chữ cái sang trái. Sử dụng phương pháp này, từ ‘bí mật’/ secret sẽ được mã hóa thành ‘pbzobq’. Được gọi là ‘mật mã Caesar’, điều này không khó để phá vỡ, nhưng ngay cả các mật mã an toàn nhất được sử dụng ngày nay cũng áp dụng dịch chuyển như một phần của thuật toán.
Năm 1997, phương pháp mã hóa công khai tốt nhất, Tiêu chuẩn mã hóa dữ liệu (DES), đã được chứng minh là có thể phá vỡ, phần lớn là do sự gia tăng sức mạnh tính toán có sẵn và độ dài khóa 56 bit tương đối ngắn. Mặc dù điều này cung cấp 256 lựa chọn khóa khác nhau, nhưng có thể giải mã một tin nhắn bằng cách kiểm tra từng lựa chọn cho đến khi tìm thấy khóa chính xác. Điều này được thực hiện vào năm 1998, chỉ trong hơn hai mươi hai giờ bằng cách sử dụng Deep Crack, một máy tính được chế tạo bởi Tổ chức Biên giới Điện tử, rõ ràng cho mục đích này.
Năm 1997, Viện Tiêu chuẩn và Công nghệ Quốc gia (NIST) ở Hoa Kỳ, lo ngại rằng DES thiếu bảo mật cần thiết để bảo vệ các tài liệu tuyệt mật, đã phát động một cuộc thi mở, trên toàn thế giới để tìm ra một phương pháp mã hóa tốt hơn DES. Cuộc thi kết thúc vào năm 2001 với thuật toán AES được chọn. Nó được gửi dưới dạng thuật toán Rijndael, kết hợp tên của hai người khởi xướng người Bỉ, Joan Daemen và Vincent Rijmen.
AES là một thuật toán phần mềm được sử dụng để mã hóa văn bản với sự lựa chọn độ dài khóa 128, 192 hoặc 256 bit. Đối với độ dài khóa 128 bit, thuật toán yêu cầu chín vòng xử lý, mỗi vòng bao gồm bốn bước, cộng với một vòng cuối cùng chỉ có ba bước. Thuật toán mã hóa AES lặp đi lặp lại và thực hiện một số lượng lớn các phép tính trên ma trận — chỉ là loại tính toán được thực hiện tốt nhất bởi máy tính. Tuy nhiên, chúng ta có thể mô tả quá trình này một cách không chính thức mà không cần tham khảo các phép biến đổi toán học.
AES bắt đầu bằng cách áp dụng một khóa cho văn bản mà chúng ta muốn mã hóa. Chúng ta sẽ không còn có thể nhận ra văn bản nhưng với chìa khóa, chúng ta có thể dễ dàng giải mã nó nên cần nhiều bước hơn. Bước tiếp theo liên quan đến việc thay thế mỗi chữ cái bằng một chữ cái khác, sử dụng một bảng tra cứu đặc biệt, được gọi là Rijndael S-Box. Một lần nữa, nếu chúng ta có Rijndael S-Box, chúng ta có thể làm việc ngược lại để giải mã thông điệp. Một Caesar Cipher, trong đó các chữ cái được dịch chuyển sang trái và hoán vị cuối cùng hoàn thành một vòng. Kết quả sau đó được sử dụng để bắt đầu một vòng khác, sử dụng một phím khác, v.v., cho đến khi tất cả các vòng đã được hoàn thành. Tất nhiên, chúng ta phải có khả năng giải mã và đối với thuật toán này, phương pháp này có thể đảo ngược.
Đối với độ dài khóa 192 bit, có tổng cộng mười hai vòng. Để bảo mật cao hơn nữa, có thể sử dụng độ dài khóa dài hơn, AES 256, nhưng hầu hết người dùng, bao gồm cả Google và Amazon, thấy AES 128 đủ cho nhu cầu bảo mật dữ liệu lớn của họ. AES an toàn và vẫn chưa bị phá vỡ, dẫn đến việc một số chính phủ yêu cầu các công ty lớn như Apple và Google cung cấp cửa sau vào tài liệu được mã hóa.
Bảo mật email
Người ta ước tính rằng trong năm 2015, hơn 200 tỷ email được gửi mỗi ngày, với chưa đến 10% trong số này là xác thực và không phải là thư rác hoặc có ý định xấu. Hầu hết các email không được mã hóa, khiến nội dung của chúng dễ bị tin tặc chặn lại. Khi ta gửi một email không được mã hóa, chúng ta sẽ dễ bị tin tặc chặn lại. Khi tôi gửi một email không được mã hóa, ví dụ như từ California đến Vương quốc Anh, nó được chia thành các ‘gói’ dữ liệu và được truyền qua một máy chủ thư từ, được kết nối với Internet. Internet về cơ bản được tạo thành từ một mạng lưới dây điện lớn trên toàn thế giới, trên mặt đất, dưới mặt đất và dưới đại dương, cộng với các tháp điện thoại di động và vệ tinh. Lục địa duy nhất không được kết nối bằng cáp xuyên đại dương là Nam Cực.
Vì vậy, mặc dù Internet và điện toán dựa trên đám mây thường được coi là không dây, nhưng chúng không phải là không có gì; Dữ liệu được truyền qua cáp quang đặt dưới đại dương. Gần như tất cả các giao tiếp kỹ thuật số giữa các lục địa đều được truyền theo cách này. Email của ta cũng được gửi qua cáp quang xuyên Đại Tây Dương, ngay cả khi ta đang sử dụng dịch vụ điện toán đám mây. Đám mây, một từ thông dụng hấp dẫn, gợi lên hình ảnh của các vệ tinh gửi dữ liệu trên toàn thế giới, nhưng trên thực tế, các dịch vụ Đám mây bắt nguồn từ một mạng lưới phân tán của các trung tâm dữ liệu cung cấp truy cập Internet, chủ yếu thông qua cáp.
Cáp quang cung cấp phương tiện truyền dữ liệu nhanh nhất và do đó thường được ưa chuộng hơn vệ tinh. Nghiên cứu sâu rộng hiện nay về công nghệ cáp quang đang dẫn đến tốc độ truyền dữ liệu nhanh hơn bao giờ hết. Cáp xuyên Đại Tây Dương đã trở thành mục tiêu của một số cuộc tấn công kiểu tò mò và bất ngờ, bao gồm cả những cuộc tấn công từ cá mập, có ý định cắn qua dây cáp. Trong khi, theo Ủy ban Bảo vệ Cáp Quốc tế, các cuộc tấn công của cá mập chiếm ít hơn 1% số lỗi được ghi lại, mặc dù vậy, cáp ở các khu vực dễ bị tổn thương hiện nay thường được bảo vệ bằng Kevlar. Giả sử không có vấn đề gì với các tuyến cáp xuyên Đại Tây Dương do cá mập tò mò, chính phủ thù địch hoặc ngư dân bất cẩn, và email của ta đổ bộ vào Vương quốc Anh và tiếp tục trên đường đi, có thể tại thời điểm này, cũng như các dữ liệu Internet khác, nó bị chặn. Vào tháng 6 năm 2013, Edward Snowden đã cho rò rỉ các tài liệu tiết lộ rằng Trụ sở Truyền thông Chính phủ (GCHQ) ở Anh đã khai thác một lượng lớn dữ liệu, nhận được thông qua khoảng 200 cáp xuyên Đại Tây Dương, sử dụng một hệ thống gọi là Tempora.
Vụ án Snowden
Edward Snowden là một chuyên gia máy tính người Mỹ, người đã bị buộc tội gián điệp vào năm 2013 sau khi làm rò rỉ thông tin mật từ Cơ quan An ninh Quốc gia Hoa Kỳ (NSA). Vụ án nổi tiếng này đã thu hút sự chú ý của công chúng về khả năng giám sát hàng loạt của chính phủ, và những lo ngại rộng rãi đã được bày tỏ liên quan đến quyền riêng tư cá nhân. Các giải thưởng dành cho Snowden kể từ khi thực hiện hành động này đã rất nhiều và bao gồm cuộc bầu cử làm hiệu trưởng của Đại học Glasgow, Nhân vật của năm 2013 của Guardian và các đề cử giải Nobel Hòa bình vào các năm 2014, 2015 và 2016. Ông nhận được sự hỗ trợ của Tổ chức Ân xá Quốc tế với tư cách là người tố giác đã cung cấp dịch vụ cho đất nước của mình. Tuy nhiên, các quan chức chính phủ và chính trị gia Mỹ đã đè nghị khác biệt trong quan điểm này.
Vào tháng 6 năm 2013, tờ Guardian ở Anh đưa tin rằng NSA đang thu thập siêu dữ liệu từ một số mạng điện thoại lớn của Mỹ. Báo cáo này nhanh chóng được theo sau bởi tiết lộ rằng một chương trình có tên là PRISM đang được sử dụng để thu thập và lưu trữ dữ liệu Internet về công dân nước ngoài liên lạc với Mỹ. Một loạt các vụ rò rỉ điện tử sau đó, buộc tội cả Mỹ và Anh. Một nhân viên của Booz Allen Hamilton và là nhà thầu NSA làm việc tại Trung tâm Mật mã Hawaii, Edward Snowden, là nguồn gốc của những rò rỉ này, ông đã gửi cho các thành viên của các phương tiện truyền thông mà ông cảm thấy có thể tin cậy, không được công bố mà không có sự cân nhắc cẩn thận. Động cơ của Snowden, và các vấn đề pháp lý liên quan, nằm ngoài phạm vi của cuốn sách này nhưng rõ ràng là ông tin rằng những gì từng bắt đầu như gián điệp hợp pháp vào các quốc gia khác giờ đã tự quay trở lại, và NSA bây giờ đang theo dõi, bất hợp pháp, tất cả các công dân Hoa Kỳ.
Các công cụ quét Web miễn phí, DownThemAll, một tiện ích mở rộng có sẵn của Mozilla Firefox và chương trình wget, cung cấp các phương tiện để nhanh chóng tải xuống toàn bộ nội dung của một trang web hoặc dữ liệu liên quan đến Web khác. Các ứng dụng này, có sẵn cho những người dùng được ủy quyền trên các mạng được phân loại của NSA, đã được Snowden sử dụng để tải xuống và sao chép một lượng lớn thông tin. Ông cũng chuyển một lượng lớn dữ liệu nhạy cảm từ hệ thống máy tính này sang hệ thống máy tính khác. Để làm được điều này, ông ấy cần tên người dùng và mật khẩu, điều mà một quản trị viên hệ thống thường có. Do đó, ông có thể dễ dàng truy cập vào nhiều tài liệu mật mà ông đánh cắp, nhưng không phải tất cả. Để có quyền truy cập vào các tài liệu cao hơn, là tuyệt mật, ông phải sử dụng chi tiết xác thực của tài khoản người dùng cấp cao hơn, điều mà các giao thức bảo mật lẽ ra phải ngăn chặn. Tuy nhiên, vì ông đã tạo những tài khoản này và có đặc quyền quản trị viên hệ thống, ông biết chi tiết tài khoản. Snowden cũng thuyết phục được ít nhất một nhân viên NSA có giấy phép an ninh cao hơn mình, cho ông biết mật khẩu của họ.
Cuối cùng, Snowden đã sao chép khoảng 1,5 triệu tài liệu mật, trong đó khoảng 200.000 (Snowden hiểu rằng không phải tất cả các tài liệu của ông nên được công khai, và thận trọng về việc công bố) đã được giao cho các phóng viên đáng tin cậy, mặc dù tương đối ít trong số này cuối cùng được công bố.
Mặc dù các chi tiết chưa bao giờ được Snowden tiết lộ đầy đủ, nhưng có vẻ như ông ấy đã có thể sao chép dữ liệu vào ổ đĩa flash, mà dường như không gặp khó khăn gì khi rời khỏi nơi làm việc trong ngày. Các biện pháp an ninh để ngăn Snowden có thể xóa các tài liệu này rõ ràng là không đủ. Ngay cả một lần quét cơ thể đơn giản khi rời khỏi cơ sở cũng sẽ phát hiện ra bất kỳ thiết bị di động nào và giám sát video trong văn phòng cũng có thể phát hiện ra hoạt động đáng ngờ. Vào tháng 12 năm 2016, Hạ viện Hoa Kỳ đã giải mật một tài liệu đề tháng 9 năm 2016, được biên tập rất nhiều, xem xét Snowden cũng như bản chất và tác động của các tài liệu bị rò rỉ. Từ tài liệu này, rõ ràng là NSA đã không áp dụng các biện pháp an ninh đầy đủ và kết quả là sáng kiến An ninh mạng/ Secure the Net đã được đưa vào hoạt động, mặc dù nó vẫn chưa được thực hiện đầy đủ.
Snowden có đặc quyền quản trị viên hệ thống rộng rãi, nhưng với tính chất cực kỳ nhạy cảm của dữ liệu, việc cho phép một người có toàn quyền truy cập mà không có biện pháp bảo vệ là không thể chấp nhận được. Ví dụ: yêu cầu thông tin xác thực của hai người khi dữ liệu được truy cập hoặc chuyển, là có thể đủ để ngăn Snowden sao chép tệp bất hợp pháp. Cũng có tò mò rằng Snowden dường như có thể cắm ổ USB và sao chép bất cứ thứ gì ông ấy muốn. Một biện pháp bảo mật rất đơn giản là tắt cổng DVD và USB hoặc không cài đặt chúng ngay từ đầu. Thêm xác thực thêm bằng cách quét võng mạc vào yêu cầu mật khẩu và Snowden thậm chí sẽ rất khó truy cập các tài liệu cấp cao hơn. Các kỹ thuật bảo mật hiện đại rất tinh vi và khó xâm nhập nếu được sử dụng đúng cách.
Vào cuối năm 2016, nhập ‘Edward Snowden’ vào tìm kiếm của Google đã cho hơn hai mươi bảy triệu kết quả chỉ trong hơn một giây; và cụm từ tìm kiếm ‘Snowden’ cho bốn mươi lăm triệu kết quả. Vì nhiều trang web trong số này cho phép truy cập hoặc thậm chí hiển thị các tài liệu bị rò rỉ được dán nhãn ‘Tối mật’, chúng hiện đang vững chắc trong phạm vi công cộng toàn cầu và chắc chắn sẽ vẫn như vậy. Edward Snowden hiện đang sống ở Nga.
Trái ngược với trường hợp của Edward Snowden, WikiLeaks trình bày một câu chuyện rất khác.
WikiLeaks
WikiLeaks là một tổ chức tố giác trực tuyến khổng lồ với mục đích phổ biến các tài liệu mật. Nó được tài trợ bởi các khoản quyên góp và nhân viên chủ yếu là các tình nguyện viên, mặc dù nó dường như cũng sử dụng một số người. Tính đến tháng 12 năm 2015, WikiLeaks tuyên bố đã xuất bản (hoặc rò rỉ) hơn 10 triệu tài liệu. WikiLeaks duy trì hồ sơ công khai cao của mình thông qua trang web của riêng mình, Twitter và Facebook.
Rất gây tranh cãi, WikiLeaks và lãnh đạo Julian Assange đã trở thành tiêu đề vào ngày 22 tháng 10 năm 2010 khi một lượng lớn dữ liệu mật – 391.832 tài liệu – được đặt tên là “Nhật ký chiến tranh Iraq” được công khai. Điều này theo sau khoảng 75.000 tài liệu cấu thành “Nhật ký chiến tranh Afghanistan” đã bị rò rỉ vào ngày 25 tháng 7 năm 2010.
Một người lính Mỹ, Bradley Manning, chịu trách nhiệm về cả hai vụ rò rỉ. Làm việc như một nhà phân tích tình báo ở Iraq, anh lấy một đĩa compact để làm việc với mình và sao chép các tài liệu bí mật từ một máy tính cá nhân được cho là an toàn. Vì điều này, Bradley Manning, hiện được gọi là Chelsea Manning, đã bị kết án vào năm 2013 với ba mươi lăm năm tù sau khi bị kết án, bởi tòa án quân sự, vì vi phạm Đạo luật Gián điệp và các tội danh liên quan khác. Cựu Tổng thống Mỹ Barack Obama đã giảm án cho Chelsea Manning vào tháng 1 năm 2017, trước khi ông rời nhiệm sở. Bà Manning, người đã được điều trị rối loạn phân định giới tính khi ở trong tù, đã được thả vào ngày 17 tháng 5 năm 2017.
Bị chỉ trích nặng nề bởi các chính trị gia và chính phủ, WikiLeaks vẫn được hoan nghênh và nhận được giải thưởng từ những nơi như Tổ chức Xá Quốc tế (2009) và The Economist (2008) của Vương quốc Anh, trong số một danh sách dài những người khác. Theo trang web của họ, Julian Assange đã được đề cử giải Nobel Hòa bình trong sáu năm liên tiếp, 2010-15. Ủy ban Nobel không công bố tên của những người được đề cử cho đến khi năm mươi năm trôi qua nhưng những người đề cử, những người phải đáp ứng các tiêu chí nghiêm ngặt của ủy ban Giải thưởng Hòa bình, thường công bố tên của những người được đề cử của họ. Ví dụ, vào năm 2011, Julian Assange được đề cử bởi Snorre Valen, một nghị sĩ Na Uy, để ủng hộ WikiLeaks vạch trần các cáo buộc vi phạm nhân quyền. Năm 2015, Assange nhận được sự ủng hộ của cựu thành viên quốc hội Anh George Galloway, và vào đầu năm 2016, một nhóm học giả ủng hộ cũng kêu gọi Assange được trao giải thưởng.
Tuy nhiên, vào cuối năm 2016, chiều gió đã quay ngược lại với Assange và WikiLeaks, ít nhất là một phần vì cáo buộc thiên vị trong báo cáo của họ. Chống lại WikiLeaks là những mối quan tâm về đạo đức liên quan đến sự an toàn và quyền riêng tư của các cá nhân; quyền riêng tư của công ty; bí mật của chính phủ; bảo vệ các nguồn địa phương trong các khu vực xung đột; và lợi ích công cộng nói chung. Bầu không khí ngày càng trở nên vẩn đục đối với Julian Assange và WikiLeaks. Ví dụ, vào năm 2016, các email đã bị rò rỉ vào thời điểm thích hợp nhất để làm tổn hại đến ứng cử viên tổng thống của Hillary Clinton, đặt ra câu hỏi về tính khách quan của WikiLeaks và gây ra những lời chỉ trích đáng kể từ một số nguồn tin có uy tín.
Bất kể bạn ủng hộ hay lên án các hoạt động của Julian Assange và WikiLeaks, và gần như chắc chắn mọi người sẽ làm cả hai, thay đổi với vấn đề đang bị đe dọa, một trong những câu hỏi kỹ thuật lớn, là liệu có thể đóng cửa WikiLeaks hay không. Vì nó duy trì dữ liệu của mình trên nhiều máy chủ trên khắp thế giới, một số trong số đó ở các quốc gia có thiện cảm, nên không có khả năng nó có thể bị đóng cửa hoàn toàn, ngay cả khi giả định rằng điều này là mong muốn. Tuy nhiên, để tăng cường bảo vệ chống lại sự trả đũa sau mỗi lần tiết lộ, WikiLeaks đã phát hành một hồ sơ bảo hiểm. Gợi ý bất thành văn là nếu có bất cứ điều gì xảy ra với Assange hoặc nếu WikiLeaks bị đóng cửa, khóa hồ sơ bảo hiểm sẽ được phát sóng công khai. Hồ sơ bảo hiểm WikiLeaks gần đây nhất sử dụng AES với khóa 256-bit và vì vậy nó rất khó có khả năng bị hỏng.
Tính đến năm 2016, Edward Snowden còn đang mâu thuẫn với WikiLeaks. Sự bất đồng phụ thuộc vào cách mỗi người trong số họ quản lý rò rỉ dữ liệu của họ. Snowden giao hồ sơ của mình cho các nhà báo đáng tin cậy, những người cẩn thận chọn tài liệu nào để rò rỉ. Các quan chức chính phủ Mỹ đã được thông báo trước, và theo lời khuyên của họ, các tài liệu khác đã được giữ lại vì lo ngại về an ninh quốc gia. Cho đến ngày nay, nhiều tài liệu chưa bao giờ được tiết lộ. WikiLeaks dường như chỉ đơn giản là công bố dữ liệu của mình mà không có nhiều nỗ lực để bảo vệ thông tin cá nhân. Họ vẫn tìm cách thu thập thông tin từ những người tố giác, nhưng không rõ các vụ rò rỉ dữ liệu gần đây đáng tin cậy như thế nào, hoặc thực sự liệu việc lựa chọn thông tin mà họ trình bày có cho phép họ hoàn toàn không quan tâm hay không. Trên trang web của mình, WikiLeaks đưa ra hướng dẫn về cách sử dụng một cơ sở có tên là TOR (The Onion Router) để gửi dữ liệu ẩn danh và đảm bảo quyền riêng tư, nhưng bạn không cần phải là người tố giác khi sử dụng TOR.
TOR và web đen
Janet Vertesi, trợ lý giáo sư tại Khoa Xã hội học tại Đại học Princeton, đã quyết định tiến hành một thí nghiệm cá nhân để xem liệu cô có thể giữ bí mật về việc mang thai của mình với các nhà tiếp thị trực tuyến và do đó ngăn chặn thông tin cá nhân của cô trở thành một phần của nhóm dữ liệu lớn hay không. Trong một bài báo được đăng trên tạp chí TIME vào tháng 5 năm 2014, Tiến sĩ Vertesi đã kể lại trải nghiệm của mình. Cô ấy đã thực hiện các biện pháp bảo mật đặc biệt, bao gồm tránh mạng xã hội; cô ấy đã tải xuống TOR và sử dụng nó để đặt hàng nhiều mặt hàng liên quan đến trẻ em; và mua hàng tại cửa hàng được thanh toán bằng tiền mặt. Mọi thứ cô ấy làm đều hoàn toàn hợp pháp nhưng cuối cùng cô ấy kết luận rằng việc chọn không tham gia rất tốn kém và tốn thời gian và khiến cô ấy trông giống như một ‘công dân xấu’. Tuy nhiên, TOR đáng để xem xét, không chỉ vì nó khiến bác sĩ Vertesi cảm thấy an toàn và duy trì sự riêng tư của mình khỏi các thiết bị theo dõi.
TOR là một mạng máy chủ được mã hóa, ban đầu được phát triển bởi Hải quân Hoa Kỳ để cung cấp một cách sử dụng Internet ẩn danh, do đó ngăn chặn việc theo dõi và thu thập dữ liệu cá nhân. TOR là một dự án đang diễn ra, nhằm phát triển và cải thiện môi trường ẩn danh trực tuyến mã nguồn mở mà bất kỳ ai quan tâm đến quyền riêng tư đều có thể sử dụng. TOR hoạt động bằng cách mã hóa dữ liệu của bạn, bao gồm cả địa chỉ gửi, và sau đó ẩn danh dữ liệu đó bằng cách xóa một phần tiêu đề, quan trọng là bao gồm cả địa chỉ IP, vì một cá nhân có thể dễ dàng được tìm thấy bằng cách theo dõi ngược với thông tin đó. Gói dữ liệu kết quả được định tuyến thông qua một hệ thống máy chủ hoặc chuyển tiếp, được lưu trữ bởi các tình nguyện viên, trước khi đến đích cuối cùng.
Về mặt tích cực, người dùng bao gồm quân đội, mà ban đầu thiết kế nó; các nhà báo điều tra muốn bảo vệ các nguồn và thông tin của họ; và những công dân hàng ngày muốn bảo vệ quyền riêng tư của họ. Doanh nghiệp sử dụng TOR để giữ bí mật với các doanh nghiệp khác; và các chính phủ sử dụng nó để bảo vệ các nguồn thông tin nhạy cảm cũng như bản thân thông tin. Thông cáo báo chí của Dự án TOR cung cấp danh sách một số mục tin tức liên quan đến TOR từ năm 1999 đến năm 2016.
Về mặt tiêu cực, mạng ẩn danh TOR đã được sử dụng rộng rãi bởi tội phạm mạng. Các trang web có thể truy cập thông qua các dịch vụ ẩn TOR và có hậu tố ‘.onion’. Nhiều trong số này cực kỳ khó chịu, bao gồm các trang web đen bất hợp pháp được sử dụng để buôn bán ma túy, khiêu dâm và rửa tiền. Ví dụ, trang web được công bố rộng rãi Con đường tơ lụa, một phần của web đen và là nhà cung cấp ma túy bất hợp pháp, đã được truy cập thông qua TOR, gây khó khăn cho cơ quan thực thi pháp luật trong việc theo dõi nó. Một vụ kiện lớn sau vụ bắt giữ Ross William Ulbricht, người sau đó bị kết tội tạo ra và điều hành Con đường tơ lụa, sử dụng bút danh Dread Pirate Roberts. Trang web đã bị đóng cửa nhưng sau đó lại hoạt động trở lại, và vào năm 2016 là lần tái sinh thứ ba dưới tên Con đường tơ lụa 3.0.
Web sâu/ Deep Web
Deep Web đề cập đến tất cả các trang web không thể được lập chỉ mục bởi các công cụ tìm kiếm thông thường, chẳng hạn như Google, Bing và Yahoo! Nó bao gồm các trang web hợp pháp cũng như những trang web tạo nên web đen. Nó được ước tính rộng rãi là lớn hơn rất nhiều so với Web bề mặt quen thuộc, mặc dù ngay cả với các công cụ tìm kiếm web sâu đặc biệt, rất khó để ước tính kích thước của thế giới dữ liệu lớn ẩn này.
Đọc thêm
Andy Greenberg, This Machine Kills Secrets (PLUME, 2013).
Glenn Greenwald, No Place to Hide: Edward Snowden, the NSA, and the U.S. Surveillance State (Metropolitan Books, 2014).
Luke Harding, The Snowden Files (Vintage Books, 2014).
Linden, B. Smith, and J. York, ‘Amazon.com Recommendations: Item-to-item Collaborative Filtering’, Internet Computing 7(1) (2003), 76–80.
Fred Piper and Sean Murphy, Cryptography: A Very Short Introduction (Oxford University Press, 2002).
W. Singer and Allan Friedman, Cybersecurity and Cyberwar: What Everyone Needs to Know (Oxford University Press, 2014).
Nicole Starosielski, The Undersea Network (Duke University Press, 2015).
Janet Vertesi, ‘How Evasion Matters: Implications from Surfacing Data Tracking Online’, Interface: A Special Topics Journal 1(1) (2015), Article 13. http://dx.doi.org/10.7710/2373-4914.1013 .
Chương 8: Dữ liệu lớn và xã hội
Robot và công việc
Nhà kinh tế học lỗi lạc, John Maynard Keynes, viết trong thời kỳ suy thoái kinh tế ở Anh vào năm 1930, đã suy đoán về cuộc sống làm việc sẽ như thế nào một thế kỷ sau đó. Cuộc cách mạng công nghiệp đã tạo ra việc làm mới dựa trên thành phố trong các nhà máy và biến đổi những gì đã từng là một xã hội nông nghiệp. Người ta cho rằng công việc thâm dụng lao động cuối cùng sẽ được thực hiện bởi máy móc, dẫn đến thất nghiệp cho một số người và một tuần làm việc giảm nhiều cho những người khác. Keynes đặc biệt quan tâm đến cách mọi người sẽ sử dụng thời gian giải trí ngày càng tăng của họ, được giải phóng khỏi những cấp bách của việc làm có lợi nhuận bởi những tiến bộ công nghệ. Có lẽ cấp bách hơn là câu hỏi về hỗ trợ tài chính dẫn đến gợi ý rằng thu nhập cơ bản phổ quát sẽ cung cấp một cách để đối phó với sự suy giảm việc làm có sẵn.
Dần dần trong thế kỷ 20, chúng ta đã thấy việc làm trong ngành công nghiệp bị xói mòn bởi những cỗ máy phức tạp hơn bao giờ hết, và mặc dù, ví dụ, nhiều dây chuyền sản xuất đã được tự động hóa từ nhiều thập kỷ trước, một tuần làm việc mười lăm giờ của Keynes vẫn chưa thành hiện thực và dường như không có khả năng làm như vậy trong tương lai gần. Cuộc cách mạng kỹ thuật số chắc chắn sẽ thay đổi việc làm, giống như cuộc cách mạng công nghiệp đã làm, nhưng theo những cách chúng ta khó có thể dự đoán chính xác. Khi công nghệ của ‘Internet vạn vật’ phát triển, thế giới của chúng ta tiếp tục trở nên dựa trên dữ liệu hơn. Sử dụng kết quả phân tích dữ liệu lớn theo thời gian thực để cung cấp thông tin cho các quyết định và hành động sẽ đóng một vai trò ngày càng quan trọng trong xã hội của chúng ta.
Có những gợi ý rằng con người sẽ cần thiết để xây dựng và viết mã máy móc, nhưng đây chỉ là suy đoán và trong mọi trường hợp, chỉ là một lĩnh vực công việc chuyên môn mà chúng ta có thể mong đợi một cách thực tế để thấy robot ngày càng thay thế con người. Ví dụ, chẩn đoán y tế bằng robot tinh vi sẽ làm giảm lực lượng lao động y tế. Các bác sĩ phẫu thuật robot, với khả năng giống như Watson mở rộng, là việc có thể xảy ra. Xử lý ngôn ngữ tự nhiên, một lĩnh vực dữ liệu lớn khác, sẽ phát triển đến mức chúng ta không thể biết liệu chúng ta đang nói chuyện với thiết bị robot hay bác sĩ – ít nhất là khi chúng ta không gặp mặt trực tiếp.
Tuy nhiên, việc dự đoán những công việc mà con người sẽ làm khi robot đã đảm nhận nhiều vai trò hiện có là rất khó. Sáng tạo được cho là lĩnh vực của con người, nhưng các nhà khoa học máy tính, hợp tác tại Đại học Cambridge và Aberystwyth, đã phát triển Adam, một nhà khoa học robot. Adam đã xây dựng và thử nghiệm thành công các giả thuyết mới trong lĩnh vực gen, dẫn đến những khám phá khoa học mới. Nghiên cứu đã tiến triển với một nhóm nghiên cứu tại Đại học Manchester đã phát triển thành công Eve, một robot làm việc về thiết kế thuốc cho các bệnh nhiệt đới. Cả hai dự án này đều triển khai các kỹ thuật trí tuệ nhân tạo.
Nghề của tiểu thuyết gia dường như là con người độc đáo, dựa vào kinh nghiệm, cảm xúc và trí tưởng tượng, nhưng ngay cả lĩnh vực sáng tạo này cũng đang bị thách thức bởi robot. Giải thưởng Văn học Nikkei Hoshi Shinichi chấp nhận tiểu thuyết được viết hoặc đồng viết bởi các tác giả không phải con người. Năm 2016, bốn cuốn tiểu thuyết do con người và máy tính viết chung đã vượt qua giai đoạn đầu tiên của cuộc thi, mà ban giám khảo không biết chi tiết về quyền tác giả.
Mặc dù các nhà khoa học và tiểu thuyết gia cuối cùng có thể hợp tác với robot, nhưng đối với hầu hết chúng ta, tác động của môi trường dữ liệu lớn sẽ rõ ràng hơn trong các hoạt động hàng ngày của chúng ta, thông qua các thiết bị thông minh.
Xe thông minh
Vào ngày 7 tháng 12 năm 2016, Amazon thông báo rằng họ đã thực hiện giao hàng bằng máy bay không người lái thương mại đầu tiên bằng cách sử dụng GPS (hệ thống định vị toàn cầu) để tìm đường. Người nhận, một người đàn ông sống ở vùng nông thôn gần Cambridge ở Anh, đã nhận được một gói hàng nặng 4,7 pound. Việc giao hàng bằng máy bay không người lái hiện chỉ có thể được thực hiện cho hai khách hàng của Amazon Prime Air, cả hai đều sống trong phạm vi 5,2 dặm vuông từ trung tâm thực hiện gần Cambridge. Một video, được tham khảo trong phần Đọc thêm, cho thấy chuyến bay. Điều này dường như báo hiệu sự bắt đầu của việc thu thập dữ liệu lớn cho chương trình này.
Amazon không phải là công ty đầu tiên thực hiện giao hàng bằng máy bay không người lái thương mại thành công. In Amazon không phải là công ty đầu tiên thực hiện giao hàng bằng máy bay không người lái thương mại thành công. Vào tháng 11 năm 2016, Flirtey Inc. bắt đầu dịch vụ giao bánh pizza bằng máy bay không người lái trong một khu vực nhỏ từ trụ sở chính của họ ở New Zealand và đã có các dự án tương tự ở những nơi khác. Hiện tại, có vẻ như các dịch vụ giao hàng bằng máy bay không người lái sẽ phát triển, đặc biệt là ở các khu vực xa xôi, nơi có thể quản lý các vấn đề an toàn. Tất nhiên, một cuộc tấn công mạng hoặc đơn giản là sự cố trong hệ thống máy tính có thể tạo ra sự tàn phá: ví dụ, nếu một máy bay không người lái giao hàng nhỏ bị trục trặc, nó có thể gây thương tích hoặc tử vong cho con người hoặc động vật, cũng như thiệt hại đáng kể về tài sản. [Việt Nam đã có tai nạn chết người với máy bay không người lái phun thuốc trừ sâu]
Đây là những gì đã xảy ra khi phần mềm điều khiển một chiếc ô tô di chuyển dọc theo con đường với tốc độ 70 dặm / giờ được tiếp quản từ xa. Vào năm 2015, hai chuyên gia bảo mật, Charlie Miller và Chris Valasek, làm việc cho tạp chí Wired, đã chứng minh cho một nạn nhân rằng Uconnect, một máy tính bảng điều khiển được sử dụng để kết nối một chiếc xe với Internet, có thể bị tấn công từ xa khi chiếc xe đang di chuyển. Báo cáo làm cho việc đọc đáng báo động; hai tin tặc chuyên nghiệp đã có thể sử dụng kết nối Internet máy tính xách tay để điều khiển hệ thống lái, phanh và hộp số cùng với các chức năng ít quan trọng khác như điều hòa không khí và radio của một chiếc Jeep Cherokee. Chiếc xe Jeep đang di chuyển với tốc độ 70 dặm / giờ trên một con đường công cộng đông đúc thì đột nhiên mọi phản ứng với chân ga đều thất bại, gây ra sự lo lắng đáng kể cho người lái.
Kết quả của thử nghiệm này, nhà sản xuất ô tô Chrysler đã đưa ra cảnh báo cho chủ sở hữu của 1,4 triệu xe và gửi ổ USB chứa các bản cập nhật phần mềm để cài đặt thông qua một cổng trên bảng điều khiển. Cuộc tấn công được thực hiện vì một lỗ hổng trong mạng điện thoại thông minh sau đó đã được khắc phục, nhưng câu chuyện phục vụ để minh họa quan điểm rằng khả năng tấn công mạng vào các phương tiện thông minh sẽ cần được giải quyết trước khi công nghệ này được công khai hoàn toàn.
Sự ra đời của xe tự lái, từ ô tô đến máy bay, dường như không thể tránh khỏi. Máy bay đã có thể tự bay, bao gồm cả cất cánh và hạ cánh. Mặc dù chỉ còn một bước nữa để nghĩ rằng máy bay không người lái được sử dụng rộng rãi để vận chuyển hành khách, nhưng chúng hiện đang được sử dụng trong nông nghiệp để phun thuốc cho cây trồng thông minh và cũng cho mục đích quân sự. Xe thông minh vẫn đang trong giai đoạn đầu phát triển cho mục đích sử dụng chung nhưng các thiết bị thông minh đã là một phần của ngôi nhà hiện đại.
Nhà thông minh
Như đã đề cập trong Chương 3, thuật ngữ ‘Internet vạn vật’ (Internet of Things -IoT) là một cách thuận tiện để chỉ số lượng lớn các cảm biến điện tử được kết nối với Internet. Ví dụ, bất kỳ thiết bị điện tử nào có thể được lắp đặt trong nhà và được quản lý từ xa – thông qua giao diện người dùng hiển thị trên màn hình tivi, điện thoại thông minh hoặc máy tính xách tay của cư dân – là một thiết bị thông minh và là một phần của IoT. Các điểm điều khiển trung tâm kích hoạt bằng giọng nói được lắp đặt trong nhiều ngôi nhà quản lý ánh sáng, hệ thống sưởi, cửa nhà để xe và nhiều thiết bị gia dụng khác. Kết nối Wi Fi (viết tắt của wireless fidelity / ‘độ trung thực không dây’, hoặc khả năng kết nối với mạng, như Internet, sử dụng sóng vô tuyến thay vì dây) có nghĩa là bạn có thể hỏi loa thông minh của mình (theo tên của nó, mà bạn sẽ đặt cho nó) về thời tiết địa phương hoặc các báo cáo tin tức quốc gia.
Các thiết bị này cung cấp các dịch vụ dựa trên đám mây và không phải là không có nhược điểm khi nói đến quyền riêng tư. Miễn là thiết bị được bật, mọi thứ bạn nói sẽ được ghi lại và lưu trữ trong một máy chủ từ xa. Trong một cuộc điều tra giết người gần đây, cảnh sát Hoa Kỳ đã yêu cầu Amazon tiết lộ dữ liệu từ một thiết bị Echo (được điều khiển bằng giọng nói và kết nối với Dịch vụ giọng nói Alexa để phát nhạc, cung cấp thông tin, báo cáo tin tức, v.v.) mà họ tin rằng sẽ hỗ trợ họ trong các cuộc điều tra. Amazon ban đầu không muốn làm như vậy, nhưng nghi phạm gần đây đã cho phép họ phát hành các bản ghi âm, hy vọng rằng chúng sẽ giúp chứng minh sự vô tội của anh ta.
Những phát triển hơn nữa, dựa trên điện toán đám mây, có nghĩa là các thiết bị điện như máy giặt, tủ lạnh và robot dọn dẹp nhà cửa sẽ là một phần của ngôi nhà thông minh và được quản lý từ xa thông qua điện thoại thông minh, máy tính xách tay hoặc loa gia đình. Vì tất cả các hệ thống này đều được kiểm soát bởi Internet, chúng có khả năng gặp rủi ro từ tin tặc, và vì vậy bảo mật là một lĩnh vực nghiên cứu lớn.
Ngay cả đồ chơi trẻ em cũng không miễn nhiễm. Được Hiệp hội Công nghiệp Đồ chơi London vinh danh là ‘Đồ chơi sáng tạo của năm 2014’, một con búp bê thông minh có tên ‘My Friend Cayla’ sau đó đã bị tấn công. Thông qua một thiết bị bluetooth không an toàn ẩn trong búp bê, trẻ có thể đặt câu hỏi cho búp bê và nghe câu trả lời. Cơ quan Mạng Liên bang Đức, chịu trách nhiệm giám sát thông tin liên lạc trên Internet, đã khuyến khích các bậc cha mẹ tiêu hủy con búp bê, hiện đã bị cấm, vì mối đe dọa đối với quyền riêng tư mà nó gây ra. Tin tặc đã có thể chứng minh rằng việc lắng nghe trẻ em khá dễ dàng và đưa ra câu trả lời không phù hợp, bao gồm cả những từ trong danh sách cấm của nhà sản xuất.
Thành phố thông minh
Mặc dù ngôi nhà thông minh chỉ vừa mới trở thành hiện thực, nhưng IoT cùng với nhiều công nghệ thông tin và truyền thông (information and communication technologies ICT) hiện được dự đoán sắp biến thành hiện thực. Nhiều quốc gia, bao gồm Ấn Độ, Ireland, Anh, Hàn Quốc, Trung Quốc và Singapore, đã lên kế hoạch cho các thành phố thông minh. Ý tưởng là hiệu quả cao hơn trong một thế giới đông đúc vì các thành phố đang phát triển nhanh chóng. Dân số nông thôn đang di chuyển đến thành phố với tốc độ ngày càng tăng. Năm 2014, khoảng 54% sống ở các thành phố và đến năm 2050, Liên Hợp Quốc dự đoán rằng khoảng 66% dân số thế giới sẽ là cư dân thành phố.
Công nghệ của các thành phố thông minh được thúc đẩy bởi những ý tưởng riêng biệt nhưng tích lũy từ việc triển khai ban đầu của IoT và các kỹ thuật quản lý dữ liệu lớn. Ví dụ, ô tô không người lái, theo dõi sức khỏe từ xa, nhà thông minh và làm việc từ xa đều sẽ là những tính năng của thành phố thông minh. Một thành phố như vậy sẽ phụ thuộc vào việc quản lý và phân tích dữ liệu lớn được tích lũy từ tổng số mảng cảm biến rộng lớn của thành phố. Dữ liệu lớn và IoT hoạt động cùng nhau là chìa khóa cho các thành phố thông minh
Đối với cộng đồng nói chung, một trong những lợi ích sẽ là một hệ thống năng lượng thông minh. Điều này sẽ điều chỉnh ánh sáng đường phố, giám sát giao thông và thậm chí theo dõi rác. Tất cả những điều này có thể đạt được bằng cách lắp đặt một loạt các thẻ nhận dạng tần số vô tuyến (RFID) và cảm biến không dây trên khắp thành phố. Các thẻ này, bao gồm một vi mạch và một ăng-ten nhỏ, sẽ gửi dữ liệu từ các thiết bị riêng lẻ đến một vị trí trung tâm để phân tích. Ví dụ, chính quyền thành phố sẽ giám sát giao thông bằng cách lắp đặt thẻ RFID trên xe và máy ảnh kỹ thuật số trên đường phố. Cải thiện an toàn cá nhân cũng sẽ được xem xét, ví dụ, trẻ em có thể được gắn thẻ và giám sát một cách kín đáo thông qua điện thoại di động của cha mẹ. Các cảm biến này sẽ tạo ra một lượng dữ liệu khổng lồ cần được theo dõi và phân tích trong thời gian thực, thông qua một đơn vị xử lý dữ liệu trung tâm. Sau đó, nó có thể được sử dụng cho nhiều mục đích khác nhau bao gồm đo lưu lượng giao thông, xác định tắc nghẽn và đề xuất các tuyến đường thay thế. Bảo mật dữ liệu rõ ràng sẽ là điều tối quan trọng trong bối cảnh này, vì bất kỳ sự cố lớn nào trong hệ thống hoặc hack sẽ nhanh chóng ảnh hưởng đến niềm tin của công chúng.
Khu thương mại quốc tế Songdo ở Hàn Quốc, dự kiến hoàn thành vào năm 2020, đã được xây dựng với mục đích như một thành phố thông minh. Một trong những đặc điểm chính là toàn bộ thành phố có băng thông rộng cáp quang. Công nghệ hiện đại này được sử dụng để đảm bảo các tính năng mong muốn của một thành phố thông minh có thể được truy cập nhanh chóng. Các thành phố thông minh mới cũng đang được thiết kế để giảm thiểu các tác động tiêu cực đến môi trường, biến chúng trở thành thành phố bền vững của tương lai. Trong khi nhiều thành phố thông minh đã được lên kế hoạch và giống như Songdo, đang được xây dựng có mục đích, các thành phố hiện tại sẽ cần phải hiện đại hóa cơ sở hạ tầng của họ dần dần. [https://ictvietnam.vn/vi-sao-mot-thanh-pho-thong-minh-lai-co-the-khong-hap-dan-cu-dan-26996.html]
Vào tháng 5 năm 2016, Liên hợp quốc Global Pulse, một sáng kiến nhằm thúc đẩy nghiên cứu dữ liệu lớn vì lợi ích toàn cầu, đã công bố ‘Cuộc thi Ý tưởng lớn 2016: Thành phố bền vững’ dành cho mười quốc gia thành viên của Hiệp hội các quốc gia Đông Nam Á (ASEAN) và Hàn Quốc. Đến hạn chót tháng 6, hơn 250 đề xuất đã được nhận và người chiến thắng ở các hạng mục khác nhau đã được công bố vào tháng 8 năm 2016. Giải thưởng lớn thuộc về Hàn Quốc vì đề xuất cải thiện giao thông công cộng bằng cách giảm thời gian chờ đợi bằng cách sử dụng thông tin tìm nguồn lực cộng đồng về hàng đợi.
Nhìn về phía trước
Trong phần dẫn luận này, chúng ta đã thấy khoa học dữ liệu đã trải qua một sự chuyển đổi triệt để như thế nào trong vài thập kỷ qua do những tiến bộ công nghệ do sự phát triển của Internet và vũ trụ kỹ thuật số mang lại. Trong chương cuối cùng này, chúng ta đã nhìn thoáng qua một số cách mà cuộc sống của chúng ta có thể được định hình bởi dữ liệu lớn trong tương lai. Mặc dù chúng tôi không thể hy vọng đề cập trong một phần giới thiệu ngắn gọn tất cả các lĩnh vực mà dữ liệu lớn đang tạo ra tác động, nhưng chúng ta đã thấy một số ứng dụng đa dạng đã ảnh hưởng đến chúng ta.
Dữ liệu do thế giới tạo ra sẽ chỉ trở nên lớn hơn. Các phương pháp để xử lý tất cả dữ liệu này một cách hiệu quả và có ý nghĩa chắc chắn sẽ tiếp tục là chủ đề của nghiên cứu chuyên sâu, đặc biệt là trong lĩnh vực phân tích thời gian thực. Cuộc cách mạng dữ liệu lớn đánh dấu một sự thay đổi lớn trong cách thế giới hoạt động, và cũng như tất cả các phát triển công nghệ, các cá nhân, nhà khoa học và chính phủ cùng nhau có trách nhiệm đạo đức để đảm bảo việc sử dụng nó đúng cách. Dữ liệu lớn là sức mạnh. Tiềm năng tốt đẹp của nó là rất lớn. Làm thế nào chúng ta ngăn chặn sự lạm dụng của nó là tùy thuộc vào chúng ta.
Đọc thêm:
Big data and society Anno Bunnik and Anthony Cawley, Big Data Challenges: Society, Security, Innovation and Ethics (Palgrave Macmillan, 2016).
Samuel Greengard, The Internet of Things (MIT Press, 2015).
Robin Hanson, The Age of Em (Oxford University Press, 2016). Websites