Dữ liệu lớn (Big Data) và y khoa
Phân tích dữ liệu lớn đang thay đổi đáng kể thế giới chăm sóc sức khỏe. Tiềm năng của nó, vẫn chưa được hiện thực hoá đầy đủ, nhưng bao gồm chẩn đoán y tế, dự đoán dịch bệnh, đánh giá phản ứng của công chúng đối với các cảnh báo sức khỏe của chính phủ và giảm chi phí liên quan đến hệ thống chăm sóc sức khỏe. Hãy bắt đầu bằng cách xem xét cái mà ngày nay được gọi là tin học chăm sóc sức khỏe.
Tin học chăm sóc sức khỏe
Dữ liệu lớn y tế được thu thập, lưu trữ và phân tích bằng cách sử dụng các kỹ thuật chung được mô tả trong các chương trước. Nói chung, tin học chăm sóc sức khỏe và nhiều phân ngành của nó, chẳng hạn như tin học lâm sàng và tin sinh học, sử dụng dữ liệu lớn để cung cấp dịch vụ chăm sóc bệnh nhân được cải thiện và giảm chi phí. Hãy xem xét các tiêu chí định nghĩa cho dữ liệu lớn (được thảo luận trong Chương 2) – khối lượng, sự đa dạng, tốc độ và tính xác thực – và cách chúng áp dụng cho dữ liệu y tế. Khối lượng và tốc độ được thỏa mãn, ví dụ, khi dữ liệu liên quan đến sức khỏe cộng đồng được thu thập thông qua các trang mạng xã hội để theo dõi dịch bệnh; sự đa dạng được thỏa mãn vì hồ sơ bệnh nhân được lưu trữ ở định dạng văn bản, cả có cấu trúc và không có cấu trúc, và dữ liệu cảm biến như do MRI cung cấp cũng được thu thập; Tính xác thực là nền tảng cho các ứng dụng y tế và cẩn thận đáng kể để loại bỏ dữ liệu không chính xác.
Phương tiện truyền thông xã hội là một nguồn thông tin liên quan đến y tế có giá trị tiềm năng thông qua việc thu thập dữ liệu từ các trang web như Facebook, Twitter, các blog khác nhau, bảng tin và tìm kiếm trên Internet. Các bảng tin tập trung vào các vấn đề chăm sóc sức khỏe cụ thể rất phong phú, cung cấp vô số dữ liệu phi cấu trúc. Các bài đăng trên cả Facebook và Twitter đã được khai thác, sử dụng các kỹ thuật phân loại tương tự như những gì được mô tả trong Chương 4, để theo dõi trải nghiệm của các phản ứng khó chịu đối với thuốc và cung cấp cho các chuyên gia chăm sóc sức khỏe thông tin đáng giá liên quan đến tương tác thuốc và lạm dụng ma túy. Khai thác dữ liệu truyền thông xã hội cho nghiên cứu liên quan đến sức khỏe cộng đồng hiện là một thực tiễn được công nhận trong cộng đồng học thuật.
Các trang mạng xã hội được chỉ định cho các chuyên gia y tế, chẳng hạn như Sermo Intelligence, một mạng lưới y tế trên toàn thế giới và tự xưng là ‘công ty thu thập dữ liệu chăm sóc sức khỏe toàn cầu lớn nhất’, cung cấp cho nhân viên y tế những lợi ích về nguồn lực cộng đồng ngay lập tức từ việc tương tác với các đồng nghiệp của họ. Các trang web tư vấn y tế trực tuyến ngày càng trở nên phổ biến và tạo ra nhiều thông tin hơn. Tuy nhiên, mặc dù không thể truy cập công khai, có lẽ nguồn quan trọng nhất là bộ sưu tập hồ sơ sức khỏe điện tử khổng lồ. Những hồ sơ này, thường được đề cập đơn giản bằng tên viết tắt của chúng, EHR, cung cấp phiên bản điện tử về tiền sử bệnh đầy đủ của bệnh nhân, bao gồm chẩn đoán, thuốc được kê đơn, hình ảnh y tế như chụp X-quang và tất cả các thông tin liên quan khác được thu thập theo thời gian, do đó xây dựng một ‘bệnh nhân ảo’ — một khái niệm mà chúng ta sẽ xem xét ở phần sau của chương này. Cũng như sử dụng dữ liệu lớn để cải thiện chăm sóc bệnh nhân và cắt giảm chi phí, bằng cách tổng hợp thông tin được tạo ra từ nhiều nguồn trực tuyến, bạn có thể suy nghĩ về việc dự đoán diễn biến của các dịch bệnh mới xuất hiện.
Xu hướng cúm của Google/ Google Flu Trends
Hàng năm, giống như nhiều quốc gia, Hoa Kỳ trải qua một đại dịch cúm (hoặc cúm) dẫn đến nguồn lực y tế bị quá sức và thiệt hại đáng kể về người. Dữ liệu từ các dịch bệnh trong quá khứ được cung cấp bởi Trung tâm Kiểm soát Dịch bệnh Hoa Kỳ (CDC), cơ quan giám sát sức khỏe cộng đồng, cùng với phân tích dữ liệu lớn, cung cấp động lực đằng sau nỗ lực của các nhà nghiên cứu trong việc dự đoán sự lây lan của bệnh để tập trung dịch vụ và giảm tác động của nó.
Nhóm Google Flu Trends bắt đầu làm việc để dự đoán dịch cúm bằng cách sử dụng dữ liệu của công cụ tìm kiếm. Họ quan tâm đến việc làm thế nào diễn biến của dịch cúm hàng năm có thể được dự đoán nhanh hơn so với hiện tại CDC để xử lý dữ liệu của riêng mình. Trong một bức thư được công bố trên tạp chí khoa học uy tín Nature vào tháng 2 năm 2009, nhóm sáu kỹ sư phần mềm của Google đã giải thích những gì họ đang làm. Nếu dữ liệu có thể được sử dụng để dự đoán chính xác diễn biến của đại dịch cúm hàng năm ở Hoa Kỳ thì căn bệnh có thể được kiềm chế, cứu sống và các nguồn lực y tế. Nhóm Google đã khám phá ý tưởng rằng điều này có thể đạt được bằng cách thu thập và phân tích các truy vấn của công cụ tìm kiếm liên quan đến mối quan tâm về bệnh cúm. Những nỗ lực trước đây để sử dụng dữ liệu trực tuyến để dự đoán sự lây lan của bệnh cúm đã thất bại hoặc đạt được thành công hạn chế. Tuy nhiên, bằng cách học hỏi từ những sai lầm trước đó trong nghiên cứu tiên phong này, Google và CDC hy vọng sẽ thành công trong việc sử dụng dữ liệu lớn được tạo ra bởi các truy vấn của công cụ tìm kiếm để cải thiện việc theo dõi dịch bệnh.
CDC và đối tác châu Âu, Chương trình Giám sát Cúm Châu Âu (EISS), thu thập dữ liệu từ nhiều nguồn khác nhau, bao gồm cả bác sĩ, gồm báo cáo về số lượng bệnh nhân được thu dung với các triệu chứng giống cúm. Vào thời điểm dữ liệu này được đối chiếu, nó thường ở khoảng hai tuần xuất hiện và dịch bệnh đã tiến triển xa hơn. Sử dụng dữ liệu được thu thập trong thời gian thực từ Internet, nhóm Google/CDC nhằm mục đích cải thiện độ chính xác của các dự đoán dịch bệnh và cung cấp kết quả trong vòng một ngày. Để làm được điều này, dữ liệu đã được thu thập trên các truy vấn tìm kiếm liên quan đến cúm khác nhau, từ các tìm kiếm trên Internet riêng lẻ về các biện pháp điều trị và triệu chứng cúm đến dữ liệu hàng loạt như các cuộc gọi điện thoại được thực hiện đến các trung tâm tư vấn y tế. Google đã có thể khai thác một lượng lớn dữ liệu truy vấn tìm kiếm mà họ đã tích lũy từ năm 2003 đến năm 2008, và bằng cách sử dụng địa chỉ IP, nó có thể xác định vị trí địa lý nơi các truy vấn tìm kiếm đã được tạo ra và do đó nhóm dữ liệu theo Tiểu bang. Dữ liệu CDC được thu thập từ mười khu vực, mỗi khu vực chứa dữ liệu tích lũy từ một nhóm Tiểu bang (ví dụ: Khu vực 9 bao gồm Arizona, California, Hawaii và Nevada), và sau đó được tích hợp vào mô hình.
Dự án Google Flu Trends dựa trên kết quả đã biết rằng có mối tương quan cao giữa số lượng tìm kiếm trực tuyến liên quan đến cúm và số lần đến phòng khám của bác sĩ. Nếu nhiều người trong một khu vực cụ thể đang tìm kiếm thông tin liên quan đến cúm trực tuyến, thì có thể dự đoán sự lây lan của các trường hợp cúm đến các khu vực lân cận. Vì mối quan tâm là tìm kiếm xu hướng, dữ liệu có thể được ẩn danh và do đó không cần sự đồng ý của các cá nhân. Sử dụng dữ liệu tích lũy trong năm năm, mà họ giới hạn trong cùng khung thời gian với dữ liệu của CDC, và do đó chỉ được thu thập trong mùa cúm, Google đã đếm số lần xuất hiện hàng tuần của mỗi trong số năm mươi triệu truy vấn tìm kiếm phổ biến nhất từ tất cả các đối tượng. Các số truy vấn tìm kiếm này sau đó được so sánh với dữ liệu cúm của CDC và những truy vấn có mối tương quan cao nhất được sử dụng trong mô hình xu hướng cúm. Google đã chọn sử dụng bốn mươi lăm cụm từ tìm kiếm liên quan đến cúm hàng đầu và sau đó theo dõi chúng trong các truy vấn tìm kiếm mà mọi người đang thực hiện. Danh sách đầy đủ các cụm từ tìm kiếm là bí mật nhưng bao gồm, ví dụ, ‘biến chứng cúm’, ‘thuốc cảm lạnh/cúm’ và ‘triệu chứng cúm chung’. Dữ liệu lịch sử cung cấp một đường cơ sở để đánh giá hoạt động cúm hiện tại trên các cụm từ tìm kiếm đã chọn và bằng cách so sánh dữ liệu thời gian thực mới với dữ liệu này, phân loại trên thang điểm từ 1 đến 5, trong đó 5 biểu thị mức nghiêm trọng nhất, đã được thành lập.
Được sử dụng trong mùa cúm 2011-12 và 2012-13 ở Mỹ, thuật toán dữ liệu lớn của Google nổi tiếng vì thất bại khi chuyển giao. Sau khi mùa cúm kết thúc, các dự đoán của nó đã được kiểm tra so với dữ liệu thực tế của CDC. Trong việc xây dựng mô hình, thể hiện tốt xu hướng cúm từ dữ liệu có sẵn, thuật toán Xu hướng cúm của Google đã dự đoán quá mức số trường hợp cúm, ít nhất 50%, trong những năm nó được sử dụng. Có một số lý do khiến mô hình không hoạt động tốt. Một số cụm từ tìm kiếm đã bị loại trừ một cách có chủ ý vì chúng không phù hợp với kỳ vọng của nhóm nghiên cứu. Ví dụ được hiển thị là bóng rổ trường trung học, dường như không liên quan đến bệnh cúm, tuy nhiên có mối tương quan cao với dữ liệu của CDC, nhưng nó đã bị loại khỏi mô hình. Lựa chọn biến, quá trình mà các yếu tố dự đoán thích hợp nhất được chọn, luôn đưa ra một vấn đề đầy thách thức và do đó được thực hiện theo thuật toán để tránh sai lệch. Google giữ bí mật các chi tiết về thuật toán của họ, chỉ lưu ý rằng bóng rổ trường trung học nằm trong top 100 và biện minh cho việc loại trừ nó bằng cách chỉ ra rằng cúm và bóng rổ đều đạt đỉnh vào cùng một thời điểm trong năm.
Như chúng tôi đã lưu ý, khi xây dựng mô hình của họ, Google đã sử dụng bốn mươi lăm cụm từ tìm kiếm làm yếu tố dự đoán bệnh cúm. Nếu họ chỉ sử dụng một, ví dụ như ‘cúm’ hoặc ‘cúm’, thông tin quan trọng và có liên quan như tất cả các tìm kiếm về ‘thuốc cảm lạnh’ sẽ không được chú ý và không được báo cáo. Độ chính xác trong dự đoán được cải thiện bằng cách có đủ số lượng cụm từ tìm kiếm nhưng nó cũng có thể yếu nếu có quá nhiều. Dữ liệu hiện tại được sử dụng làm dữ liệu đào tạo để xây dựng một mô hình dự đoán xu hướng dữ liệu trong tương lai và khi có quá nhiều yếu tố dự đoán, các trường hợp ngẫu nhiên nhỏ trong dữ liệu đào tạo được mô hình hóa và do đó, mặc dù mô hình phù hợp với dữ liệu đào tạo rất tốt, nhưng nó không dự đoán tốt. Hiện tượng dường như nghịch lý này, được gọi là ‘quá ăn khớp’, đã không được nhóm nghiên cứu xem xét đầy đủ. Bỏ qua bóng rổ trường trung học chỉ đơn giản là trùng hợp với mùa cúm là hợp lý, nhưng có năm mươi triệu cụm từ tìm kiếm riêng biệt và với một con số lớn như vậy, gần như không thể tránh khỏi việc những cụm từ khác sẽ tương quan chặt chẽ với CDC nhưng không liên quan đến xu hướng cúm.
Thăm khám bác sĩ với các triệu chứng giống cúm thường dẫn đến chẩn đoán không phải là cúm (ví dụ: đó là cảm lạnh thông thường). Dữ liệu Google sử dụng, được thu thập có chọn lọc từ các truy vấn của công cụ tìm kiếm, tạo ra kết quả không hợp lý về mặt khoa học do sự thiên vị rõ ràng được tạo ra, ví dụ bằng cách loại bỏ tất cả những người không sử dụng máy tính và tất cả mọi người sử dụng các công cụ tìm kiếm khác. Một vấn đề khác có thể dẫn đến kết quả kém là khách hàng tìm kiếm trên Google về ‘triệu chứng cúm’ có thể đã khám phá một số trang web liên quan đến cúm, dẫn đến việc họ bị đếm nhiều lần và do đó thổi phồng các con số. Ngoài ra, hành vi tìm kiếm thay đổi theo thời gian, đặc biệt là trong thời kỳ dịch bệnh và điều này cần được tính đến bằng cách cập nhật mô hình thường xuyên. Một khi lỗi trong dự đoán bắt đầu xảy ra, chúng có xu hướng xếp tầng, đó là những gì đã xảy ra với các dự đoán Xu hướng cúm của Google: lỗi của một tuần được chuyển sang tuần tiếp theo. Các truy vấn tìm kiếm được coi là chúng đã thực sự xảy ra và không được nhóm theo chính tả hoặc cụm từ. Ví dụ riêng của Google là ‘dấu hiệu của cúm’, ‘dấu hiệu về cúm’ và ‘dấu hiệu nhiễm cúm’ được tính riêng biệt.
Công trình, có từ năm 2007-2008, đã bị chỉ trích nhiều, đôi khi không công bằng, nhưng những lời chỉ trích thường liên quan đến sự thiếu minh bạch, ví dụ như từ chối tiết lộ tất cả các cụm từ tìm kiếm đã chọn và không sẵn sàng trả lời các yêu cầu từ cộng đồng học thuật về thông tin. Dữ liệu truy vấn của công cụ tìm kiếm không phải là sản phẩm của một thí nghiệm thống kê được thiết kế và tìm cách phân tích dữ liệu đó một cách có ý nghĩa và trích xuất kiến thức hữu ích là một lĩnh vực mới và đầy thách thức sẽ được hưởng lợi nếu có hợp tác. Trong mùa cúm năm 2012, Google đã thực hiện những thay đổi đáng kể đối với các thuật toán của mình và bắt đầu sử dụng một kỹ thuật toán học tương đối mới được gọi là Elasticnet, cung cấp một phương tiện nghiêm ngặt để lựa chọn và giảm số lượng yếu tố dự đoán cần thiết. Năm 2011, Google đã khởi động một chương trình tương tự để theo dõi sốt xuất huyết, nhưng họ không còn công bố các dự đoán và vào năm 2015, Google Flu Trends đã bị thu hồi. Tuy nhiên, họ hiện đang chia sẻ dữ liệu của họ với các nhà nghiên cứu hàn lâm.
Google Flu Trends, một trong những nỗ lực trước đó về việc sử dụng dữ liệu lớn để dự đoán dịch bệnh, đã cung cấp những hiểu biết hữu ích cho các nhà nghiên cứu sau đó. Mặc dù kết quả không đáp ứng được mong đợi, nhưng có vẻ như trong tương lai các kỹ thuật tốt hơn sẽ được phát triển và phát huy toàn bộ tiềm năng của dữ liệu lớn trong việc theo dõi dịch bệnh. Một nỗ lực như vậy đã được thực hiện bởi một nhóm các nhà khoa học từ Phòng thí nghiệm Quốc gia Los Alamos ở Hoa Kỳ, sử dụng dữ liệu từ Wikipedia. Nhóm nghiên cứu Delphi tại Đại học Carnegie Mellon đã giành chiến thắng trong thử thách của CDC về ‘Dự đoán bệnh cúm’ trong cả năm 2014-15 và 2015-16 cho các nhà dự báo chính xác nhất. Nhóm đã sử dụng thành công dữ liệu từ Google, Twitter và Wikipedia để theo dõi sự bùng phát của dịch cúm.
Bùng phát Ebola ở Tây Phi
Thế giới đã trải qua nhiều đại dịch trong quá khứ; bệnh cúm Tây Ban Nha năm 1918-19 đã giết chết khoảng hai mươi triệu đến năm mươi triệu người và tổng cộng lây nhiễm cho khoảng 500 triệu người. Rất ít thông tin về vi rút, không có phương pháp điều trị hiệu quả và phản ứng y tế công cộng bị hạn chế – nhất thiết phải như vậy, do thiếu kiến thức. Điều này đã thay đổi vào năm 1948 với sự ra đời của Tổ chức Y tế Thế giới (WHO), chịu trách nhiệm giám sát và cải thiện sức khỏe toàn cầu thông qua hợp tác và hợp tác trên toàn thế giới. Vào ngày 8 tháng 8 năm 2014, tại một cuộc họp từ xa của Ủy ban Khẩn cấp Quy định Y tế Quốc tế, WHO thông báo rằng sự bùng phát của virus Ebola ở Tây Phi chính thức cấu thành một “tình trạng khẩn cấp về sức khỏe cộng đồng được quốc tế quan tâm” (PHEIC). Sử dụng một thuật ngữ do WHO định nghĩa, dịch Ebola tạo thành một “sự kiện bất thường” đòi hỏi một nỗ lực quốc tế với tỷ lệ chưa từng có để ngăn chặn nó và do đó ngăn chặn một đại dịch.
Đợt bùng phát Ebola ở Tây Phi vào năm 2014, chủ yếu chỉ giới hạn ở Guinea, Sierra Leone và Liberia, đã đưa ra một loạt các vấn đề khác đối với đợt bùng phát cúm hàng năm của Hoa Kỳ. Dữ liệu lịch sử về Ebola không có sẵn hoặc ít được sử dụng vì một đợt bùng phát với tỷ lệ này chưa bao giờ được ghi nhận, và vì vậy các chiến lược mới để đối phó với nó cần được phát triển. Do kiến thức về sự di chuyển của dân cư giúp các chuyên gia y tế công cộng theo dõi sự lây lan của dịch bệnh, người ta tin rằng thông tin do các công ty điện thoại di động nắm giữ có thể được sử dụng để theo dõi việc đi lại trong các khu vực bị nhiễm bệnh và các biện pháp được đưa ra, chẳng hạn như hạn chế đi lại, sẽ ngăn chặn virus, cuối cùng là cứu sống nhiều người. Mô hình thời gian thực kết quả của đợt bùng phát sẽ dự đoán nơi các trường hợp tiếp theo của dịch bệnh có nhiều khả năng xảy ra nhất và các nguồn lực có thể được tập trung cho phù hợp.
Thông tin kỹ thuật số có thể thu thập được từ điện thoại di động khá cơ bản: số điện thoại của cả người gọi và người được gọi, và vị trí gần đúng của người gọi – một cuộc gọi được thực hiện trên điện thoại di động tạo ra một dấu vết có thể được sử dụng để ước tính vị trí của người gọi theo tháp được sử dụng cho mỗi cuộc gọi. Việc truy cập vào dữ liệu này đặt ra một số vấn đề: các vấn đề về quyền riêng tư là một mối quan tâm thực sự vì những cá nhân không đồng ý cho các cuộc gọi của họ được theo dõi để được xác định.
Ở các nước Tây Phi bị ảnh hưởng bởi Ebola, mật độ điện thoại di động không đồng đều, với tỷ lệ thấp nhất là ở các vùng nông thôn nghèo. Ví dụ, vào năm 2013, chỉ hơn một nửa số hộ gia đình ở Liberia và Sierra Leone, hai trong số các quốc gia bị ảnh hưởng trực tiếp bởi dịch bệnh vào năm 2014, có điện thoại di động, nhưng ngay cả như vậy họ vẫn có thể cung cấp đủ dữ liệu để theo dõi di chuyển một cách hữu ích.
Một số dữ liệu điện thoại di động lịch sử đã được cung cấp cho Flowminder Foundation, một tổ chức phi lợi nhuận có trụ sở tại Thụy Điển, chuyên làm việc với dữ liệu lớn về các vấn đề sức khỏe cộng đồng ảnh hưởng đến các nước nghèo hơn trên thế giới. Năm 2008, Flowminder là người đầu tiên sử dụng dữ liệu của nhà khai thác di động để theo dõi sự di chuyển của dân số trong một môi trường đầy thách thức về mặt y tế, như một phần của sáng kiến của WHO nhằm loại bỏ bệnh sốt rét, vì vậy họ là một lựa chọn rõ ràng để giải quyết cuộc khủng hoảng Ebola. Một nhóm nghiên cứu quốc tế nổi tiếng đã sử dụng dữ liệu lịch sử ẩn danh để xây dựng bản đồ di chuyển dân số ở các khu vực bị ảnh hưởng bởi Ebola. Dữ liệu lịch sử này được sử dụng hạn chế vì hành vi thay đổi trong thời kỳ dịch bệnh, nhưng nó cho thấy những dấu hiệu mạnh mẽ về nơi mọi người sẽ có xu hướng đi du lịch, trong trường hợp khẩn cấp. Hồ sơ hoạt động của cột điện thoại di động cung cấp thông tin chi tiết về hoạt động dân số theo thời gian thực.
Tuy nhiên, số liệu dự đoán Ebola do WHO công bố cao hơn 50% so với các trường hợp thực tế được ghi nhận.
Các vấn đề với cả phân tích Xu hướng cúm và Ebola của Google đều giống nhau ở chỗ các thuật toán dự đoán được sử dụng chỉ dựa trên dữ liệu ban đầu và không tính đến các điều kiện thay đổi. Về cơ bản, mỗi mô hình này giả định rằng số lượng trường hợp sẽ tiếp tục tăng với tốc độ tương tự trong tương lai như trước khi can thiệp y tế bắt đầu. Rõ ràng, các biện pháp y tế và y tế công cộng có thể được kỳ vọng sẽ có tác động tích cực và những biện pháp này chưa được tích hợp vào mô hình.
Virus Zika, lây truyền bởi muỗi Aedes, được ghi nhận lần đầu tiên vào năm 1947 ở Uganda, và kể từ đó đã lây lan xa như châu Á và châu Mỹ. Sự bùng phát virus Zika hiện tại, được xác định ở Brazil vào năm 2015, dẫn đến một PHEIC khác. Các bài học đã được rút ra liên quan đến mô hình thống kê với dữ liệu lớn từ công việc của Google Flu Trends và trong đợt bùng phát Ebola, và hiện nay người ta thường thừa nhận rằng dữ liệu nên được thu thập từ nhiều nguồn. Hãy nhớ lại rằng dự án Google Flu Trends chỉ thu thập dữ liệu từ công cụ tìm kiếm của riêng nó.
Trận động đất ở Nepal
Vậy tương lai của việc theo dõi dịch bệnh bằng dữ liệu lớn là gì? Các đặc điểm thời gian thực của hồ sơ chi tiết cuộc gọi điện thoại di động (CDR) đã được sử dụng để hỗ trợ theo dõi sự di chuyển của dân số trong các thảm họa như trận động đất Nepal và dịch cúm lợn ở Mexico. Ví dụ, một nhóm Flowminder quốc tế, với các nhà khoa học từ Đại học Southampton và Oxford, cũng như các tổ chức ở Mỹ và Trung Quốc, sau trận động đất ở Nepal ngày 25 tháng 4 năm 2015, đã sử dụng CDR để cung cấp ước tính về sự di chuyển dân số. Một tỷ lệ cao dân số Nepal có điện thoại di động và bằng cách sử dụng dữ liệu ẩn danh của 12 triệu thuê bao, nhóm Flowminder đã có thể theo dõi sự di chuyển của dân số trong vòng chín ngày sau trận động đất. Phản ứng nhanh chóng này một phần là do đã có một thỏa thuận với nhà cung cấp dịch vụ chính ở Nepal, các chi tiết kỹ thuật chỉ được hoàn thành một tuần trước thảm họa. Có một máy chủ chuyên dụng với ổ cứng 20 Tb trong trung tâm dữ liệu của nhà cung cấp cho phép nhóm bắt đầu công việc ngay lập tức, dẫn đến thông tin được cung cấp cho các tổ chức cứu trợ thiên tai trong vòng chín ngày sau trận động đất.
Dữ liệu lớn và y học thông minh
Mỗi khi bệnh nhân đến văn phòng bác sĩ hoặc bệnh viện, dữ liệu điện tử thường được thu thập. Hồ sơ sức khỏe điện tử cấu thành tài liệu pháp lý về các liên hệ chăm sóc sức khỏe của bệnh nhân: các chi tiết như tiền sử bệnh nhân, thuốc được kê đơn và kết quả xét nghiệm được ghi lại. Hồ sơ sức khỏe điện tử cũng có thể bao gồm dữ liệu cảm biến như chụp cộng hưởng từ (MRI). Dữ liệu có thể được ẩn danh và tổng hợp cho mục đích nghiên cứu. Người ta ước tính rằng vào năm 2015, trung bình một bệnh viện ở Hoa Kỳ sẽ lưu trữ hơn 600 Tb dữ liệu, hầu hết trong số đó là không có cấu trúc. Làm thế nào để khai thác dữ liệu này để cung cấp thông tin giúp cải thiện việc chăm sóc bệnh nhân và cắt giảm chi phí? Nói tóm lại, chúng ta lấy dữ liệu, cả có cấu trúc và không có cấu trúc, xác định các đặc điểm liên quan đến một bệnh nhân hoặc các bệnh nhân và sử dụng các kỹ thuật thống kê như phân loại và hồi quy để mô hình hóa kết quả. Ghi chú bệnh nhân chủ yếu ở định dạng văn bản phi cấu trúc và để phân tích chúng một cách hiệu quả đòi hỏi các kỹ thuật xử lý ngôn ngữ tự nhiên như những kỹ thuật được sử dụng bởi Watson của IBM, sẽ được thảo luận trong phần tiếp theo.
Theo IBM, đến năm 2020, dữ liệu y tế dự kiến sẽ tăng gấp đôi sau mỗi bảy mươi ba ngày. Ngày càng được sử dụng nhiều hơn để theo dõi những người khỏe mạnh, các thiết bị đeo được sử dụng rộng rãi để đếm số bước chúng ta đi mỗi ngày; đo lường và cân bằng nhu cầu calo của chúng ta; theo dõi giấc ngủ của chúng ta; cũng như cung cấp thông tin ngay lập tức về nhịp tim và huyết áp của chúng ta. Thông tin thu thập được sau đó có thể được tải lên máy tính của chúng ta và hồ sơ được lưu giữ riêng tư hoặc, đôi khi trong trường hợp, tự nguyện chia sẻ với người sử dụng lao động. Dòng dữ liệu thực sự về các cá nhân này sẽ cung cấp cho các chuyên gia chăm sóc sức khỏe dữ liệu sức khỏe cộng đồng có giá trị cũng như cung cấp một phương tiện để nhận ra những thay đổi ở các cá nhân có thể giúp tránh, chẳng hạn như đau tim. Dữ liệu về dân số sẽ cho phép các bác sĩ theo dõi, ví dụ, tác dụng phụ của một loại thuốc cụ thể dựa trên đặc điểm của bệnh nhân.
Sau khi hoàn thành Dự án Bộ gen người vào năm 2003, dữ liệu di truyền sẽ ngày càng trở thành một phần quan trọng trong hồ sơ y tế cá nhân của chúng ta cũng như cung cấp nhiều dữ liệu nghiên cứu. Mục đích của Dự án Bộ gen người là lập bản đồ tất cả các gen của con người. Nói chung, thông tin di truyền của một sinh vật được gọi là bộ gen của nó. Thông thường, bộ gen người chứa khoảng 20.000 gen và lập bản đồ bộ gen như vậy cần khoảng 100 Gb dữ liệu. Tất nhiên, đây là một lĩnh vực nghiên cứu di truyền rất phức tạp, chuyên biệt và nhiều mặt, nhưng những tác động sau khi sử dụng phân tích dữ liệu lớn là điều đáng quan tâm. Thông tin về các gen được thu thập như vậy được lưu giữ trong cơ sở dữ liệu lớn và gần đây đã có lo ngại rằng chúng có thể bị tấn công và những bệnh nhân đóng góp DNA sẽ được xác định. Có ý kiến cho rằng, vì mục đích bảo mật, thông tin sai lệch nên được thêm vào cơ sở dữ liệu, mặc dù không đủ để làm cho nó trở nên vô dụng cho nghiên cứu y học. Lĩnh vực liên ngành của tin sinh học đã phát triển mạnh mẽ do nhu cầu quản lý và phân tích dữ liệu lớn do bộ gen tạo ra. Giải trình tự gen ngày càng trở nên nhanh chóng và rẻ hơn nhiều trong những năm gần đây, do đó việc lập bản đồ bộ gen riêng lẻ hiện nay là thực tế. Tính đến chi phí của mười lăm năm nghiên cứu, giải trình tự bộ gen người đầu tiên tiêu tốn gần 3 triệu đô la Mỹ. Nhiều công ty hiện cung cấp dịch vụ giải trình tự bộ gen cho các cá nhân với giá cả phải chăng.
Phát triển từ Dự án Bộ gen người, dự án Virtual Physiological Human (VPH) nhằm mục đích xây dựng các đại diện máy tính cho phép các bác sĩ lâm sàng mô phỏng các phương pháp điều trị y tế và tìm ra điều tốt nhất cho một bệnh nhân nhất định, được xây dựng dựa trên dữ liệu từ một ngân hàng dữ liệu khổng lồ của bệnh nhân thực tế. Bằng cách so sánh những người có triệu chứng tương tự và các chi tiết liên quan đến y tế khác, mô hình máy tính có thể dự đoán kết quả có thể xảy ra của việc điều trị trên một bệnh nhân cá nhân. Các kỹ thuật khai thác dữ liệu cũng được sử dụng và có khả năng hợp nhất với mô phỏng máy tính để cá nhân hóa điều trị y tế, và do đó kết quả của MRI có thể tích hợp với mô phỏng. Bệnh nhân kỹ thuật số của tương lai sẽ chứa tất cả thông tin về một bệnh nhân thực sự, được cập nhật theo dữ liệu thiết bị thông minh. Tuy nhiên, như ngày càng có thể xảy ra, bảo mật dữ liệu là một thách thức đáng kể mà dự án phải đối mặt.
Watson trong y học
Năm 2007, IBM quyết định chế tạo một chiếc máy tính để thách thức các đối thủ cạnh tranh hàng đầu trong chương trình trò chơi truyền hình của Mỹ, Jeopardy. Watson, một hệ thống phân tích dữ liệu lớn được đặt theo tên của người sáng lập IBM, Thomas J. Watson, đã đọ sức với hai nhà vô địch Jeopardy: Brad Rutter, với chuỗi chiến thắng bảy mươi bốn lần ra sân; và Ken Jennings, người đã giành được tổng số tiền đáng kinh ngạc là 3,25 triệu đô la Mỹ. Jeopardy là một chương trình đố vui trong đó người dẫn chương trình đưa ra ‘câu trả lời’ và thí sinh phải đoán ‘câu hỏi’. Có ba thí sinh và câu trả lời hoặc manh mối có trong một số hạng mục như khoa học, thể thao và lịch sử thế giới cùng với các danh mục ít tiêu chuẩn hơn, gây tò mò như ‘trước và sau’. Ví dụ, với manh mối ‘Bia mộ của anh ấy trong sân nhà thờ Hampshire có nội dung “hiệp sĩ, người yêu nước, bác sĩ và người viết chữ; 22 tháng 5 năm 1859–7 tháng 7 năm 1930″‘, câu trả lời là ‘Sir Arthur Conan Doyle là ai?’. Trong phạm trù ít rõ ràng hơn ‘bắt những người đàn ông này’, với manh mối ‘Bị truy nã vì 19 vụ giết người, người Boston này đã chạy trốn vào năm 1995 và cuối cùng bị bắt ở Santa Monica vào năm 2011’, câu trả lời là ‘Whitey Bulger là ai?’. Các manh mối/ clue được gửi cho Watson dưới dạng gợi nhắc/ cue văn bản và nghe nhìn đã bị bỏ qua khỏi cuộc thi.
Xử lý ngôn ngữ tự nhiên (NLP), như nó được biết đến trong trí tuệ nhân tạo (AI), đại diện cho một thách thức lớn đối với khoa học máy tính và rất quan trọng đối với sự phát triển của Watson. Thông tin cũng phải có thể truy cập và truy xuất được, và đây là một vấn đề trong học máy. Nhóm nghiên cứu bắt đầu bằng cách phân tích các manh mối Jeopardy theo loại câu trả lời từ vựng (LAT) của chúng, phân loại loại câu trả lời được chỉ định trong manh mối. Đối với ví dụ thứ hai trong số những ví dụ này, LAT là ‘người Boston này’. Đối với ví dụ đầu tiên, không có LAT, đại từ ‘nó’ không giúp ích gì. Phân tích 20.000 manh mối, nhóm IBM đã tìm thấy 2.500 LAT duy nhất, nhưng chúng chỉ bao gồm khoảng một nửa manh mối. Tiếp theo, manh mối được phân tích cú pháp để xác định các từ khóa và mối quan hệ giữa chúng. Các tài liệu liên quan được truy xuất và tìm kiếm từ dữ liệu có cấu trúc và phi cấu trúc của máy tính. Các giả thuyết được tạo ra dựa trên các phân tích ban đầu và bằng cách tìm kiếm bằng chứng sâu hơn, các câu trả lời tiềm năng được tìm thấy.
Để giành chiến thắng Jeopardy, các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến nhanh chóng, học máy và phân tích thống kê là rất quan trọng. Trong số các yếu tố khác cần xem xét là độ chính xác và lựa chọn danh mục. Đường cơ sở cho hiệu suất chấp nhận được đã được tính toán bằng cách sử dụng dữ liệu từ những người chiến thắng trước đó. Sau nhiều lần thử, phân tích câu hỏi và câu trả lời sâu, hay ‘DeepQA’, sự kết hợp của nhiều kỹ thuật AI đã đưa ra giải pháp. Hệ thống này sử dụng một ngân hàng máy tính lớn, hoạt động song song nhưng không kết nối với Internet; Nó dựa trên xác suất và bằng chứng của các chuyên gia. Cũng như tạo ra câu trả lời, Watson sử dụng các thuật toán chấm điểm tin cậy để cho phép tìm thấy kết quả tốt nhất. Chỉ khi đạt đến ngưỡng độ tin cậy, Watson mới chỉ ra rằng nó đã sẵn sàng đưa ra câu trả lời, tương đương với một thí sinh con người nhấn còi của họ. Watson đã đánh bại hai nhà vô địch Jeopardy. Jennings, hào phóng trong thất bại, được trích dẫn khi nói, ‘Tôi, đại diện cho mình, hoan nghênh chúa tể các máy tính mới của chúng ta’.
Hệ thống y tế Watson, dựa trên Watson ban đầu cho Jeopardy, truy xuất và phân tích cả dữ liệu có cấu trúc và phi cấu trúc. Vì nó xây dựng cơ sở tri thức của riêng mình, nó về cơ bản là một hệ thống dường như mô hình hóa các quá trình suy nghĩ của con người trong một mỗi miền cụ thể. Các chẩn đoán y tế dựa trên tất cả các kiến thức y tế có sẵn, chúng dựa trên bằng chứng, chính xác đến mức đầu vào là chính xác, và chứa tất cả các thông tin liên quan và nhất quán. Các bác sĩ con người có kinh nghiệm nhưng dễ sai lầm và một số là bác sĩ chẩn đoán tốt hơn những người khác. Quá trình này tương tự như ở Watson cho Jeopardy, có tính đến tất cả các thông tin liên quan và trả lại các chẩn đoán, mỗi chẩn đoán đều có xếp hạng độ tin cậy. Các kỹ thuật AI tích hợp của Watson cho phép xử lý dữ liệu lớn, bao gồm cả số lượng lớn được tạo ra bởi hình ảnh y khoa.
Quyền riêng tư dữ liệu lớn y tế
Dữ liệu lớn rõ ràng có tiềm năng dự đoán sự lây lan của bệnh tật và cá nhân hóa y học, nhưng mặt khác của đồng xu – quyền riêng tư của dữ liệu y tế mỗi cá nhân thì sao? Đặc biệt với việc sử dụng ngày càng nhiều các thiết bị đeo theo người và ứng dụng điện thoại thông minh, câu hỏi đặt ra là ai sở hữu dữ liệu, nơi lưu trữ, ai có thể truy cập và sử dụng dữ liệu cũng như mức độ an toàn của dữ liệu trước các cuộc tấn công mạng. Các vấn đề đạo đức và pháp lý rất phong phú nhưng không thể đề cập ở đây.
Dữ liệu từ thiết bị theo dõi thể dục có thể có sẵn cho nhà tuyển lựa và được sử dụng: thuận lợi, ví dụ như để cung cấp tiền thưởng cho những người đáp ứng các chỉ số nhất định; hoặc, một cách bất lợi, để xác định những người không đạt được các tiêu chuẩn yêu cầu, có thể dẫn đến một đề nghị dư thừa không mong muốn. Vào tháng 9 năm 2016, một nhóm nghiên cứu hợp tác gồm các nhà khoa học từ Đại học Kỹ thuật Darmstadt ở Đức và Đại học Padua ở Ý, đã công bố kết quả nghiên cứu của họ về bảo mật dữ liệu theo dõi thể dục. Đáng báo động, trong số mười bảy thiết bị theo dõi thể dục được thử nghiệm, tất cả đều từ các nhà sản xuất khác nhau, không có thiết bị nào đủ an toàn để ngăn chặn các thay đổi được thực hiện đối với dữ liệu và chỉ có bốn thiết bị thực hiện bất kỳ đo lường mà tất cả đều vượt qua mọi nỗ lực của nhóm, để bảo vệ tính xác thực của dữ liệu.
Vào tháng 9 năm 2016, sau Thế vận hội Olympic Rio, nơi hầu hết các vận động viên Nga bị cấm sau các báo cáo chứng minh về một chương trình doping do nhà nước điều hành, hồ sơ y tế của các vận động viên hàng đầu, bao gồm chị em nhà Williams, Simone Byles và Chris Froome, đã bị tấn công và tiết lộ công khai bởi một nhóm tin tặc mạng Nga trên trang web FancyBears.net. Những hồ sơ y tế này, được Cơ quan chống doping thế giới (WADA) nắm giữ trên hệ thống quản lý dữ liệu ADAMS của họ, chỉ tiết lộ miễn trừ các sử dụng điều trị và do đó không có hành vi sai trái của các vận động viên này, bị bắt nạt trên mạng. Có khả năng vụ hack ADAMS ban đầu là kết quả của các tài khoản email lừa đảo. Kỹ thuật này, theo đó một email dường như được gửi bởi một nguồn đáng tin cậy cấp cao trong một tổ chức, chẳng hạn như nhà cung cấp dịch vụ chăm sóc sức khỏe, đến một thành viên cấp dưới của cùng một tổ chức, được sử dụng để thu thập bất hợp pháp thông tin nhạy cảm như mật khẩu và số tài khoản thông qua phần mềm độc hại đã tải xuống.
Chứng minh rằng cơ sở dữ liệu y tế dữ liệu lớn thoát khỏi các cuộc tấn công mạng và do đó đảm bảo quyền riêng tư của bệnh nhân là một mối quan tâm ngày càng tăng. Dữ liệu y tế cá nhân ẩn danh được bán hợp pháp nhưng ngay cả như vậy đôi khi vẫn có thể xác định từng bệnh nhân. Trong một thử nghiệm có giá trị, nêu bật tính dễ bị tổn thương của dữ liệu được cho là an toàn, các nhà khoa học của Phòng thí nghiệm Quyền riêng tư Dữ liệu Harvard, Latanya Sweeney và Ji Su Yoo, sử dụng dữ liệu y tế được mã hóa có sẵn hợp pháp (tức là xáo trộn để chúng không thể dễ dàng đọc; xem Chương 7) có nguồn gốc từ Hàn Quốc, đã có thể giải mã các mã định danh duy nhất trong hồ sơ và xác định từng bệnh nhân thông qua kiểm tra chéo với hồ sơ công khai.
Hồ sơ y tế cực kỳ có giá trị đối với tội phạm mạng. Vào năm 2015, công ty bảo hiểm y tế Anthem tuyên bố rằng cơ sở dữ liệu của họ đã bị tấn công với hơn 70 triệu người bị ảnh hưởng. Dữ liệu quan trọng đối với nhận dạng cá nhân, chẳng hạn như tên, địa chỉ và số an sinh xã hội, đã bị xâm phạm bởi Deep Panda, một nhóm tin tặc Trung Quốc, sử dụng mật khẩu bị đánh cắp để truy cập hệ thống và cài đặt phần mềm độc hại Trojan horse. Điều quan trọng là các số an sinh xã hội, một mã định danh duy nhất ở Hoa Kỳ, không được mã hóa, để ngỏ khả năng trộm cắp danh tính. Nhiều vi phạm bảo mật bắt đầu từ lỗi của con người: mọi người bận rộn và không nhận thấy những thay đổi tinh tế trong Bộ định vị tài nguyên thống nhất (URL); các thiết bị như ổ đĩa flash bị mất, bị đánh cắp và thậm chí đôi khi được cố tình cài, với phần mềm độc hại được cài đặt ngay lập tức, khi một nhân viên không nghi ngờ đã cắm thiết bị vào cổng USB. Cả nhân viên không hài lòng và sai lầm thực sự của nhân viên cũng là nguyên nhân của vô số rò rỉ dữ liệu.
Các ưu đãi dữ liệu lớn mới trong quản lý chăm sóc sức khỏe đang được đưa ra với tốc độ ngày càng tăng bởi các tổ chức nổi tiếng thế giới như Mayo Clinic và Johns Hopkins Medical ở Hoa Kỳ, Dịch vụ Y tế Quốc gia (NHS) của Vương quốc Anh và Bệnh viện Đại học Clermont-Ferrand ở Pháp. Các hệ thống dựa trên đám mây cho phép người dùng được ủy quyền truy cập vào dữ liệu ở bất kỳ đâu trên thế giới. Chỉ lấy một ví dụ, NHS có kế hoạch cung cấp hồ sơ bệnh nhân thông qua điện thoại thông minh vào năm 2018. Những phát triển này chắc chắn sẽ tạo ra nhiều cuộc tấn công hơn vào dữ liệu mà họ sử dụng và nỗ lực đáng kể sẽ cần được sử dụng trong việc phát triển các phương pháp bảo mật hiệu quả để đảm bảo an toàn cho dữ liệu đó.