19-09-2021

Sơ lược về thuật toán và sai lệch

Icon

Description automatically generated with low confidence

Ảnh hưởng ngày càng tăng của các thuật toán đối với cuộc sống của chúng ta có nghĩa là chúng ta phải tự hiểu rõ hơn về chúng là gì và chúng hoạt động như thế nào. Việc hiểu cách dữ liệu chúng ta sử dụng để thông báo cho các thuật toán ảnh hưởng đến kết quả mà chúng đưa ra có thể giúp chúng ta tránh những thành kiến ​​và đưa ra quyết định tốt hơn.

***

Các thuật toán có ở khắp mọi nơi: lái xe ô tô của chúng ta, thiết kế nguồn cấp dữ liệu truyền thông xã hội của chúng ta, ra lệnh cho máy trộn mà chúng ta sẽ mua trên Amazon, chẩn đoán bệnh và hơn thế nữa.

Hai cuốn sách gần đây khám phá các thuật toán và dữ liệu đằng sau chúng. Trong Hello World: Being Human in Age of Algorithm, nhà toán học Hannah Fry đã cho chúng ta thấy tiềm năng và những hạn chế của các thuật toán. Và Invisible Women: Data Bias in a World do nhà văn, nhà hoạt động nữ quyền Caroline Criado Perez chứng minh rằng chúng ta cần phải công tâm hơn nhiều về chất lượng dữ liệu mà chúng ta cung cấp.

Con người hay thuật toán?

Đầu tiên, thuật toán là gì? Giải thích các thuật toán có thể phức tạp. Fry giải thích rằng cốt lõi của chúng, chúng được định nghĩa là quy trình từng bước để giải quyết một vấn đề hoặc đạt được một mục tiêu cụ thể. Chúng ta có xu hướng sử dụng thuật ngữ này để chỉ các phép toán thu thập dữ liệu để đưa ra quyết định.

Khi nói đến việc ra quyết định, chúng ta không nhất thiết phải lựa chọn giữa việc tự mình thực hiện và hoàn toàn dựa vào các thuật toán. Kết quả tốt nhất có thể là sự kết hợp chu đáo của cả hai.

Chúng ta đều biết rằng trong những bối cảnh nhất định, con người không phải là người ra quyết định tốt nhất. Ví dụ, khi chúng ta mệt mỏi, hoặc khi chúng ta đã có sẵn một kết quả mong muốn trong đầu, chúng ta có thể bỏ qua thông tin liên quan. Trong “Tư duy, Nhanh và Chậm”, Daniel Kahneman đã đưa ra nhiều ví dụ từ nghiên cứu của ông ấy với Amos Tversky, chứng minh rằng chúng ta bị ảnh hưởng nặng nề bởi những thành kiến ​​về nhận thức như tính sẵn sàng và sự cố chấp khi đưa ra một số loại quyết định. Do đó, điều tự nhiên là chúng ta muốn sử dụng các thuật toán không dễ bị ảnh hưởng bởi các xu hướng tương tự. Trên thực tế, điểm hấp dẫn chính của chúng để sử dụng trong việc ra quyết định là chúng có thể khắc phục những điểm bất hợp lý của chúng ta.

Tuy nhiên, các thuật toán không phải là không có sai sót. Một trong những điều hiển nhiên là bởi vì các thuật toán được viết bởi con người, chúng ta thường lập trình với những thành kiến ​​của mình. Criado Perez đưa ra nhiều ví dụ về sai lệch thuật toán.

Ví dụ, một nền tảng trực tuyến được thiết kế để giúp các công ty tìm kiếm lập trình viên máy tính thông qua các hoạt động như chia sẻ và phát triển mã nguồn trên cộng đồng trực tuyến, cũng như truy cập các trang truyện tranh của Nhật Bản. Những người truy cập các trang web nhất định với tần suất nhận được điểm số cao hơn, do đó, họ dễ thấy hơn đối với nhà tuyển dụng.

Tuy nhiên, Criado Perez trình bày phân tích về thuật toán tuyển dụng này của Cathy O’Neil, nhà khoa học và tác giả cuốn Vũ khí hủy diệt toán học: Cách dữ liệu lớn làm tăng bất bình đẳng và đe dọa nền dân chủ, người chỉ ra rằng “phụ nữ, 75% lao động không được trả lương trên thế giới công việc chăm sóc, có thể không có thời gian rảnh rỗi để dành hàng giờ tán gẫu về manga trực tuyến… và nếu, giống như hầu hết các techdom, trang web truyện tranh đó bị thống trị bởi nam giới và có giọng điệu phân biệt giới tính, thì một số lượng lớn phụ nữ trong ngành có thể sẽ tránh nó”.

Criado Perez cho rằng các tác giả của thuật toán tuyển dụng không có ý định mã hóa thành kiến ​​phân biệt đối xử với phụ nữ. Tuy nhiên, cô ấy nói, “nếu không biết những thành kiến ​​đó hoạt động như thế nào, nếu không thu thập dữ liệu và dành một ít thời gian để tạo ra các quy trình dựa trên bằng chứng, bạn sẽ tiếp tục duy trì những bất công cũ một cách mù quáng”.

Fry cũng đề cập đến sự thiên vị thuật toán và khẳng định rằng “bất cứ nơi nào bạn nhìn, trong bất kỳ lĩnh vực nào bạn kiểm tra, nếu nghiên cứu đủ sâu vào bất kỳ hệ thống nào, bạn sẽ tìm thấy một số loại sai lệch”. Chúng ta không hoàn hảo — và chúng ta cũng không nên mong đợi các thuật toán của mình sẽ hoàn hảo.

Để có một cuộc trò chuyện về giá trị của một thuật toán so với con người trong bất kỳ bối cảnh ra quyết định nào, chúng ta cần hiểu, như Fry giải thích, rằng “các thuật toán yêu cầu một ý tưởng rõ ràng, rõ ràng về chính xác những gì chúng ta muốn chúng đạt được và sự hiểu biết vững chắc về những thất bại của con người mà chúng đang thay thế”.

Rác vào, rác ra

Không có thuật toán nào thành công nếu dữ liệu mà nó xử lý là rác. Và có rất nhiều dữ liệu rác trên thế giới. Không chỉ là một vấn đề mới, Criado Perez lập luận rằng “hầu hết lịch sử loài người được ghi lại là một khoảng trống dữ liệu lớn.” Và điều đó có tác động tiêu cực nghiêm trọng đến giá trị mà chúng ta đang nhận được từ các thuật toán của mình.

Criado Perez giải thích tình hình theo cách này: Chúng ta đang sống trong “một thế giới ngày càng phụ thuộc vào dữ liệu. Dữ liệu lớn. Điều này đến lượt nó được quay cho Sự thật lớn bằng Thuật toán lớn, sử dụng Máy tính lớn. Nhưng khi dữ liệu của bạn bị hỏng bởi sự Im lặng lớn, sự thật mà bạn nhận được tốt nhất là một nửa sự thật”.

Thành kiến ​​thông thường của con người là thành kiến ​​liên quan đến tính phổ biến trong trải nghiệm của chính chúng ta. Chúng ta có xu hướng cho rằng những gì đúng với chúng ta nói chung là đúng trong toàn bộ dân số. Chúng ta có một khoảng thời gian đủ khó để xem xét mọi thứ có thể khác biệt như thế nào đối với những người hàng xóm của chúng tôi, chứ đừng nói đến những giới tính hoặc chủng tộc khác. Nó trở thành một vấn đề nghiêm trọng khi chúng ta thu thập dữ liệu về một tập hợp con của tổng thể và nhầm tưởng rằng nó đại diện cho tất cả tập hợp.

Ví dụ, Criado Perez kiểm tra lỗ hổng dữ liệu liên quan đến thông tin không chính xác được sử dụng để cung cấp các quyết định về an toàn và cơ thể phụ nữ. Từ thiết bị bảo vệ cá nhân như áo chống đạn không vừa vặn và do đó làm tăng khả năng phụ nữ mặc chúng bị giết đến mức độ phơi nhiễm chất độc không an toàn cho cơ thể phụ nữ, cô ấy đưa ra trường hợp rằng nếu không có dữ liệu đại diện, chúng ta có thể nhận được kết quả tốt từ các thuật toán của chúng tôi. Cô ấy viết rằng “chúng ta tiếp tục dựa trên dữ liệu từ các nghiên cứu được thực hiện trên nam giới như thể chúng áp dụng cho phụ nữ. Cụ thể, đàn ông da trắng từ hai lăm đến ba mươi tuổi, nặng 70 kg. Đây là ‘Người đàn ông tham chiếu’ và siêu năng lực của anh ta có thể đại diện cho toàn bộ nhân loại. Tất nhiên, anh ta không như thế.

Giới hạn của những gì chúng ta có thể làm

Mặc dù có rất nhiều điều chúng ta có thể làm tốt hơn khi thiết kế các thuật toán và thu thập các tập dữ liệu cung cấp cho chúng, nhưng điều quan trọng là phải xem xét các giới hạn của chúng.

Chúng ta cần chấp nhận rằng các thuật toán không thể giải quyết tất cả các vấn đề và có những giới hạn đối với chức năng của chúng. Trong Hello World, Fry dành một chương về việc sử dụng các thuật toán trong công lý. Cụ thể, các thuật toán được thiết kế để cung cấp thông tin cho các thẩm phán về khả năng bị cáo phạm tội thêm. Động lực đầu tiên của chúng ta là nói, “Đừng dựa vào sự thiên vị ở đây. Đừng để màu da hoặc giới tính của ai đó là yếu tố chính cho thuật toán”. Rốt cuộc, chúng ta có thể sử dụng kiểu thiên vị đó chỉ tốt cho bản thân. Nhưng chỉ đơn giản là viết sai lệch ra khỏi một thuật toán thì không dễ dàng như mong muốn. Fry giải thích rằng “trừ khi tỷ lệ những người phạm tội giống nhau trong mọi nhóm bị cáo, thì về mặt toán học không thể tạo ra một bài kiểm tra dự đoán chính xác như nhau và đưa ra các sai lầm âm tính giả với tỷ lệ như nhau cho mọi nhóm bị cáo”

Fry thường xuyên quay lại những giới hạn như vậy trong suốt cuốn sách của mình, khám phá chúng trong nhiều lĩnh vực khác nhau. Cô ấy chứng minh cho người đọc rằng “có những ranh giới đối với tầm với của các thuật toán. Giới hạn cho những gì có thể được định lượng”. Có lẽ cần phải hiểu rõ hơn về những giới hạn đó để thông báo cho các cuộc thảo luận của chúng ta về nơi chúng ta muốn sử dụng thuật toán.

Tuy nhiên, có những giới hạn khác mà chúng ta có thể vượt qua. Cả hai tác giả đều đưa ra trường hợp để giáo dục nhiều hơn về các thuật toán và dữ liệu đầu vào của chúng. Thiếu hiểu biết không nên giữ chúng ta lại. Các thuật toán có tác động đáng kể đến cuộc sống của chúng ta đặc biệt cần được mở để xem xét và phân tích. Nếu một thuật toán sắp đưa bạn vào tù hoặc ảnh hưởng đến khả năng vay thế chấp của bạn, thì bạn phải có quyền truy cập vào nó.

Hầu hết các nhà viết thuật toán và các công ty mà họ làm việc vẫy cờ “độc quyền” và từ chối công khai trước sự giám sát của công chúng. Nhiều thuật toán là một hộp đen — chúng ta thực sự không biết làm thế nào chúng đạt được kết luận mà chúng thực hiện. Nhưng Fry nói rằng điều đó không nên làm chúng ta nản chí. Theo đuổi luật (chẳng hạn như quyền truy cập và bảo vệ dữ liệu đang được thiết lập ở Liên minh Châu Âu) và cấu trúc (chẳng hạn như cơ quan đánh giá thuật toán đóng vai trò tương tự như cơ quan Quản lý Thực phẩm và Dược phẩm Hoa Kỳ đóng vai trò đánh giá liệu dược phẩm có thể được cung cấp sang thị trường Hoa Kỳ hay không) sẽ giúp chúng ta quyết định với tư cách một xã hội những gì chúng ta muốn và cần các thuật toán của chúng ta thực hiện.

Chúng ta sẽ đi đâu từ đây?

Các thuật toán sẽ không biến mất, vì vậy tốt nhất bạn nên thu thập kiến ​​thức cần thiết để tìm ra cách chúng có thể giúp chúng ta tạo ra thế giới mà chúng ta muốn.

Fry gợi ý rằng một cách để tiếp cận các thuật toán là “tưởng tượng rằng chúng ta thiết kế chúng để hỗ trợ con người trong các quyết định của họ, thay vì hướng dẫn họ”. Cô ấy hình dung ra một thế giới nơi “thuật toán và con người hợp tác cùng nhau, khai thác thế mạnh của nhau và chấp nhận những sai sót của nhau”.

Một phần của việc đến một thế giới mà các thuật toán mang lại lợi ích to lớn là nhớ thế giới của chúng ta thực sự đa dạng như thế nào và đảm bảo rằng chúng ta nhận được dữ liệu phản ánh thực tế của sự đa dạng đó. Chúng ta có thể chủ động thay đổi thuật toán hoặc thay đổi tập dữ liệu. Và nếu làm điều thứ hai, chúng ta cần đảm bảo rằng chúng ta không cung cấp dữ liệu thuật toán của mình, ví dụ, loại trừ một nửa dân số. Như Criado Perez viết, “khi chúng ta loại trừ một nửa nhân loại khỏi việc sản xuất tri thức, chúng ta sẽ mất đi những hiểu biết sâu sắc có khả năng biến đổi”.

Do thế giới thuật toán phức tạp thế này, chúng ta cần tất cả những hiểu biết tuyệt vời mà chúng ta có thể có được. Bản thân các thuật toán có lẽ mang lại hy vọng tốt nhất, bởi vì chúng có tính linh hoạt vốn có để cải thiện như chúng ta.

Fry đưa ra lời giải thích này: “Không có gì cố hữu trong [những] thuật toán này có nghĩa là chúng phải lặp lại những thành kiến ​​của quá khứ. Tất cả đều phụ thuộc vào dữ liệu bạn cung cấp cho chúng. Chúng ta có thể chọn trở thành ‘những người theo chủ nghĩa kinh nghiệm thô thiển’ (như Richard Berk đã nói) và theo dõi những con số đã có, hoặc chúng ta có thể quyết định rằng hiện trạng là không công bằng và điều chỉnh những con số cho phù hợp”.

Chúng ta có thể hào hứng với những khả năng mà thuật toán mang lại cho chúng ta và sử dụng chúng để tạo ra một thế giới tốt đẹp hơn cho tất cả mọi người.

Nguồn: fs.blog

Nếu bạn đang trăn trở hoặc mong muốn có được phẩm chất sáng tạo, mời bạn đăng ký ngay khóa học PHƯƠNG PHÁP LUẬN SÁNG TẠO và ĐỔI MỚI tại Trung tâm Sáng tạo Khoa học–kỹ thuật (TSK) thuộc trường Khoa Học Tự Nhiên nhé. Đây là môn học bổ ích cho mọi đối tượng, mọi ngành nghề có thể áp dụng, phát triển khả năng ứng phó và đưa ra các giải pháp thông minh cho công việ, cuộc sống. Bạn có thể điền thông tin tại đây hoặc liên hệ số điện thoại: (028) 38 301 743; 089 668 36 31 để thực hiện đăng ký.

Để luyện TÂM sáng TRÍ, cải thiện tư duy, thân mời bạn tham dự Khóa học ngắn hạn Nhìn Thấu – Nghĩ Thông – Hành Động Sáng Suốt thuộc chuỗi LEARNING TO BE được tổ chức thường xuyên khi đủ học viên, nội dung khóa học và link đăng ký vui lòng xem tại: https://bit.ly/2EEL2xK.

TRIZGyrus TEAM