Using
artificial intelligence and open data for innovation and
accountability
2017-12-20
by Olivier
Thereaux
Bài
được đưa lên Internet ngày: 20/12/2017
Phù
hợp với chiến
lược công nghiệp mới và ngân sách của Vương quốc
Anh, cũng như sự tham gia gần đây của ODI trong phiên bằng
chứng của Hạ viện xung quanh cách AI
và dữ liệu cá nhân cần phải được sở hữu, quản
lý, định giá và sử dụng vì lợi ích của xã hội,
Giám đốc Công nghệ của ODI Olivier Thereaux xem xét công
việc của chúng ta trong lĩnh vực này.
Hình
ảnh: Ford
ở Cologne của GillyBerlin,
(CC By
2.0)
Trí
tuệ nhân tạo - AI (Artificial Intelligence) hiện đang hưởng
sự phục hưng trong nền công nghiệp và khả năng sáng
tạo phổ biến, và trong ngân sách chính phủ Vương
quốc Anh gần
đây nhất. Sự
phổ biến của AI có thể một phần được giải thích
bằng sự việc là,
lần đầu tiên, chúng ta có đủ dữ liệu phạm vi rộng
để huấn luyện các hệ thống AI.
Có các tập
hợp dữ liệu của
nhà nước
dành cho
sự
nhìn của máy tính, ngôn ngữ tự nhiên, năng lực nói
và nhiều tập
hợp dữ liệu không
của nhà nước trong các doanh nghiệp và chính phủ. Những
cải tiến gần đây về phần cứng cũng làm cho nó có
hiệu quả hơn về chi phí để huấn luyện và chạy các
mô hình máy học.
Sự
phục hưng này vừa khích lệ vừa đáng lo ngại. AI đang
được sử dụng rồi để tiết kiệm thời gian, tiền
bạc, và thậm chí mạng sống (với các bác sỹ sử dụng
nó để giúp chuẩn
đoán ý học). Mặt khác, sự cường điệu này có thể
nuôi dưỡng tiềm năng Ai sẽ bị sử dụng sai, và gây ra
các độc quyền bóp nghẹt sự cách tân.
Ngân
sách gần đây của chính phủ Vương
quốc Anh gồm khoản đầu tư 75 triệu £
vào cả phát triển Ai và quản lý các thách thức xung
quanh nó. Khoản đầu tư này sẽ thiết lập Trung tâm mới
về Đạo đức Dữ liệu và Cách tân để hỗ trợ cách
tân an toàn và có đạo đức với AI, và tạo thuận lợi
cho truy cập dữ
liệu thông
qua ‘sự tin cậy của dữ liệu’. Các sáng kiến tương
tự đang được triển khai ở các quốc gia khác, bao gồm
cả Úc,
Pháp,
Trung
Quốc và Mỹ.
Ở
ODI, chúng tôi tin tưởng rằng việc nuôi dưỡng cách tân
AI đòi hỏi một tiếp cận mở gồm dữ
liệu mở,
mã nguồn mở và văn
hóa mở.
Điều này là cơ bản vì các thuật toán trong các hệ
thống máy học và tự động hóa cần số lượng lớn dữ
liệu chất lượng cao để thực hiện tốt. Chúng
tôi phải tập trung vào việc làm cho dữ liệu sẵn sàng
mở ở bất cứ đâu có thể, và ở các định dạng máy
đọc được. Việc gia tăng truy cập tới dữ liệu
là chìa khóa để tạo ra thị trường AI có
tính cạnh tranh
và công bằng, nơi mà sự cách tân có thể nở rộ, như
Giám đốc về Chính sách của chúng tôi, Peter Wells, đã
viết đầu năm nay.
Hiện
hành, hầu hết các cách tân hướng Ai đều dựa vào mô
hình kinh doanh nơi mà dữ liệu huấn luyện được coi là
sở
hữu trí tuệ được bảo
vệ, và các hệ thống Ai thường được cung cấp như
'các
hộp đen'
bí hiểm không có sự hiểu biết về cách làm việc của
chúng bên trong. Đây là vấn đề: tính thuần nhất của
mô hình kinh doanh như vậy có thể có hiệu ứng ớn lạnh
lên sự cách tân và cản trở sự phát triển của lĩnh
vực AI.
Như
Peter nói trong bài
viết trên blog của ông:
Điều
này
mang trong mình rủi ro rằng lĩnh vực mới thú vị này sẽ
được các nền tảng số lớn áp đảo, những người
hiện áp đảo Internet.
Điều này sẽ làm giảm sự cạnh tranh và cách tân. Nó
sẽ làm giảm sự đa dạng của các vấn đề theo đo các
giải pháp Ai được áp dụng. Nó sẽ bóp nghẹt năng
lượng và những ý tưởng mới mà các công ty khởi
nghiệp và các doanh nghiệp vừa và nhỏ (SME) mang lại. Nó
sẽ làm giảm kích cỡ tổng thể của thị trường AI và
những lợi ích mà AI có thể mang lại cho tất cả chúng
ta.
Truy cập tốt hơn
tới dữ liệu sẽ tối đa hóa sử dụng và giá trị của
nó; tuy nhiên, chúng ta cũng phải triển khai các kiểm soát
để bảo vệ tính riêng tư, các lợi ích và an toàn của
mọi người, các tổ chức và các quốc gia.
Lo ngại khác là
khả năng AI có thể bị sử dụng sai khi ra các quyết
định ảnh hưởng tới cuộc sống của con người. Hầu
hết các hệ thống AI đều không chịu sự xét hỏi;
thậm chí với sự truy cập tới mã nguồn các thuật toán
máy học và khả năng kiểm tra kiến trúc và sức nặng
của mạng thần kinh, hầu như không có khả năng xác định
cách thức mạng thần kinh dò tìm các mẫu hoặc đi với
bất kỳ dạng quyết định hay kết quả nào để hiểu
bất kỳ khuynh hướng nào có thể tồn tại, ảnh hưởng
của nó lên các nhóm người khác nhau, và cách nó có thể
được giảm nhẹ. Trong khi có những
nỗ lực thú vị để thiết kế các hệ thống AI có
khả năng “giải thích” sự làm việc bên trong của
chúng - theo cách y hệt như con người có khả năng giải
thích các quyết định của mình mà không cần tri thức
đầy đủ của các quy trình của bộ não - các nỗ lực
đó sẽ mất nhiều năm để kết luận, nếu
có. Luật pháo mới như GDPR
và Dự luật Bảo vệ Dữ liệu của Vương
quốc Anh đề
xuất có thể giúp bằng việc thúc đẩy “quyền
phải giải thích” mạnh hơn. Tuy nhiên, cho tới nay
ảnh hưởng của chúng lên vấn đề này vẫn
còn rất hạn chế.
Chìa
khóa về sự làm việc bên trong của AI nằm trong dữ liệu
huấn luyện, nó gồm hầu hết các khuynh hướng được/bị
mã hóa. Khuynh hướng gồm cái gì (và cái gì không gồm)
đang được chuyển thành các
hệ thống nhận diện hình ảnh người phân biệt chủng
tộc, cũng như - ngụ ý các kỹ sư mã hóa dữ liệu
lịch sử và hiện nay trong các thuật toán bí hiểm tạo
ra tình trạng ban đầu không thể nghi ngờ, phản ánh các
nền kinh tế và các xã hội hiện hành của chúng ta. Tỷ
lệ tội phạm cao trong mã bưu điện được đưa ra có
thể chấm dứt việc kết tội mọi người, những ai sống
ở đó với chuỗi bất tận các chối bỏ tự động - cả
sự hiểu sai quá đáng các số
liệu thống kê, và trường hợp gây sợ hãi khi
“máy
tính nới không”.
Đây
là những gì nhà công nghệ học Maciej Ceglowski gọi là
“việc rửa
tiền vì khuynh hướng”: rủi ro niềm tin mù quáng vào
sự ưu việt và hiệu quả của AI sẽ chấm dứt việc
kết tinh dữ liệu về quá khứ và hiện tại vào sự
không công bằng có hệ thống trong tương lai theo cách các
ngụy biện trắng trợn.
Điều
này không phải là kịch bản giả định: vài phòng cảnh
sát của Mỹ từng nhiệt tình về các hệ thống AI hứa
dò tìm ra tội phạm hoặc kết
án có hiệu quả hơn. Không thiết kế cẩn thận điều
này có thể dẫn tới áp dụng các hệ thống có lỗi,
thường không hiệu quả và đôi khi không công bằng.
Vì
thế, làm thế nào chúng ta có thể nắm bắt được những
lợi ích của AI trong khi giảm nhẹ được các rủi ro?
Chúng tôi có 2 gợi ý:
1.
Truy
cập tốt hơn tới dữ liệu sẽ mở khóa tiềm năng
của các hệ thống máy học đói dữ liệu, còn là cách
để đảm bảo rằng các hệ thống chúng ta tạo ra là an
toàn.
Chúng
tôi muốn khuyến khích chính phủ và rà
soát lại để tham
gia với cộng đồng AI để xác định các lĩnh vực hữu
dụng để phát triển dịch vụ; nhận diện nơi nào truy
cập tới các tập
hợp dữ liệu công hoặc tư có thể giúp tạo ra
thị trường Ai công bằng và hợp lý và đưa ra những
khuyến khích để giúp các tổ chức xuất bản dữ liệu.
Dữ liệu này có thể được xuất bản mở sao cho bất
kỳ ai cũng có thể sử dụng nó, hoặc được chia sẻ
theo các điều kiện có kiểm soát để quản lý các rủi
ro thương mại và riêng tư.
Sự rà soát lại
gần đây của chính phủ Vương
quốc Anh về “Phát triển công nghiệp AI ở Vương
quốc Anh” đã động chạm tới câu hỏi này với
ý tưởng “sự tin tưởng của dữ liệu”. Ý tưởng
này cần phải được khai thác và chúng tôi sẽ làm việc
về nó vào năm sau. Trong khi chờ đợi,
có quá nhiều điều có thể phải làm để đảm bảo
rằng dữ liệu được khu vực tư nhân nắm giữ là sẵn
sàng một cách an toàn và công bằng.
Điều này giải
thích vì sao chúng tôi gần đây đã bắt đầu tiến hành
nghiên cứu về các mô hình kinh doanh của AI. Nghiên cứu
này sẽ khai thác liệu “mô hình hộp đen” có phải là
cách tốt nhất để xây dựng dịch vụ AI hay không, và
liệu có các lựa chọn thay thế có thể sống được nào
mà tương thích hơn với các hy vọng của chúng tôi vì
một tương lai “càng
mở có thể càng tốt” hay không.
2.
Chúng tôi muốn tạo ra một nền kinh tế dữ liệu nơi mà
các quyền và trách nhiệm được phân bổ công bằng, và
nơi mà kiểm soát nhiều hơn việc sử dụng và chia sẻ
dữ liệu
được đưa ra
cho cá nhân.
Điều
này là
đặc biệt quan trọng để nuôi dưỡng và sử dụng AI:
các thuật toán đó thường có xu hướng sử dụng dữ
liệu cá nhân như là các tập hợp huấn luyện. Khả năng
của các thuật toán AI nắm bắt các mẫu cũng làm cho
chúng rất hiệu quả trong việc tái nhận diện dữ liệu
cá nhân trong các tập
hợp dữ liệu “được nặc danh hóa”, gây ra
những lo ngại đáng kể về tính riêng tư của các cá
nhân và nhóm người.
Với điều này
trong đầu, và việc xây dựng dựa vào công việc hiện
hành của chúng tôi về các giao diện lập trình ứng dụng
(API) dữ liệu cá nhân trong các lĩnh vực như
ngân hàng và
bán
lẻ, chúng tôi bây giờ cộng tác với các dự án IF
(Projects by IF) để hiểu
dạng các mẫu thiết kế nào có thể xúc tác cho sự truy
cập an toàn và hiệu quả tới các dữ liệu cá nhân
trong lĩnh vực tiện ích. Chúng tôi cũng lên kế hoạch
tập trung vào một số hoạt động nghiên
cứu và phát triển trong tương lai về
sự Tin cậy của Dữ liệu (Data Trusts) và về các chủ đề
nặc danh hóa quan trọng, bỏ nhận diện (de-identification)
và tái nhận diện (re-identification) các tập
hợp dữ liệu. Điều này sẽ giúp cho các tổ chức
cả khu vực tư nhân và nhà nước làm cho dữ liệu tái
nhận diện và dữ liệu cá nhân tiềm tàng truy cập được
nhiều hơn theo cách thức bảo vệ được tính riêng tư
trong khi tạo ra được thị trường công bằng.
Tương
lai của AI còn chưa được xác định trước: nó phụ
thuộc vào chúng ta để tạo ra và định hình tương lai
chúng ta muốn. Chúng tôi hy vọng các nỗ lực của chúng
tôi sẽ giúp tạo ra tương lai càng mở càng tốt và có
lợi cho tất cả mọi người.
Nếu
bạn có các ý tưởng hoặc kinh nghiệm về dữ
liệu mở mà
bạn muốn chia sẻ, hãy gửi
thư điện tử cho chúng tôi hoặc tweet cho chúng tôi
tại @ODIHQ.
In
the light of the UK’s new industrial
strategy and budget, as well as the ODI’s recent participation
in a House of Lords evidence session around how AI
and personal data should be owned, managed, valued and used for the
benefit of society, the ODI’s Head of Technology Olivier
Thereaux examines our work in this area.
Image:
Ford
in Cologne by GillyBerlin,
(CC By
2.0)
Artificial
intelligence (AI) is currently enjoying a renaissance in industry and
popular imagination, and in the most recent UK government budget.
AI’s popularity can be partly explained by the fact that, for the
first time, we have enough large-scale data for training AI systems.
There are public datasets for computer
vision, natural language, speech and many more non-public
datasets within businesses and governments. Recent
improvements in hardware are also making it more cost-effective
to train and run machine-learning models.
This
renaissance is both exciting and worrying. AI is already being used
to save time, money, and even lives (with doctors using it to help
medical
diagnosis). On the other hand, this hype may fuel the potential
for AI to be misused, and result in monopolies that stifle
innovation.
The
UK government’s recent budget included a £75 million investment in
both developing AI and managing the challenges around it. This
investment will establish a new Centre for Data Ethics and Innovation
to support safe and ethical innovation with AI, and facilitate data
access through ‘data trusts’. Similar initiatives are being
implemented in other countries, including Australia,
France,
China
and the United
States.
At
the ODI, we believe that fostering AI innovation requires an open
approach that includes open
data, open source code and open
culture. This is essential because algorithms in autonomous and
machine learning systems need large quantities of high-quality data
to perform well. We must focus on making data openly available where
possible, and in formats that are machine-readable. Increasing access
to data is key to creating a competitive and equitable AI market,
where innovation can flourish, as our Head of Policy Peter Wells
wrote
earlier this year.
Currently,
most AI-centred innovation is based on a business model where
training data is considered protected Intellectual Property, and AI
systems are generally provided as inscrutable 'black
boxes' with no knowledge of their internal workings. This is
problematic: such business model homogeneity can have a chilling
effect on innovation and stall a thriving AI sector.
As
Peter says in his blog
post:
This
brings with it the risk that this exciting new sector will be
dominated by the large digital platforms who currently dominate the
internet. This will reduce competition and innovation. It will reduce
the diversity of the problems to which AI solutions are applied. It
will stifle the energy and fresh ideas that startups and SMEs bring.
It will reduce the overall size of the AI market and the benefits
that AI could bring to all of us.
Better
access to data maximises its use and value; however, we must also
implement controls that protect the privacy, interests and security
of people, organisations and states.
Another
concern is the possibility that AI could be misused when making
decisions that affect people’s lives. Most
AI systems are impervious to inquiry; even with access to the
source code of a machine learning algorithm and the ability to audit
the architecture and weights of a neural network, it is almost
impossible to determine how that neural network detects patterns or
comes to any kind of decision or result to understand any bias that
may exist, the impact of it on different groups of people, and how it
could be mitigated. While there are interesting
efforts to design AI systems that are able to "explain"
their inner working – in the same way as humans are able to explain
their decisions without full knowledge of the brain’s processes –
these efforts will take years to conclude, if
ever. New legislation such as the GDPR
and the proposed UK Data Protection Bill may help by pushing for a
stronger “right
to explanation”. However, for now their impact on this issue
will remain
limited.
The
key to the AI's inner-working resides in the training data, which
contains most of the encoded bias. The bias in what is included (and
what is not) is being translated into racist
image recognition systems, as well-meaning engineers encode
historic and current data into inscrutable algorithms that create an
unquestionable status quo that reflects our current economies and
societies. High crime rate in a given post code may end up condemning
people who live there to an endless string of automated rejections -
both a egregious misunderstanding of statistics, and a terrifying
case of “computer
says no”.
This
is what technologist Maciej Ceglowski calls “money
laundering for bias”: the risk that blind faith in the
superiority and efficiency of AI will end up crystallising data about
the past and the present into future systemic unfairness by way of
blatant logical fallacies.
This
is not a hypothetical scenario: some US police departments have been
enthusiastic about AI systems that promise crime detection or more
efficient sentencing. Without careful design this can lead to the
adoption of flawed, often ineffective and sometimes unfair systems.
1.
Better
access to data will unlock the potential of data-hungry machine
learning systems, but is also a way to ensure that the systems we
create are safe.
It
is important that this focus on opening data is not just limited to
government and scientific research data. At the ODI, we have been
ramping up our efforts to make data held by the private sector more
broadly available, making it as open as possible while protecting
people’s privacy, commercial confidentiality and national security.
As
we wrote in our joint
response to the UK Government’s green paper on industrial
strategy earlier this year:
We
would encourage government and the review to engage with the AI
community to determine useful areas for service development; identify
where access to public or private datasets can help to create a fair
and equitable AI market and provide incentives to help organisations
publish the data. This data might be published openly so that anyone
can use it, or shared under controlled conditions to manage
commercial and privacy risks.
The
recent review for the UK government on "Growing the artificial
intelligence industry in the UK" touched upon this question with
the idea of "data trusts". This idea needs to be explored
and we will be working on that next year. In the meantime, there is
so much more that can be done to ensure that data held by the private
sector is safely and equitably available.
This
is why we have recently started to conduct research on AI business
models. This research will explore whether the "black-box model"
is the best way to build an AI service, and whether there are viable
alternatives which are more compatible with our hopes for an "as
open as possible" future.
2.
We want to create a data economy where rights and responsibilities
are adequately distributed, and where more control over the usage and
sharing of data is given to the individual.
This
is particularly important for fueling the uptake of AI: these
algorithms often tend to use personal data as training sets. The
ability of AI algorithms to spot patterns also makes them very
effective at re-identifying personal data in “anonymised” data
sets, causing significant concerns about individual and group
privacy.
With
this in mind, and building on our existing work on personal data APIs
in sectors like banking
and retail,
we are now collaborating with Projects
by IF to understand what kind of design patterns could enable
safe and effective access to personal data in the utility sector. We
also plan to focus some of our upcoming research and development
activities on Data Trusts and on the important topics of
anonymisation, de-identification and re-identification of data sets.
This will help both public and private sector organisations make
potentially personal and re-identifiable data more accessible in a
way that protects privacy while creating a fair market.
The
future for AI is not pre-determined: it is up to us to create and
shape the future we want. We hope our efforts will help create a
future which is as open as possible and benefits everyone.
If
you have ideas or experience in open data that you'd like to share,
pitch us a blog or tweet
us at @ODIHQ.
Dịch:
Lê Trung Nghĩa