Mozilla wspiera pięć projektów tworzących elementy składowe lepszego ekosystemu danych

Data Futures Lab wita laureatów 2024 Infrastructure Fund

(ŚRODA, 13 MARCA 2024 r.) – Dziś Mozilla ogłasza laureatów 2024 Data Futures Lab Infrastructure Fund: pięć ambitnych projektów tworzących narzędzia, które zajmują się kwestiami przejrzystości, prywatności, stronniczości i sprawczości w cyklu życia danych.

Każdy z tych projektów otrzyma do 50 000 USD oraz wsparcie i dostęp do szkoleń od pracowników i współpracowników Mozilli. Mozilla opublikowała otwarte zaproszenie do składania wniosków o nagrody w lipcu 2023 r. i otrzymała ponad 250 wniosków z 54 krajów.

Jako przestrzeń eksperymentalna dla twórców pracujących nad bardziej sprawiedliwą ekonomią danych, Data Futures Lab jest idealnym miejscem dla tych projektów do budowania i udostępniania narzędzi i metod, które mogą być wykorzystywane przez deweloperów. Wszystkie projekty udostępnią swój kod w publicznym repozytorium.

Lisa Gutermuth, specjalistka ds. programu w Data Futures Lab, mówi: „Tegoroczna kohorta Infrastructure Fund oferuje eklektyczną mieszankę wiedzy specjalistycznej – tego właśnie potrzebujemy, aby zmienić ekosystem danych w nowym, lepszym kierunku. Mozilla finansuje naukowców i przedsiębiorców, programistów i aktywistów oraz społeczności pracujące nad danymi głosowymi, tekstowymi i syntetycznymi, przyczyniając się do rozwijania godnej zaufania sztucznej inteligencji”.

Projekty te dołączą do istniejącej sieci laureatów i współpracowników Mozilli dążących do bardziej sprawiedliwego ekosystemu danych – takich jak wyróżnione przez Mozilla Technology Fund rozwiązanie Evaluation Harness, narzędzie open-source do oceny dużych modeli językowych, oraz absolwentka programu Trustworthy AI Bogdana Rakova, która bada wykorzystanie kontraktów obliczeniowych, aby zapewniać nowe tryby interakcji między ludźmi i firmami z branży technologii konsumenckich.

Tegoroczna kohorta Infrastructure Fund oferuje eklektyczną mieszankę wiedzy specjalistycznej – tego właśnie potrzebujemy, aby zmienić ekosystem danych w nowym, lepszym kierunku.

Lisa Gutermuth, specjalistka ds. programu, Data Futures Lab

Dowiedz się więcej o projektach:

Data Provenance Initiative: mapowanie pochodzenia popularnych zestawów danych

USA

Najnowsze osiągnięcia w modelowaniu języka są wspierane przez duże zbiory danych w języku naturalnym. Wywołało to wyścig zbrojeń w celu trenowania modeli na różnych zbiorach niepoprawnie, niejednoznacznie lub niedostatecznie udokumentowanych danych, co sprawiło, że praktycy stracili pewność dotyczącą ryzyka etycznego i prawnego. Aby temu zaradzić, w ramach inicjatywy Data Provenance Initiative stworzono mapowanie ponad 2000 popularnych, dostrojonych zestawów danych, począwszy od ich źródła do miejsca tworzenia, katalogując źródła, licencje, twórców i inne metadane, które badacze i programiści mogą przeglądać za pomocą tego narzędzia. Celem tej pracy jest poprawa przejrzystości, dokumentacja i świadome wykorzystanie zbiorów danych w sztucznej inteligencji.

Zobacz ich nagranie z prezentacji w ramach DFL Speaker Series w styczniu 2024 roku.

Imperial College London: Identyfikacja ryzyka w zakresie prywatności w syntetycznych danych generowanych przez sztuczną inteligencję

Wielka Brytania

Computational Privacy Group w Imperial College London wykorzysta swoje wstępne badania dotyczące wykrywania ryzyka związanego z prywatnością w syntetycznych zbiorach danych generowanych przez sztuczną inteligencję i opublikuje zestaw narzędzi open-source, który umożliwi twórcom ocenę ryzyka związanego z prywatnością syntetycznych danych generowanych przez sztuczną inteligencję przed ich opublikowaniem. Inicjatywa została zatytułowana: „Leaving no one behind: a tool to flag privacy risk in AI generated synthetic data”.

Fundación Vía Libre: Wykrywanie zachowań dyskryminacyjnych w SI

Argentyna

Fundación Vía Libre wykorzysta istniejący zestaw narzędzi, EDIA (hiszpański skrót od „Stereotypy i dyskryminacja w sztucznej inteligencji”), który sprawdza podstawowe elementy technologii automatycznego przetwarzania języka w celu wykrywania i charakteryzowania zachowań dyskryminacyjnych. W szczególności będą wykorzystywane metod skoncentrowane na społeczności, aby zbudować zestaw danych językowych, który reprezentuje stereotypy w Argentynie; opublikowane zostaną biblioteki programistyczne w celu zintegrowania zestawu danych w procesach audytu dla instytucji publicznych i prywatnych, które używają modeli językowych; oraz nastąpi publikacja ustrukturyzowanych treści i materiałów dydaktycznych, aby inni mogli powielać swoje metody dla innych języków i kontekstów.

Zobacz ich nagranie z prezentacji podczas DFL Community Call w lipcu 2023 roku

Data Science Law Lab: Projektowanie bardziej odpowiedzialnej licencji na dane

Republika Południowej Afryki

Data Science Law Lab z Uniwersytetu w Pretorii przeprowadzi badania, które rozwiążą problemy związane z korzystaniem z licencji Creative Commons w określonych kontekstach (takich jak wzmacnianie praktyk wydobywczych i kolonializm cyfrowy) i stworzy prototyp nowej licencji na dane na podstawie dokonanych odkryć.

Zapisz się na ich wykład w ramach seriiDFL Speaker Series, która trwa przez pierwszą połowę 2024 roku i bada uczciwe użytkowanie i przejrzystość w generatywnym ekosystemie danych SI.

FLAIR Initiative (First Languages AI Reality): Tworzenie zestawu danych zorientowanego na społeczność

USA (społeczności rdzenne)

FLAIR będzie współpracować ze społecznością posługującą się rdzennym językiem przy użyciu swojego oprogramowania i metodologii, aby zebrać niezbędne dane korpusowe w celu opracowania automatycznego rozpoznawania mowy (ASR) dla języka społeczności, przy jednoczesnym zminimalizowaniu obciążenia obecnych użytkowników języka. Biorąc pod uwagę ograniczenie zarówno dostępności danych w języku rdzennym, jak i liczby osób, które się nim posługują, zastosują metodę, która wykorzystuje minimalne nakłady (około 500 fraz) jako bodźce. Opublikowany zostanie kod źródłowy i podręcznik metodologii, który będzie miał na celu zapewnianie innym społecznościom posługującym się rdzennymi językami możliwości szybszej i skuteczniejszej rewitalizacji ich języków, przy użyciu własnych danych i na własnych warunkach.

Kontakt dla prasy: Kevin Zawacki | [email protected]