Kategorie
AI dataset

Bielik wylądował!

Niektórzy mówili, że to niemożliwe albo z ironią  życzyli nam powodzenia. Wiele osób jednak kibicowało temu przedsięwzięciu i po nieco ponad roku pomysłodawca pierwszego polskiego i otwartego projektu open-source/open-science może patrzeć z dumą na efekty i dziękować wszystkim za początkową dawkę motywacji. Bez budżetu, rozdmuchanego marketingu czy sponsorów, za to z wielkimi ambicjami, poświęceniem wolnego czasu, często też kosztem snu czy innych prywatnych aktywności. Polski zespół entuzjastów z projektu SpeakLeash aka Spichlerz właśnie opublikował swój pierwszy duży model językowy o nazwie Bielik-7B-v0.1. Czy sprawi, że odlecimy z zachwytu czy jednak czeka ich lot Ikara?

Zdjęcie: część zespołu SpeakLeash z pracownikami AGH Cyfronet przy superkomputerze Helios (źródło własne SpeakLeash)

SpeakLeash to inicjatywa open-science, która zaczęła działać ponad półtora roku temu, stawiając sobie za cel stworzenie największego polskiego zbioru danych tekstowych oraz opracowanie otwartego dużego modelu językowego (ang. large language model, w skrócie LLM). W skład zespołu projektowego wchodzą przede wszystkim pracownicy polskich przedsiębiorstw, badacze z ośrodków naukowych oraz studenci kierunków związanych z obszarami sztucznej inteligencji. Zaangażowanie członków projektu, którzy poświęcają swój prywatny czas i umiejętności pro bono służy nie tylko realizacji wspomnianego zadania, lecz także tworzeniu społeczności oraz – przede wszystkim – rozwojowi ekosystemu służącego budowie zaawansowanych modeli językowych (a wkrótce może również multimodalnych, czyli analizujących więcej niż jedno źródło informacji, np.: tekst i zdjęcia).

Rok 2024 dla SpeakLeash zaczął się spektakularnie, bo w styczniu ogłosili zebranie 1 TB danych, a więc udało im się już osiągnąć główny cel projektu. Co ważne, zebrane dane są opisane i przygotowane pod kątem AI ACT – nowej dyrektywy unijnej regulującej sprawy związane z uczeniem maszynowym, sztuczną inteligencją oraz użyciem danych do treningu modeli. Tym samym SpeakLeash stał się największym, najlepiej opisanym i udokumentowanym zbiorem danych w języku polskim.

Niemalże równocześnie pojawił się model APT3-1B-Base oraz APT3-1B-Instruct, który został w większości wytrenowany na danych pochodzących z zasobów Spichlerza. Model wytrenowany został na konsumenckiej karcie graficznej, przez co trening trwał prawie półtora miesiąca (dokładnie były to 44 dni ciągłego przetwarzania 285 GB danych treningowych). Pomimo relatywnie niewielkiego rozmiaru modelu (1B, czyli 1 miliard parametrów), potrafi on odpowiadać w języku polskim, ale członkowie projektu mieli większe ambicje.

SpeakLeash był znany już wcześniej w środowisku, ponieważ współpracował z ośrodkami naukowymi zajmującymi się przetwarzaniem języka naturalnego, takimi jak Clarin, PAN IPI czy też NASK PIB. Jednak zebranie tak dużej liczby danych oraz wytrenowanie modelu APT3-1B pokazało determinację tej grupy  badaczy i entuzjastów. Jednocześnie wysłali jasny sygnał, że mają chęć na więcej i nie jest to ich ostatnie słowo w kontekście dużych modeli językowych.

Kamieniem milowym okazało się rozpoczęcie ścisłej współpracy SpeakLeash – Akademickie Centrum Komputerowe Cyfronet AGH. Cyfronet jest polskim centrum superkomputerowym i ostatnim brakującym elementem w układance. Jako pierwszy komercyjny odbiorca na świecie najnowszych akceleratorów graficznych (ang. GPU) GH200 produkcji NVidii są w stanie zaproponować niespotykaną na polskiej ziemi moc obliczeniową szacowaną na 35 petaflopów. Superkomputery Athena oraz Helios, notowane na liście TOP500, od ponad miesiąca wspomagają Spichlerz w tworzeniu, eksperymentowaniu oraz testowaniu LLM-ów.

Linki:

Przestrzeń SpeakLeash na HF (m.in. wersje skwantyzowane): https://huggingface.co/speakleash

Autorstwa Karl Adami – Praca własna, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=63407583