Od ostatniej aktualizacji, którą chwaliliśmy się 6 września, dataset tekstów w języku polskim nad którym pracuje Spichlerz znacznie się rozrósł. Obecnie baza tekstów osiągnęła imponujący rozmiar 833.36 GB, co oznacza wzrost o ponad 470 GB w ciągu zaledwie 3.5 miesiąca.
Najważniejsze zmiany obejmują:
- Wzrost bazy tekstów: Rozmiar Spichlerzowego datasetu wzrósł z 370 GB na imponujące 833.36 GB. To znaczące zwiększenie ilości zgromadzonych danych świadczy o intensyfikacji działań projektu w obszarze zbierania i analizy polskich tekstów.
- Przebicie wielkości datasetu The Pile: Speakleash przebił pod względem rozmiaru datasetu znany projekt The Pile, potwierdzając pozycję projektu jako jednego z największych źródeł danych tekstowych na świecie i z pewnością największego dla języka polskiego.
- Nowe dane z forów internetowych: Do naszej bazy dodanych zostało ponad 100 GB treści pochodzących głównie z różnych forów internetowych.
- Dane z datasetu CulturaX: wprowadziliśmy nowe dane z datasetu CulturaX, które zostały poddane szczegółowej analizie metrykami Speakleasha. Dodatkowo, dane zostały precyzyjnie skategoryzowane, co zwiększa ich użyteczność i wartość analityczną.
Zebranie 370GB w tak krótkim czasie świadczy o niesamowitym zaangażowaniu i wysokim tempie pracy osób wspierających rozwój projektu. Nie zamierzamy się zatrzymywać!
Jeżeli chcesz pomóc w osiągnięciu naszego podstawowego celu czyli zebrania 1TB polskich danych tekstowych to zapraszamy do współpracy!