Kategorie
AI dataset dataset tekstów w języku polskim

Spichlerzowy dataset tekstów w języku polskim powiększył się o ponad 470 GB w 3.5 miesiąca!

Od ostatniej aktualizacji, którą chwaliliśmy się 6 września, dataset tekstów w języku polskim nad którym pracuje Spichlerz znacznie się rozrósł. Obecnie baza tekstów osiągnęła imponujący rozmiar 833.36 GB, co oznacza wzrost o ponad 470 GB w ciągu zaledwie 3.5 miesiąca.

Najważniejsze zmiany obejmują:

  1. Wzrost bazy tekstów: Rozmiar Spichlerzowego datasetu wzrósł z 370 GB na imponujące 833.36 GB. To znaczące zwiększenie ilości zgromadzonych danych świadczy o intensyfikacji działań projektu w obszarze zbierania i analizy polskich tekstów.
  2. Przebicie wielkości datasetu The Pile: Speakleash przebił pod względem rozmiaru datasetu znany projekt The Pile, potwierdzając pozycję projektu jako jednego z największych źródeł danych tekstowych na świecie i z pewnością największego dla języka polskiego.
  3. Nowe dane z forów internetowych: Do naszej bazy dodanych zostało ponad 100 GB treści pochodzących głównie z różnych forów internetowych.
  4. Dane z datasetu CulturaX: wprowadziliśmy nowe dane z datasetu CulturaX, które zostały poddane szczegółowej analizie metrykami Speakleasha. Dodatkowo, dane zostały precyzyjnie skategoryzowane, co zwiększa ich użyteczność i wartość analityczną.

Zebranie 370GB w tak krótkim czasie świadczy o niesamowitym zaangażowaniu i wysokim tempie pracy osób wspierających rozwój projektu. Nie zamierzamy się zatrzymywać!

Jeżeli chcesz pomóc w osiągnięciu naszego podstawowego celu czyli zebrania 1TB polskich danych tekstowych to zapraszamy do współpracy! 

Kategorie
AI dataset

Ponad 370GB danych w Spichlerzu!

Od czasu ostatniej aktualizacji Spichlerzowego datasetu, zasoby tekstowe powiększyły się o kolejne 25 GB i tym samym przekroczyliśmy granicę 370 GB zgromadzonych danych.

Najnowsze informacje pochodzą z różnych źródeł internetowych, obejmujących szeroki zakres kategorii, od turystyki po informacje dotyczące gier komputerowych i usług internetowych. Dodatkowo, systematycznie uzupełniamy naszą bazę o treści pochodzące z różnych forów internetowych.

Trwają także końcowe prace nad nową wersją projektowego dashboardu prezentującego dane na temat datasetu. Nowa wersja będzie znacznie ulepszona pod kątem możliwości filtracji danych, wyglądu i wydajności. Stay tuned!