Kategorie
AI dataset

PODSUMOWANIE ROKU 2023

Dziś przychodzimy do Was z podsumowaniem roku działalności projektu Speakleash. 🚀

Kiedy ruszyliśmy z projektem nasz celu wydawał się bardzo odległy, niektórzy twierdzili, że wręcz niemożliwy. 🎯 Przez ten rok nie tylko sformalizowaliśmy naszą organizację jako fundację, ale przede wszystkim udało nam się zebrać aż 837,45 GBdanych, znaczy to, że jesteśmy już bardzo blisko docelowego 1TB! 💪 Warto zaznaczyć, że tworzymy w tym momencie największy na świecie (lub jeden z największych) zestawów danych tekstowych w jednym języku rozwijany w modelu open-science. Dodatkowo stawiamy nie tylko na ilość danych, ale też na ich jakość. Wszystkie zebrane przez nas dane są szczegółowo kategoryzowane i oceniane pod względem jakości, postępy naszych prac śledzić możecie na bieżąco na naszym dashboardzie. 🌐

Działalność Spichlerza to nie tylko zbieranie danych, ale też dzielenie się wiedzą i inspirowanie. 💡 W tym roku mieliśmy przyjemność wziąć udział w wielu konferencjach m.in. Data Science Summit oraz Data Science Summit Machine Learning Edition, dwóch edycjach Pytech Summit, konferencji jubileuszowej CLARIN-PL “Dziesięć lat otwartej infrastruktury naukowej CLARIN w Polsce” oraz Deviniti JIRA DAY Night Talk. 📣 Byliśmy partnerami wydarzeń takich jak ML in PL czy Hack To The Rescue. Gościliśmy w podcaście Nieliniowy Michal Dulemba, warto zaznaczyć, że odcinek z naszym udziałem określony został przez Crossweb.pl najpopularniejszym odcinkiem podcastu minionego roku. 🎙

Ten rok był bardzo ważny dla rozwoju AI w Polsce i rozpoczęcia prac nad PLLuM (Polish Large Language Universal Model). Nad tą inicjatywą pracują kluczowe jednostki zajmujące się AI w Polsce. Jesteśmy bardzo ciekawi efektów!

Nic z tego nie byłoby możliwe gdyby nie ciężka praca naszego zespołu, mieszanki kompetencji i charakterów. Do Discorda Speakleash (https://discord.gg/NN99d3Uv) dołączyło już ponad 160 osób i stale pojawiają się kolejne. 👥 Sebastian KondrackiMaria Filipkowska, PhDKrzysztof (Chris) OciepaAdrian GwoździejPaweł KiszczakGrzegorz UrbanowiczSzymon BaczyńskiIgor CiuciuraPawel CyrtaIzabela BabisWaldemar BoszkoAndrzej CyborońJacek Chwiła to tylko mała część naszego zespołu, nie sposób wymienić tutaj wszystkich.

Dziękujemy wszystkim zaangażowanym za waszą pracę i nie możemy się doczekać co przyniesie rok 2024! 🎉

Kategorie
AI dataset dataset tekstów w języku polskim

Spichlerzowy dataset tekstów w języku polskim powiększył się o ponad 470 GB w 3.5 miesiąca!

Od ostatniej aktualizacji, którą chwaliliśmy się 6 września, dataset tekstów w języku polskim nad którym pracuje Spichlerz znacznie się rozrósł. Obecnie baza tekstów osiągnęła imponujący rozmiar 833.36 GB, co oznacza wzrost o ponad 470 GB w ciągu zaledwie 3.5 miesiąca.

Najważniejsze zmiany obejmują:

  1. Wzrost bazy tekstów: Rozmiar Spichlerzowego datasetu wzrósł z 370 GB na imponujące 833.36 GB. To znaczące zwiększenie ilości zgromadzonych danych świadczy o intensyfikacji działań projektu w obszarze zbierania i analizy polskich tekstów.
  2. Przebicie wielkości datasetu The Pile: Speakleash przebił pod względem rozmiaru datasetu znany projekt The Pile, potwierdzając pozycję projektu jako jednego z największych źródeł danych tekstowych na świecie i z pewnością największego dla języka polskiego.
  3. Nowe dane z forów internetowych: Do naszej bazy dodanych zostało ponad 100 GB treści pochodzących głównie z różnych forów internetowych.
  4. Dane z datasetu CulturaX: wprowadziliśmy nowe dane z datasetu CulturaX, które zostały poddane szczegółowej analizie metrykami Speakleasha. Dodatkowo, dane zostały precyzyjnie skategoryzowane, co zwiększa ich użyteczność i wartość analityczną.

Zebranie 370GB w tak krótkim czasie świadczy o niesamowitym zaangażowaniu i wysokim tempie pracy osób wspierających rozwój projektu. Nie zamierzamy się zatrzymywać!

Jeżeli chcesz pomóc w osiągnięciu naszego podstawowego celu czyli zebrania 1TB polskich danych tekstowych to zapraszamy do współpracy! 

Kategorie
AI dataset

Pytech Summit 2023

🚀 Już w ten czwartek (7 grudnia) na Pytech Summit (https://pytechsummit.pl/) będziecie mieli przyjemność posłuchać reprezentacji zespołu Spichlerz, w składzie Szymon Baczyński i Igor Ciuciura. 🎙️

Prelekcja dotyczyć będzie tworzenia pakietu Speakleash jako narzędzia obsługi danych.

Konferencja odbywa się w trybie online. Zarezerwuj swój bilet już dziś! 🎟️

Kategorie
AI dataset

Ponad 370GB danych w Spichlerzu!

Od czasu ostatniej aktualizacji Spichlerzowego datasetu, zasoby tekstowe powiększyły się o kolejne 25 GB i tym samym przekroczyliśmy granicę 370 GB zgromadzonych danych.

Najnowsze informacje pochodzą z różnych źródeł internetowych, obejmujących szeroki zakres kategorii, od turystyki po informacje dotyczące gier komputerowych i usług internetowych. Dodatkowo, systematycznie uzupełniamy naszą bazę o treści pochodzące z różnych forów internetowych.

Trwają także końcowe prace nad nową wersją projektowego dashboardu prezentującego dane na temat datasetu. Nowa wersja będzie znacznie ulepszona pod kątem możliwości filtracji danych, wyglądu i wydajności. Stay tuned!

Kategorie
AI dataset

28GB nowych danych!

Witajcie Speakleashers! 

Chcielibyśmy podzielić się z Wami najnowszymi aktualizacjami dotyczącymi naszych danych treningowych. Od ostatniej aktualizacji udało nam się pozyskać imponujące 28GB nowych danych, które będą miały ogromne znaczenie dla rozwoju naszego modelu. 

Wśród tych danych szczególną uwagę warto zwrócić na rozbudowaną technologię OCR, która umożliwia analizę tekstu zawartego na obrazach. 

Ponadto udało nam się zdobyć znaczną ilość danych z kategorii motoryzacji oraz o tematyce sportowej. To niewątpliwie poszerzy nasze możliwości szkolenia modelu i umożliwi mu lepsze zrozumienie tych dziedzin. 

W ramach tych aktualizacji wprowadziliśmy również nowe metryki oceny jakości poszczególnych tekstów oraz całych paczek danych. Każdy tekst jest teraz oznaczany jako high, med lub low w zależności od jego jakości. To pomoże nam lepiej zrozumieć i selekcjonować wartościowe informacje. 

Dział inżynierii lingwistycznej pod wodzą Maria Filipkowska, PhD Filipkowska działa w pełnym wymiarze czasu i jest niezmiernie zaangażowany w rozwijanie naszych zasobów. Dzięki ich wysiłkom, nasz zespół jest gotowy, by dostarczyć Wam jeszcze lepsze dane treningowe. 

Dziękujemy Wam za cenne uwagi i wsparcie, które pomagają nam w rozwoju Speakleash. Pracujemy ciężko, aby dostarczyć Wam jak najlepsze doświadczenia i informacje. 

Zapraszamy do dalszego korzystania z naszych zasobów i życzymy Wam wspaniałego dnia!

#data #nlp #speakleash #datasets

Kategorie
AI dataset

Nowy odcinek podcastu!

Zapraszamy na premierę najnowszego odcinka podcastu NIELINIOWY na Youtube w którym Michal Dulemba rozmawia z ekipą techniczną naszego projektu: Maria Filipkowska, PhDJacek ChwiłaAdrian GwoździejGrzegorz Urbanowicz i Paweł Kiszczak.
https://lnkd.in/dESakTbb

Rozmowa m.in. na temat:
– ile danych już udało się zebrać
– różnorodności danych tekstowych
– sztucznie generowanych danych tekstowych
– kilometrach danych w archiwach państwowych
– motywacji członków ekipy
– korzyści z przystąpienia do Spichlerza
– różnorodności umiejętności technicznych przydatnych w Spichlerzu
– wpływu Spichlerza na rekrutację
– dumy z pracy nad typowo polskim projektem

Kategorie
AI dataset

Jesteśmy partnerami!

Z wielką dumą pragniemy poinformować, że zostaliśmy oficjalnymi partnerami wyjątkowego hackathonu – Hack to the Rescue!

Hack to the Rescue jest największym na świecie wydarzeniem z dziedziny Generative AI. Jego tegorocznym celem jest wyszukanie najskuteczniejszych rozwiązań, które pomogą organizacjom non-profit w radzeniu sobie z najpilniejszymi wyzwaniami, jakie niesie ze sobą współczesny świat. Jest to wydarzenie online, które odbędzie się 14-15 czerwca.

Pragniemy zaznaczyć, że wśród mentorów tego niezwykłego hackathonu znajdują się Maria Filipkowska oraz Adrian Gwoździej, którzy na co dzień z nami współpracują nad projektem Speakleash! Jest nam niezmiernie miło, że są z nami i swoją postawą motywują do ciągłego rozwoju.

Zapraszamy do zapoznania się ze szczegółami wydarzenia pod linkiem: https://hacktotherescue.org/

Kategorie
AI dataset

Wielki skok do przodu!

Mamy przyjemność poinformować, że nasz projekt Speakleash właśnie doczekał się ważnej aktualizacji danych – teraz dysponujemy aż 320GB materiałów!

W ramach tej aktualizacji dodaliśmy kilka istotnych zmian. Najważniejsza z nich to wprowadzenie nowych metryk oceniających jakość tekstu. Te metryki, teraz będą integralną częścią naszych datasetów, pozwalając na jeszcze precyzyjniejszą analizę i interpretację wyników.

Co więcej, poszerzyliśmy naszą bazę danych o kilka nowych zestawów danych. Wśród nich znajdą się między innymi artykuły sportowe, a także imponująca paczka kilkuset tysięcy plików przetworzonych za pomocą technologii OCR.

Na koniec warto wspomnieć, że kontynuujemy również pracę nad przygotowywaniem datasetów z for internetowych. Wierzymy, że te unikalne i różnorodne źródła danych przyczynią się do jeszcze lepszego zrozumienia i modelowania języka naturalnego.

Dziękujemy za wasze ciągłe wsparcie i zaangażowanie w projekt Speakleash! Jesteśmy podekscytowani tymi zmianami i nie możemy się doczekać, aby zobaczyć, jakie nowe możliwości przyniosą one dla naszej społeczności.

#speakleash #AI #NLP #BigData

Kategorie
AI dataset

Kolejny webinar!

Ledwie nacieszyliśmy się webinarem Python Data Summit, a już czeka na Nas kolejna prezentacja!
Serdecznie zapraszamy na konferencję, która odbędzie się w dniach 15-16 czerwca. Wśród prelegentów, oprócz standardowego duetu – Sebastiana Kondrackiego z Deviniti oraz Adriana Gwoździej z BTC i Banku Pekao S.A., znajdą się Maria Filipowska oraz Grzegorz Urbanowicz.
Podczas prezentacji omówione zostaną dotychczasowe osiągnięcia projektu SpeakLeash, a także porównamy je z innymi inicjatywami. Na pewno nie zabraknie też innych interesujących tematów.
Dla wszystkich chętnych do udziału w konferencji mamy kod na zniżkę -20%.
Do zobaczenia – nie może Was tam zabraknąć!

https://ml.dssconf.pl/

Kategorie
AI dataset

Jest nas 300!

Temperatura za oknem wzrasta, ale ma się to nijak co do naszego tempa zbierania danych. Koniec maja za pasem, a my osiągamy “3-kę” z przodu, a dokładnie 302GB!! Warto wspomnieć że jedynie 2 miesiące temu czyli na końcu marca mieliśmy tylko 120GB. Daje to optymistyczne prognozy kolejnych aktualizacji które będą się pojawiały jak najszybciej.
Ostatnie blisko 50GB to między innymi  fora kobiece, sportowe czy zdrowotne  oraz informacje publiczne.

Zapraszamy na nasz dashboard, gdzie dowiecie się o wiele więcej na temat zebranych przez Nas danych.

Udanego tygodnia!