Kategoria: AI dataset

Wielki skok do przodu!

Autor wpisu Autor: Maciej Ogrodnik
Data wpisu 12 czerwca 2023

Mamy przyjemność poinformować, że nasz projekt Speakleash właśnie doczekał się ważnej aktualizacji danych – teraz dysponujemy aż 320GB materiałów!

W ramach tej aktualizacji dodaliśmy kilka istotnych zmian. Najważniejsza z nich to wprowadzenie nowych metryk oceniających jakość tekstu. Te metryki, teraz będą integralną częścią naszych datasetów, pozwalając na jeszcze precyzyjniejszą analizę i interpretację wyników.

Co więcej, poszerzyliśmy naszą bazę danych o kilka nowych zestawów danych. Wśród nich znajdą się między innymi artykuły sportowe, a także imponująca paczka kilkuset tysięcy plików przetworzonych za pomocą technologii OCR.

Na koniec warto wspomnieć, że kontynuujemy również pracę nad przygotowywaniem datasetów z for internetowych. Wierzymy, że te unikalne i różnorodne źródła danych przyczynią się do jeszcze lepszego zrozumienia i modelowania języka naturalnego.

Dziękujemy za wasze ciągłe wsparcie i zaangażowanie w projekt Speakleash! Jesteśmy podekscytowani tymi zmianami i nie możemy się doczekać, aby zobaczyć, jakie nowe możliwości przyniosą one dla naszej społeczności.

#speakleash #AI #NLP #BigData

AI dataset

Kolejny webinar!

Autor wpisu Autor: Maciej Ogrodnik
Data wpisu 6 czerwca 2023

Ledwie nacieszyliśmy się webinarem Python Data Summit, a już czeka na Nas kolejna prezentacja!
Serdecznie zapraszamy na konferencję, która odbędzie się w dniach 15-16 czerwca. Wśród prelegentów, oprócz standardowego duetu – Sebastiana Kondrackiego z Deviniti oraz Adriana Gwoździej z BTC i Banku Pekao S.A., znajdą się Maria Filipowska oraz Grzegorz Urbanowicz.
Podczas prezentacji omówione zostaną dotychczasowe osiągnięcia projektu SpeakLeash, a także porównamy je z innymi inicjatywami. Na pewno nie zabraknie też innych interesujących tematów.
Dla wszystkich chętnych do udziału w konferencji mamy kod na zniżkę -20%.
Do zobaczenia – nie może Was tam zabraknąć!

https://ml.dssconf.pl/

AI dataset

Jest nas 300!

Autor wpisu Autor: Maciej Ogrodnik
Data wpisu 29 maja 2023

Temperatura za oknem wzrasta, ale ma się to nijak co do naszego tempa zbierania danych. Koniec maja za pasem, a my osiągamy “3-kę” z przodu, a dokładnie 302GB!! Warto wspomnieć że jedynie 2 miesiące temu czyli na końcu marca mieliśmy tylko 120GB. Daje to optymistyczne prognozy kolejnych aktualizacji które będą się pojawiały jak najszybciej.
Ostatnie blisko 50GB to między innymi fora kobiece, sportowe czy zdrowotne oraz informacje publiczne.

Zapraszamy na nasz dashboard, gdzie dowiecie się o wiele więcej na temat zebranych przez Nas danych.

Udanego tygodnia!

AI dataset

Robimy webinar!

Autor wpisu Autor: Maciej Ogrodnik
Data wpisu 17 maja 2023

Nie tylko danymi człowiek żyję. Jako iż zainteresowanie naszym projektem jest większe niż mogliśmy się spodziewać, wychodzimy do Was z pomocną dłonią.

Już jutro nasi reprezentanci w osobie Sebastian Kondracki z Deviniti oraz Adrian Gwoździej z BTC i Bank Pekao S.A. opowiedzą jak efektywnie pozyskiwać duże zestawy danych tekstowych w Pythonie na przykładzie projektu SpeakLeash.org.

Konferencja odbędzie się jutro tj. 18 maja, o godzinie 13:00. Zapraszamy serdecznie. Nie może Was zabraknąć.

Link do wydarzenia:

https://pytechsummit.pl/ 👇

#python #data #speakleash #text #pytech #webinar

AI dataset

Ćwierćwiecze

Autor wpisu Autor: Maciej Ogrodnik
Data wpisu 17 maja 2023

Nowy tydzień, nowa aktualizacja!
Tym razem przekraczamy magiczną liczbę oznaczającą realizację ćwiartki naszego celu. 255.1 GB lub 255 100MB(co brzmi jeszcze bardziej imponująco) to dokładna pojemność danych tekstowych w języku polskich jaką udało nam się do tej pory zebrać. Zebrane dane, podobnie jak ostatnio, dotyczyły kategorii fora i edukacja.

Znając naszych badaczy, za tydzień będziemy jeszcze bliżej celu, bo tempo zbierania danych rośnie wręcz wykładniczo. Jest to zasługa również osób które w ostatnich tygodniach dołączyły do projektu zainspirowanych pomysłem, aby wspomóc naszą pracę.
Jeśli jesteś zainteresowany być częścią czegoś wielkiego, napisz do nas!!
Link do kontaktu w komentarzu. 👇

AI dataset

Dotrzymaliśmy słowa

Autor wpisu Autor: Maciej Ogrodnik
Data wpisu 28 kwietnia 2023

Przychodzimy z pozytywnymi wieściami! Tak jak obiecaliśmy udało nam się przekroczyć ponad 200GB przed “majówką’. Mało tego obecnie licznik zatrzymał się na ponad 217GB, chodź nie jesteśmy pewni czy w trakcie pisania tego posta już się coś nie zmieniło 🙂

Główne źródła pozyskania danych dotyczą forów z dziedziny lifestyle and beauty.

Nie jesteśmy w stanie opisać ogromu pracy i poświęcenia naszych ekspertów. Dziękujemy !

Tym samym, opierając się na ostatniej aktualizacji projektu OSCAR z 23.01(https://oscar-project.github.io/documentation/versions/oscar-2301/)) prześcigamy wspomniany projekt pod kątem wielkości zbioru danych, aż o 40%.

Będziemy na bieżąco informować Was o kolejnych zmianach. My z niecierpliwością czekamy na kolejne aktualizacje.

Produktywnego popołudnia 🙂

AI dataset

Jesteśmy liderami!

Autor wpisu Autor: Maciej Ogrodnik
Data wpisu 18 kwietnia 2023

Jak obiecaliśmy, kolejne dane z kategorii blogów i edukacji są już w naszym spichlerzu! Aby mieć pojęcie przed jakim zadaniem stoimy to same dane z tej kategorii to 2.9mln plików a to tylko ułamek tego co zebraliśmy. Kolejny dodany zestaw danych dotyczy ofert pracy. Dzięki temu w chwili obecnej nasz projekt ma największą liczbę polskich danych!

AI dataset

Wesołego Jajka!

Autor wpisu Autor: Maciej Ogrodnik
Data wpisu 9 kwietnia 2023

W najbliższe dni życzymy Wam dużo spokoju i radości!

My tymczasem raportujemy o zaimportowaniu kolejnych danych. Jak obiecaliśmy kolejne z kategorii blogi i edukacja co wraz z wcześniejszymi tekstami daję nam ponad 145 GB danych tekstowych. Więcej szczegółów możecie zobaczyć na naszym dashboradzie: Speakleash Dashboard · Streamlit

Wesołego jajka!

AI dataset

141GB

Autor wpisu Autor: Maciej Ogrodnik
Data wpisu 29 marca 2023

Kolejne 3 datasety są już w naszym spichlerzu! Dane pochodzą z ogólno pojętych mediów jak również ze stron związanych z blogami internetowymi. Obecnie nasza liczba danych zatrzymała się na 141GB, i możecie liczyć że w najbliższym czasie będzie kolejny przyrost z tych obszarów jak media i blogi.
A poniżej możecie zobaczyć na wykresie kołowym jakie kategorie dominują.

AI dataset

Nie zwalniamy!

Autor wpisu Autor: Maciej Ogrodnik
Data wpisu 23 marca 2023

Mamy wielkie plany i niezawodny zespół, jednak ilość danych jest zbyt duża, aby dotychczasowy sztab był w stanie zrealizować nasz ambitny cel w wyznaczonym terminie.

Dlatego, jeśli znasz język Python i uwielbiasz dane, napisz do nas. Potrzebujemy właśnie Twojej pomocy!

Kończąc pozytywnymi wieściami, kolejne 6GB z kategorii prawnej jest już w naszym SpeakLeash. Szczegóły możecie zobaczyć na naszym dashboard( https://speakleash.streamlit.app/ )