Kategorie
AI dataset

Robimy webinar!

Nie tylko danymi człowiek żyję. Jako iż zainteresowanie naszym projektem jest większe niż mogliśmy się spodziewać, wychodzimy do Was z pomocną dłonią.

Już jutro nasi reprezentanci w osobie Sebastian Kondracki z Deviniti oraz Adrian Gwoździej z BTC i Bank Pekao S.A. opowiedzą jak efektywnie pozyskiwać duże zestawy danych tekstowych w Pythonie na przykładzie projektu SpeakLeash.org.

Konferencja odbędzie się jutro tj. 18 maja, o godzinie 13:00. Zapraszamy serdecznie. Nie może Was zabraknąć.

Link do wydarzenia:

https://pytechsummit.pl/ 👇

#python #data #speakleash #text #pytech #webinar

Kategorie
AI dataset

Ćwierćwiecze

Nowy tydzień, nowa aktualizacja!
Tym razem przekraczamy magiczną liczbę oznaczającą realizację ćwiartki naszego celu. 255.1 GB lub 255 100MB(co brzmi jeszcze bardziej imponująco) to dokładna pojemność danych tekstowych w języku polskich jaką udało nam się do tej pory zebrać. Zebrane dane, podobnie jak ostatnio, dotyczyły kategorii fora i edukacja.

Znając naszych badaczy, za tydzień będziemy jeszcze bliżej celu, bo tempo zbierania danych rośnie wręcz wykładniczo. Jest to zasługa również osób które w ostatnich tygodniach dołączyły do projektu zainspirowanych pomysłem, aby wspomóc naszą pracę. 
Jeśli jesteś zainteresowany być częścią czegoś wielkiego, napisz do nas!!
Link do kontaktu w komentarzu. 👇

Kategorie
AI dataset

Dotrzymaliśmy słowa

Przychodzimy z pozytywnymi wieściami! Tak jak obiecaliśmy udało nam się przekroczyć ponad 200GB przed “majówką’. Mało tego obecnie licznik zatrzymał się na ponad 217GB, chodź nie jesteśmy pewni czy w trakcie pisania tego posta już się coś nie zmieniło 🙂

Główne źródła pozyskania danych dotyczą forów z dziedziny lifestyle and beauty.

Nie jesteśmy w stanie opisać ogromu pracy i poświęcenia naszych ekspertów. Dziękujemy !

Tym samym, opierając się na ostatniej aktualizacji projektu OSCAR z 23.01(https://oscar-project.github.io/documentation/versions/oscar-2301/)) prześcigamy wspomniany projekt pod kątem wielkości zbioru danych, aż o 40%.

Będziemy na bieżąco informować Was o kolejnych zmianach. My z niecierpliwością czekamy na kolejne aktualizacje.

Produktywnego popołudnia 🙂

Kategorie
AI dataset

Jesteśmy liderami!

Jak obiecaliśmy, kolejne dane z kategorii blogów i edukacji są już w naszym spichlerzu! Aby mieć pojęcie przed jakim zadaniem stoimy to same dane z tej kategorii to 2.9mln plików a to tylko ułamek tego co zebraliśmy. Kolejny dodany zestaw danych dotyczy ofert pracy. Dzięki temu w chwili obecnej nasz projekt ma największą liczbę polskich danych!

Kategorie
AI dataset

Wesołego Jajka!

W najbliższe dni życzymy Wam dużo spokoju i radości!

My tymczasem raportujemy o zaimportowaniu kolejnych danych. Jak obiecaliśmy kolejne z kategorii blogi i edukacja co wraz z wcześniejszymi tekstami daję nam ponad 145 GB danych tekstowych. Więcej szczegółów możecie zobaczyć na naszym dashboradzie: Speakleash Dashboard · Streamlit

Wesołego jajka!

Kategorie
AI dataset

141GB

Kolejne 3 datasety są już w naszym spichlerzu! Dane pochodzą z ogólno pojętych mediów jak również ze stron związanych z blogami internetowymi. Obecnie nasza liczba danych zatrzymała się na 141GB, i możecie liczyć że w najbliższym czasie będzie kolejny przyrost z tych obszarów jak media i blogi.
A poniżej możecie zobaczyć na wykresie kołowym jakie kategorie dominują. 

Kategorie
AI dataset

Nie zwalniamy!

Mamy wielkie plany i niezawodny zespół, jednak ilość danych jest zbyt duża, aby dotychczasowy sztab był w stanie zrealizować nasz ambitny cel w wyznaczonym terminie.

Dlatego, jeśli znasz język Python i uwielbiasz dane, napisz do nas. Potrzebujemy właśnie Twojej pomocy!

Kończąc pozytywnymi wieściami, kolejne 6GB z kategorii prawnej jest już w naszym SpeakLeash. Szczegóły możecie zobaczyć na naszym dashboard( https://speakleash.streamlit.app/ )

Kategorie
AI dataset

Wiosna, ach to Ty!

Wiosnę witamy świetnymi wieściami! Dzięki pozyskaniu danych z kategorii mediów i sklepów internetowych udało nam się przekroczyć 120GB danych! Jest to oczywiście zasługa całego zespołu, którego zaangażowanie jest inspiracją dla nas samych.
Jak myślicie, ile uda nam się zebrać tej wiosny?

Kategorie
AI dataset

Kolejny kamień milowy

Po miesiącach ciężkiej pracy i niekończących się rozmów możemy powiedzieć że dołożyliśmy kolejną dużą cegiełkę ku realizacji naszego celu. Osiągnęliśmy ponad 100 GB danych tekstowych! A wśród nich są takie źródła z polskojęzycznej Wikipedii, prace naukowe czy powieści. Co Wy na to? Jakie jeszcze dane, z jakich źródeł chcielibyście aby się znalazły w pierwszym polskim GPT? Zapraszamy do wglądu.

Kategorie
AI dataset

Wielkie Ogłoszenie!


Od teraz na rozszerzeniu naszej strony(https://speakleash.streamlit.app/) możesz zobaczyć live dashboard! Dzięki czemu możesz na bieżąco śledzić przebieg naszych prac, zaczynając od pojemności danych, rozbieżności danych między branżami i wiele więcej! Dodatkowo możesz zastosować filtry, które pomogą dopasować dashboard do Twoich potrzeb. Jeśli masz jakieś pytania, zachęcamy do kontaktu.