Ze strony https://www.rugbyworldcup.com/teams/TEAM
(gdzie TEAM = england, georgia itd)
można ściągnąć dane każdej drużyny. Ja ściągnąłem 14 września wszystkie 20 stron dla 20 drużyn
biorących udział w turnieju
i się okazało po obejrzeniu pliku od środka, że w każdym jest explicite
dołączony JavaSciptowy fragment zawierający dane dotyczące zawodników.
(Teraz wygląda na to, że zmieniono sposób generowania
stron i JavaScriptowej wstawki nie ma.)
Jeżeli chodzi o statystki meczów, to startową jest strona
https://www.rugbyworldcup.com/matches
, z której zwykłym grepem można wydłubać URLe do
wszystkich 48 meczy. Ten plik zawiera też opisy meczów w formacie JS (kto gra z kim i kiedy),
dzięki
czemu można ściągnąć pliki dla poszczególnych meczów w bardziej cwany sposób.
Ja zrobiłem skrypt w Perlu, który tworzy plik .sh ściągający wszystkie mecze:
## ściąga tylko mecz rozegrany TODAY if [ "$TODAY" = "20190921" ]; then echo 'Download: France-Argentina => France_Argentina_0921_25292_.html' selenium_get_www_page.py 'https://www.rugbyworldcup.com/match/25292' > France_Argentina_0921_25292_.html ## wyciąga statystyki i zapisuje do pliku .csv perl html2csv.pl -f France_Argentina_0921_25292_.html > France_Argentina_0921_25292_.csv fi
Idea była taka żeby dodać plik do Crontaba na nafisie (czyli raspberry).
Codziennie po południu by się odpalał i ściągał mecze rozegrana tego dnia.
Plik HTML jest deklarowany jako xhtml i nawet jest poprawny (well-formed).
Dzięki temu dość sprawnie udało
mi się zrobić skrypt html2csv.pl
, który
wydłubuje wszystkie dane meczowe i dopisuje je do pliku w formacie CSV.
Przedostatnim krokiem jest uruchomienie skryptu R, który rysuje 6 wykresów słupkowych dla najważniejszych statystyk.
Ostatnim zaś krokiem wysyłanie tego
co zrobił R na twittera (za pomocą tweepy
, codziennie wieczorem).
Baza danych z RWC 2019 jest tutaj.
W moim rpi mam Debiana w wersji Buster:
$sudo apt install python-selenium python3-selenium chromium-browser
Uruchamiam prosty skrypt, którego używam do pobierania zasobów z Internetu:
$selenium_get_www_page.py https://www.google.pl chrome not reachable
Po konsultacji z google znalazłem (radykalne) rozwiązanie. Należy zrobić downgrade relewantnych pakietów:
# Jakie są wersje dostępne: apt-cache madison chromium-chromedriver chromium-browser
Nie ma żadnych innych poza tymi, które mam zainstalowane, więc trzeba doinstalować z wersji Stretch:
# Należy dodać deb http://archive.raspberrypi.org/debian/ stretch main # do /etc/apt/sources.list apt-get update # Jakie są wersje dostępne teraz: apt-cache madison chromium-chromedriver chromium-browser chromium-chromedriver | 74.0.3729.157-rpt5 | \ http://archive.raspberrypi.org/debian buster/main armhf Packages ...
Instaluję stare wersje:
apt-get install chromium-chromedriver=72.0.3626.121-0+rpt4 chromium-browser=72.0.3626.121-0+rpt4 chromium-codecs-ffmpeg-extra=72.0.3626.121-0+rpt4 chromium-browser-l10n=72.0.3626.121-0+rpt4 apt-mark hold chromium-chromedriver chromium-browser chromium-codecs-ffmpeg-extra chromium-browser-l10n
Teraz skrypt selenium_get_www_page.py
działa.
Czemu chujowe taśmy to tutaj jest objaśnienie.
Tych z 2019 (tamtych sprzed 5 lat też zresztą) nie słuchałem w całości. Zresztą nie wiadomo co to jest całość.
Z tego co słyszałem (rzygam Tczewem/Tczewiacy to pojeby) taka specyficzna mobilizacja lokalnych działaczy. Że łudząco podobno do stosowanej w mafii to już inna sprawa (Naucz się tego, jak będziesz o czymkolwiek rozmawiał. Jak będziesz w Platformie, będę cię bronił, kurwa, jak niepodległości. Jak wyjdziesz z Platformy, to masz problem), albo inaczej cosaNostra (literalnie: wspólna sprawa) to Platforma w tym przypadku.
Ponadto ci niektórzy którym się wydaje, że popierają lepszą stronę mocy (nowoczesną/europejską/wykształconą itd) gdyby myśleli (a już dawno tego nie robią), to powinni być mocno zdziwieni co robi u boku p. Neumana wdowa po P. Adamowiczu. W oficjalnej wersji przecież św Paweł to niewinna ofiara PiSoskiego hejtu, a wg pana Neumna, no mówiąc oględnie średnio uczciwy typ żeby nie powiedzieć przestępca (Jedynym gościem jest Adamowicz, który ma absolutnie mega twarde rzeczy, które mogłyby go wyprowadzić w kajdankach). Zresztą wdowa Magdalena PecuniaNonOlet Adamowicz bezczelnie indagowana nt. ww. fragmentu zaapelowała o zmianę języka debaty oczywiście.
No i słusznie bo: Nasz elektorat, ten antypisowski, uzna, że to jest kurwa, atak PiS-u, żeby go zabić. I pójdą jeszcze bardziej na niego.
W tym przypadku na nią oczywiście.
Nb. pan SIENKIEWICZ Bartłomiej Henryk startuje do Sejmu z ramienia Koalicji Obywatelskiej w okręgu 33 (Kielce). Ma numer 1 na liście więc w zasadzie wejdzie na 100%.