W samej Polsce jest teraz ponad 27 mln internautów. Publicznie udostępniają oni co dzień w sieci ogromne ilości komentarzy, postów na blogach, plików, dokumentów. Jeśli wie się, jak w tych danych wyszukiwać konkretnych informacji, uzyskuje się niespotykany wcześniej wgląd w to, co ludzie ci myślą, jakie mają poglądy, co jest dla nich ważne, a co mniej.

Analizując publicznie dostępne w internecie treści, można np. z kilkudniowym wyprzedzeniem przewidzieć wyniki wyborów parlamentarnych czy prezydenckich. I to z dokładnością większą niż sondażownie. Pokazali to naukowcy z Wydziału Dziennikarstwa Informacji i Bibliologii Uniwersytetu Warszawskiego. Badacze próbują też - analizując Big Data - przewidzieć trendy gospodarcze czy kierunki rozwoju technologii.

"Odpowiedzi na pytanie, co ludziom w duszy gra, uzyskujemy drogą całkowicie legalną" - komentuje uczestnik badań dr hab. Wiesław Cetera. I podkreśla, że wszystkie dane wykorzystywane w badaniach, dostępne są publicznie, dla każdego. Badacze jedynie zbierają i „obrabiają” te informacje.

"Wyszukiwarki internetowe wyświetlają mniej niż 0,1 proc. informacji cyfrowych dostępnych w sieci. Reszta jest, z różnych powodów, pomijana" - mówi w rozmowie z PAP kierownik badań prof. Włodzimierz Gogołek. Dlatego jego zespół wykorzystuje własne roboty - programy, które przeczesują zadane im źródła informacji w poszukiwaniu konkretnych słów. "Przed wyborami prezydenckimi w 2015 r. skierowaliśmy roboty do wszystkich źródeł polskich informacji, które pisały na temat wyborów. To były np. gazety, książki, fora, blogi, publiczne posty na Facebooku" - mówi badacz. Roboty poszukiwały stron, na których padały słowa związane z wyborami, np.: "wybory" "Duda" i "Komorowski".

W zebranych tekstach - po odpowiedniej obróbce - wyszukiwano tzw. sentymentów. W uproszczeniu chodzi o emocje, jakie łączone były z poszukiwanymi słowami. Pozytywnymi sentymentami były np. słowa "zadziwiać", "cel", "lubić", "pewny", "wygrana". A negatywnymi sentymentami np. "winien", "zniszczenie", "upadek". Sprawdzano, jakie sentymenty pojawiały się w otoczeniu słów "Duda" oraz "Komorowski". I na tej podstawie wyliczano poparcie dla każdego z kandydatów. "Tydzień przed wyborami wiedzieliśmy, kto wygra. Nasze wyniki były dokładniejsze niż udostępnione przez CBOS" - chwali się prof. Gogołek. System przetestowano już podczas wyborów parlamentarnych w 2011 r. i w 2015 r., a także podczas wyborów prezydenckich w 2015 r.

Dr hab. Wiesław Cetera wyjaśnia, że sondażownie wykonują badania na próbach np. 1 tys. - 2 tys. osób. A w analizie Big Data zbiory są znacznie, znacznie większe. "To próba badawcza tak duża, że nie można jej osiągnąć w tradycyjnych badaniach. A wiadomo, że im większa próba badawcza, tym dokładniejsze wyniki badań. Nawet jeśli w tej próbie znalazły się opinie małowartościowe" - opowiada naukowiec. I dodaje, że nawet jeśli poszczególne partie przed głosowaniem zatrudniały trolle - osoby opłacone do pisania komentarzy, nie miało to dotąd większego wpływu na wyniki naszych badań.

Prognozowanie wyników wyborów to tylko jeden z przykładów tego, jak można wykorzystać Big Data. Naukowcy z UW pomagają np. ekspertom z Narodowego Centrum Badań i Rozwoju wskazywać kierunki innowacyjnych działań, w które warto inwestować.

Prof. Gogołek opowiada, że jednym z zadań, jakie jego zespół dostał od NCBR, była próba wskazania perspektyw rozwoju cloud computingu - operowania informacją w chmurze. "Jeśli są pieniądze na cloud computing, to możemy wskazać, w którym kierunku warto iść, a który to chybiona droga" - opowiada.(PAP)