Jak podkresla autor, algorytmy wykorzystujące uczenie się maszynowe muszą mieć na czym się uczyć. Od zakresu dostarczonych im danych treningowych zależeć będzie celność prognoz dokonywanych później w celach biznesowych. Jeśli algorytm od początku będzie skazany na analizę okrojonej próby obserwacji, rośnie ryzyko, że nietrafnie pogrupuje dane, pominie ważne korelacje lub powiązania przyczynowo-skutkowe albo dopatrzy się ich tam, gdzie ich nie ma. Dopiero szkolenie algorytmu na dużych zestawach danych pozwala zminimalizować ryzyko uchybień w diagnozach i prognozach.
- Zapewnienie dostępu do wielkich zbiorów nie jest jednak łatwe w przededniu wejścia w życie najbardziej rygorystycznych przepisów o ochronie danych – RODO. Zwłaszcza dla startupów, które w przeciwieństwie do większych graczy, jak sklepy internetowe lub serwisy społecznościowe, nie mogą same generować Big Data przez obserwację rozbudowanej bazy użytkowników - czytamy w komentarzu. Więcej>>
Dane do algorytmów w BIG Data też muszą być chronione
Wiele startupów oferuje usługi analizy Big Data oparte na algorytmach wykorzystujących uczenie się maszynowe. Od zakresu dostarczonych im danych treningowych zależeć będzie celność prognoz dokonywanych później w celach biznesowych. A to rodzi pytanie o bezpieczeństwo tych danych - pisze Bartosz Troczyński z kancelarii Wardyński i Wspólnicy.