Spam-liikenne jälleen lisääntynyt Google Analyticsissa

Spam-liikenne eli ns. roskaliikenne on web-analytiikkaan kertyvää valeliikennettä.
Spam-liikenne ei usein ole todellisuudessa käynyt sivustolla vaan spämmääjät käyttävät hyväkseen Google Analyticsin tapaa kerätä dataa ja he pystyvät siten lähettämään osumia, jotka näkyvä analytiikassa eri raporteilla.
Spam-liikenne on ollut ongelmana jo useamman vuoden. Tyypillisesti spam-liikenne kertyy liikenteenlähteisiin viittaavaksi liikenteeksi ja myös usein muihin raportteihin. Esimerkiksi USA:n presidentinvaalien aikaan kieli-, sivun otsikko- ja event-raportteihin kirjautui “Vote for Trump!”.
Usein spam-liikenne on helppo erottaa todellista liikenteestä. Tyypillisesti spam-liikenteen Bounce rate on 100% ja vierailun kesto 0 minuuttia. Lisäksi liikenne kyseisestä liikenteenlähteestä ajoittuu yhdelle tai muutamalle päivälle tehden selkeän piikin erityisesti sivustoilla, joissa kävijämäärä on normaalisti pieni.
Tähän mennessä liikenteenlähteen on tunnistanut spämmiksi helposti myös siitä, että kyseessä on viittaava liikenne, jonka nimi jo itsessään herättää epäilyksiä. Esimerkkejä tällaisista sivustoista on trafficbot.life, bot-traffic.xyz ja vastaavat. Näille sivustoille ei kannata mennä! Jos raportissa näkyvää viittaavaa sivustoa haluaa tutkia tarkemmin, voi sen googlettaa laittamalla url-osoitteen heittomerkkeihin.
Valitettavasti spämmääjätkin kehittyvät ja roskaliikennettä voi kertyä orgaaniseksi liikenteeksi. Todellinen liikenteenlähde selviää avainsana-dimensiosta:

Ikävä puoli on se, että analytiikan dataa ei voi siivota takautuvasti. Kun todellista liikennettä haluaa tarkastella, kannattaa käyttää segmenttiä, josta spam-liikenne on siivottu:

Paras ratkaisu tietenkin on se, että spam-liikenne ei koskaan pääse edes kirjautumaan. Toimiva ratkaisu on tehdä näkymäsuodatin ja sallia liikenne vain valideista domaineista - käytännössä siis oman sivustosi domainista. Oman domainin lisäksi validia liikennettä voi kirjautua käännöstyökalun kautta tulleesta liikenteestä, esimerkiksi osoitteesta translate.googleusercontent.com, tai mahdollisesti sivuston ulkopuolisista ländäreistä, joissa oma GA-seuranta on tai vastaavista. Kannattaakin tarkistaa pitkältä aikaväliltä mitä domaineja raportteihin on kirjautunut, jotta tulee sisällyttäneeksi kaikki tarpeelliset domainit. Nämä löydät valitsemalla dimensioksi Isäntänimi ja aikaväliksi voi laittaa viimeisen vuoden.

Kun analytiikan näkymään lisää suodattimia, tulee huolehtia siitä, että käytössä on myös yksi suodattamaton näkymä varmistuksena. Jos suodattimeen tulee sattumalta virhe ja dataa ei kerry halutusti raportointinäkymään, se on vielä löydettävissä suodattamattomasta näkymästä.
Valid hostname -suodattimen lisäksi kannattaa lisätä Crawler spam -suodatin. Näitä joutuu tekemään useamman, koska yhteen suodattimeen ei mahdu kaikki tunnetut Crawler spam -liikenteenlähteet. Crawler spam -liikenteeseen ei Valid hostname -suodatin auta, koska nämä botit tosiaan käyvät sivustollasi ja näistä siten kirjautuu oikea domain analytiikkaan. Nämä liikenteenlähteet pitää poissulkea erikseen ja valitettavasti usein se on mahdollista vasta sitten kun spam-liikenne on ensimmäisen kerran kirjautunut raportille.
Suodattimien lisäksi näkymän asetuksista kannattaa rastittaa päälle “robottisuodatus”. Sen avulla Google pyrkii estämään tietämiensä bottien kirjautumisen.
Valitettavasti suodattimet eivät blokkaa kaikkea liikennettä, mutta on silti hyvä pyrkiä pitämään data mahdollisimman eheänä. Jo kirjautuneen spam-liikenteen kohdalla analytiikkaan kannattaa laittaa merkintä kyseisen päivän kohdalle.
Spam-liikenne on hyvä ottaa huomioon raportteja tulkittaessa, koska siten datasta pystytään tekemään oikeita johtopäätöksiä.