BigQuery och GDELT project

Denna vecka har varit händelserik, och då är det bara torsdag! Idag hade jag b.la lunchmöte gällande diskussion om mitt personliga projekt vid sidan om arbetet – TensorCT

Jag fick mycket goda råd och information om vad jag bör ta i beaktning när jag planerar projektet. En av de största och viktigaste punkterna gällande AI-entiteten som skall analysera, processa och profilera datan är att det görs utan influenser från min sida gällande personliga åsikter, moraliska ståndpunkter och/eller låta syftet med tjänsten kompromissa integriteten hos AI-entiteten.

Stor erfarenhet av data-mining/scraping avslöjade även limitationer/hinder i hur en tjänst kan samla in data från i den mängd och frekvens som kommer krävas. Vi pratar då om tusentals requests till ex en sida för att samla in data vilket inte går obehindrat förbi den mest basalt konfigurerade mod_evasive webbservern -> Blacklisting iom antal + frekvens.

Det finns naturligtvis sätt att kringå/ höja tröskeln för både mängd och frekvens på insamlingen av data genom att dela upp/segmnetera tjänsten på X antal IP’s och tuna in dessa så att inga varningsflaggor går igång- listan kan göras lång. Blev även tipsad om programvara som out of the box rekommenderades.

Jag vet att tjänsten jag vill bygga och dess funktion (värde) kommer baseras på den mängd och kvalité av data som finns tillgänglig + hur pass avancerad och välutvecklad AI-entiteten som bearbetar datan blir. Det var då mycket goda nyheter jag fick tipsat om The GDELT Project som är i många mån likt den tjänst jag själv vill bygga + att den redan innehåller all den data jag behöver för att i ett första steg deploya TensorFlow på en AWS och ha direkt tillgång till den data jag från början tänkt att mina/scrapa.

Jag skulle alltså direkt kunna börja med simuleringarna och ha tillgång till all denna data. Fantastiskt!

Jag ser då framför mig att en framtida scraper kommer vara ett viktigt komplement snarare än en dependency i början av projektet. Min tanke är att scrapern skall ha en logisk sida baserad på TensorFlow och ännu längre fram en exploit-toolbox påkopplad för att utföra automatiserade bruteforce/exploits mot flaggade resurser (ex ett stängt forum som främjar radikal/ terrorist -aktivitet) för att kunna samla in data.

Hur som haver, jag måste få loss tid privat nu för att påbörja projektet på allvar.

Allt gott!