28 de novembro de 2016

Webscraping

main (1)

Com o advento da web, das redes sociais e dos dispositivos vestíveis (wearable devices) cada vez mais os “materiais” de que somos feitos – predileções e aversões, felicidades e sofrimentos, comportamentos, atos de linguagem e expressões de afetos – estarão disponíveis online e, mais ainda, dispostos em um grande mercado digital de dados pessoais onde as empresas poderão comprar, revender ou simplesmente “compartilhar” nossas informações. Além disso, cada vez mais gigantescas quantidades de livros, imagens, músicas e vídeos estão sendo convertidos para o formato digital e disponíveis online.

Antes mesmo de pensarmos em como construir ferramentas intelectuais para compreender esses dados é preciso estar habilitado tecnicamente para extraí-los da web, dando um formato estruturado, estatisticamente e interpretativamente manejáveis. Por este motivo que o domínio de linguagens de programação pode vir a se tornar, em curto prazo, fundamental para o exercício das ciências sociais. Se os comportamentos passa a produzir, cada vez mais, traços digitais, torna-se fundamental compreender interpretativamente esses vestígios de ações dotadas de sentido e reciprocidade. Atualmente eu venho me dedicando ao aprendizado de R Software e Python aplicados à mineração de dados na web. A instrumentalização digital tem sido fundamental para muitas pesquisas em ciências sociais que encontram nos dados coletados na web uma fonte importante para compreensão de dinâmicas das sociedades contemporâneas.

Em meu github você encontrará alguns scripts em R que venho utilizando.