quarta-feira, 10 de dezembro de 2014

Na pesquisa sobre qual ferramenta usar para capturar dados, sem ser a API do twitter, me deparei com esse site: http://www.researchgate.net/post/How_can_we_get_data_from_Twitter_for_discourse_analysis .
Nele uma pessoa faz essa mesma pergunta e várias respostas deram dicas sobre ferramentas a serem usadas. Resolvi então verificar tais ferramentas e ver se descobria algo útil.


1) NodeXL
É um plug-in para Excel que permite extrair direto os dados do twitter, uma ótima alternativa para quem não tem conhecimentos de programação, pois é simples de usar. Porém, o objetivo dessa ferramenta é analisar a "rede" (networking), ou seja, quais usuários se comunicam sobre um determinado assunto e gera uns grafos bem legais para análises. Mas não se encaixa no nosso objetivo do projeto. Mesmo assim, pelo que estudei, não pode escolher a data para fazer a pesquisa.

2)ScraperWiki

O ScraperWiki era uma ferramenta que fazia a "ponte" entre a API e usuários que necessitavam dos dados para alguma pesquisa porém não tem conhecimento de programação (como o Arthur, por exemplo). Porém, o twitter retirou a permissão da API para o site, proibindo continuar com tal serviço. 
O site então, em seu blog, fez uma explicação do por quê da suspensão e achei legal para entendermos também por que não podemos pegar dados antigos via API.

A explicação esta nesse site:
https://blog.scraperwiki.com/2014/08/the-story-of-getting-twitter-data-and-its-missing-middle/

em resumo:
Ele diz que existem quatro formas amplas de recolher esses dados.
1)Pela API, onde desenvolvedores podem pegar os dados para o uso próprio. O limite de dados é até generoso perto de outras redes sociais ( rate limits - quantidade de tweets que pode recolher de tanto em tanto tempo). Porém, você deve seguir as regras que eles impõe, ou twitter corta sua aplicação.
E, por outro lado, é injusto com aqueles que não sabem programar.

 2) Companhias de softwares desenvolvem aplicações que usam a API- firehouse.
Eles tem uma aprovação do twitter para poder usar esses dados e fornecer para outros. Essas aplicações não podem permitir analises e codificações pelos seus usuários.

3)Bulk tweet data ( dados dos tweets em massa), pode ser conseguido no Datasift e Gnip, que só incluem tweets. 
As duas companhias cobram pelos seus produtos. O custo é em torno de 10 cents/1000 tweets. O que fica inviável quando realmente a quantidade de dados é enorme (big data).

4)Programas especiais. Existem alguns institutos que tem acesso a todos os dados porém não podem disponibilizá-los.

Por que o twitter restringe o uso de dados?
A resposta óbvia seria para fins comerciais mas esse não é o caso. As razões seguem abaixo:

- Proteger privacidade e acabar com uso maliciosos
Quando usamos o método do firehouse, por exemplo, Datasift, você é obrigado a deletar sua cópia de um tweet assim que o usuário deleta ele da sua conta. Regra similar se aplica quando o usuário torna sua conta privada ou deleta a conta. Isso é impressionante, fantástico para a privacidade do usuário.
Logo, parte do motivo do twitter ser tão cuidadoso vetando usuários é para segurar que a privacidade está segura.
Twitter também previne usuários que podem causar "danos" a seus usuários. O site não explica muito mais cita como exemplo governos que quando tem grande volume de dados em suas mãos pode identificar contas anônimas . Isso provavelmente surgiu com a "revolução do twitter" como a do Iran em 2009. 

- Eles são uma companhia de mídia agora. 
Twitter mudou desde seu ínicio, hoje em dia são uma companhia de mídia e não só um veículo de mensagens.
Isso implica que o foco está em uma boa experiência para o usuário e propaganda, e não achar novos meios para o mercado de dados.


Assim pelo que podemos ver, uma única alternativa de conseguir esses dados seria através das firehouses
proximo post:
=> DATASIFT 

outra opção é baixar volumes de tweets existentes e ver se conseguimos extrair algo útil desses dados
https://archive.org/details/twitterstream 
http://archive.org/search.php?query=collection%3Atwitterstream&sort=-publicdate
será preciso muito espaço no disco pois o volume é imenso (testar no lab?).

http://allthingsd.com/20101110/twitter-firehose-too-intense-take-a-sip-from-the-garden-hose-or-sample-the-spritzer/

http://tweetreach.com/reports/12551375

Nenhum comentário:

Postar um comentário