Nele uma pessoa faz essa mesma pergunta e várias respostas deram dicas sobre ferramentas a serem usadas. Resolvi então verificar tais ferramentas e ver se descobria algo útil.
1) NodeXL
É um plug-in para Excel que permite extrair direto os dados do twitter, uma ótima alternativa para quem não tem conhecimentos de programação, pois é simples de usar. Porém, o objetivo dessa ferramenta é analisar a "rede" (networking), ou seja, quais usuários se comunicam sobre um determinado assunto e gera uns grafos bem legais para análises. Mas não se encaixa no nosso objetivo do projeto. Mesmo assim, pelo que estudei, não pode escolher a data para fazer a pesquisa.
2)ScraperWiki
O ScraperWiki era uma ferramenta que fazia a "ponte" entre a API e usuários que necessitavam dos dados para alguma pesquisa porém não tem conhecimento de programação (como o Arthur, por exemplo). Porém, o twitter retirou a permissão da API para o site, proibindo continuar com tal serviço.
O site então, em seu blog, fez uma explicação do por quê da suspensão e achei legal para entendermos também por que não podemos pegar dados antigos via API.
A explicação esta nesse site:
https://blog.scraperwiki.com/2014/08/the-story-of-getting-twitter-data-and-its-missing-middle/
em resumo:
Ele diz que existem quatro formas amplas de recolher esses dados.
1)Pela API, onde desenvolvedores podem pegar os dados para o uso próprio. O limite de dados é até generoso perto de outras redes sociais ( rate limits - quantidade de tweets que pode recolher de tanto em tanto tempo). Porém, você deve seguir as regras que eles impõe, ou twitter corta sua aplicação.
E, por outro lado, é injusto com aqueles que não sabem programar.
2) Companhias de softwares desenvolvem aplicações que usam a API- firehouse.
Eles tem uma aprovação do twitter para poder usar esses dados e fornecer para outros. Essas aplicações não podem permitir analises e codificações pelos seus usuários.
3)Bulk tweet data ( dados dos tweets em massa), pode ser conseguido no Datasift e Gnip, que só incluem tweets.
As duas companhias cobram pelos seus produtos. O custo é em torno de 10 cents/1000 tweets. O que fica inviável quando realmente a quantidade de dados é enorme (big data).
4)Programas especiais. Existem alguns institutos que tem acesso a todos os dados porém não podem disponibilizá-los.
Por que o twitter restringe o uso de dados?
A resposta óbvia seria para fins comerciais mas esse não é o caso. As razões seguem abaixo:
- Proteger privacidade e acabar com uso maliciosos
Quando usamos o método do firehouse, por exemplo, Datasift, você é obrigado a deletar sua cópia de um tweet assim que o usuário deleta ele da sua conta. Regra similar se aplica quando o usuário torna sua conta privada ou deleta a conta. Isso é impressionante, fantástico para a privacidade do usuário.
Logo, parte do motivo do twitter ser tão cuidadoso vetando usuários é para segurar que a privacidade está segura.
Twitter também previne usuários que podem causar "danos" a seus usuários. O site não explica muito mais cita como exemplo governos que quando tem grande volume de dados em suas mãos pode identificar contas anônimas . Isso provavelmente surgiu com a "revolução do twitter" como a do Iran em 2009.
- Eles são uma companhia de mídia agora.
Twitter mudou desde seu ínicio, hoje em dia são uma companhia de mídia e não só um veículo de mensagens.
Isso implica que o foco está em uma boa experiência para o usuário e propaganda, e não achar novos meios para o mercado de dados.
Assim pelo que podemos ver, uma única alternativa de conseguir esses dados seria através das firehouses
proximo post:
=> DATASIFT
outra opção é baixar volumes de tweets existentes e ver se conseguimos extrair algo útil desses dados
https://archive.org/details/twitterstream
http://archive.org/search.php?query=collection%3Atwitterstream&sort=-publicdate
será preciso muito espaço no disco pois o volume é imenso (testar no lab?).
http://allthingsd.com/20101110/twitter-firehose-too-intense-take-a-sip-from-the-garden-hose-or-sample-the-spritzer/
https://archive.org/details/twitterstream
http://archive.org/search.php?query=collection%3Atwitterstream&sort=-publicdate
será preciso muito espaço no disco pois o volume é imenso (testar no lab?).
http://allthingsd.com/20101110/twitter-firehose-too-intense-take-a-sip-from-the-garden-hose-or-sample-the-spritzer/
http://tweetreach.com/reports/12551375
Nenhum comentário:
Postar um comentário