Twitter para quem precisa! (Os clusters de nossa conta no Twitter por seguidores e amigos)

Eu sei que o Twitter não é meu forte. Tem gente que gosta, curte, põe foto do bolo, do cachorro ou do calouro. Mas eu não sou fã. Mas o Nepom tem a conta. Isadora foi a responsável por criar esta conta há algum tempo. Então ela é usada para divulgar os textos do Nepom neste blog e, eventualmente, um ou outro link interessante (por falar em link interessante, veja isto).

Mas há quem goste de analisar dados do Twitter e, aí sim, eu acho que há algo interessante. Para entender o que se passa aí embaixo, veja este texto. Depois que der uma boa lida lá, volte aqui.

Vou resumir: aparentemente, o blogueiro gosta do método de K-médias em seu objetivo de encontrar clusters de dados. A definição deste método é:

K-means clustering is the most popular partitioning method. It requires the analyst to specify the number of clusters to extract. A plot of the within groups sum of squares by number of clusters extracted can help determine the appropriate number of clusters. The analyst looks for a bend in the plot similar to a scree test in factor analysis. See Everitt & Hothorn (pg. 251).

O que vou fazer aqui é, basicamente, replicar, digamos, 2/3 do exercício feito lá no tutorial. Assim, usando o número de amigos e seguidores do Nepom no Twitter, supondo dois clusters, obtemos o seguinte gráfico.

newtwitternepom

O padrão é muito parecido com o exemplo do autor, não? Da mesma forma que seus resultados, o primeiro trecho parece ter uma tendências positiva e maior concentração do que a segunda parte (que nem tendência apresenta). Tentando verificar se há um padrão com cinco clusters, obtemos o gráfico seguinte.

newtwitterblog2

 

Pois é. Como eu não sei muito sobre clusters não tenho como fazer maiores comentários. O autor do tutorial, lá no RStudio, o John Baldwin tinha como objetivo despertar seu interesse (do leitor) por este tipo de trabalho. Honestamente, despertou o meu, mas não muito. Digo, realmente não sei o quanto clusters me interessam hoje em dia (a última vez que trabalhei com este tipo de coisa foi na minha monografia de graduação, mas em outro contexto, com outra metodologia, em…outro século!).

Mas vejo aqui um potencial interessante para o marketing do Nepom, mas talvez algum membro do grupo se entusiasme mais pelo tema.  De qualquer forma, as dicas estão lá no tutorial dele.

p.s.1.  Quando o assunto é data mining, eu sempre digo que devemos estudar um pouco.

p.s.2. O método K-médias, mais detalhado (com bastante ceticismo quanto à sua aplicação em análises de clusters).

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s