Publié par : ecome | février 7, 2011

Jeux de données sympatiques :)

J’ai cherché pour des étudiants des données pouvant être utilisées dans le cadre d’un projet. L’objectif était de trouver des données rigolotes qui parlent aux étudiants, je livre ici quelques unes de mes trouvailles :

  1. Last FM artist/tags : 20 000 artistes décrit par les 100 tags les plus données par les utilisateurs (le Nbr d’occurence de chaque tag est également données)
  2. Twitter Smiley : Utilisation des smiley dans twitter : pour chaque posts scraper pendant plus d’un an contenant un smiley : le smiley, le twit id, le user id et la date, permet de recréer des série chronologiques pour chaque smiley (attention à la normalisation le volume de twits scraper n’étant pas constant http://infochimps.com/datasets/twitter-census-tweets-by-day-tweeted pour prendre en compte l’info)
  3. MySpace photo : 33 descripteurs d’images bas niveaux pour plus de 19000 photos de profils mySpace avec le nombre d’amis associé à chaque profils.

Bref, de quoi s’amuser …


Laisser un commentaire

Catégories