Publié par : ecome | février 7, 2011

Jeux de données sympatiques :)

J’ai cherché pour des étudiants des données pouvant être utilisées dans le cadre d’un projet. L’objectif était de trouver des données rigolotes qui parlent aux étudiants, je livre ici quelques unes de mes trouvailles :

  1. Last FM artist/tags : 20 000 artistes décrit par les 100 tags les plus données par les utilisateurs (le Nbr d’occurence de chaque tag est également données)
  2. Twitter Smiley : Utilisation des smiley dans twitter : pour chaque posts scraper pendant plus d’un an contenant un smiley : le smiley, le twit id, le user id et la date, permet de recréer des série chronologiques pour chaque smiley (attention à la normalisation le volume de twits scraper n’étant pas constant http://infochimps.com/datasets/twitter-census-tweets-by-day-tweeted pour prendre en compte l’info)
  3. MySpace photo : 33 descripteurs d’images bas niveaux pour plus de 19000 photos de profils mySpace avec le nombre d’amis associé à chaque profils.

Bref, de quoi s’amuser …

Publicités
Publié par : ecome | janvier 26, 2011

Présentation Conférence EGC, Brest, Janvier 2011 [Fr]

Publié par : ecome | janvier 6, 2011

Convex Optimization – Boyd and Vandenberghe

J’ai trouvé ce matin une ressource sympathique en optimisation convexe (Convex Optimization – Boyd and Vandenberghe). Le livre est téléchargeable en pdf ainsi que des transparents de cours assez exhaustif. Certains exemples sont directement issus des statistiques ou du traitement du signal ce qui ne gâche rien et l’ensemble à l’air suffisamment exhaustif pour faire de ce livre une référence.

Publié par : ecome | janvier 4, 2011

Hans Rosling’s : le statisticien qui avale des sabres

Deux petites vidéos de Hans Rosling dont une qui tourne depuis un petit moments sur les blogs que le lis. La première vidéo est un reportage de la BBC « Joy of Stats » qui présente de manière simple, amusante et illustrée l’intérêt des stats dans notre monde gouverné par les données.

Les notions de stats utilisées sont simples : moyenne, distribution, corrélation mais le tout est très bien amené et les histoires racontées grâce à ces outils sont de bonne factures. Le mouvement open data est également évoqué ainsi que les évolutions plus récentes des stats tels que le machine learning au travers d’applications symboliques tel que la traduction automatique made-in google.

La deuxième vidéo est un show TED assez court qui présente l’analyse imagée et animée de Hans Rolling des données des nations unis sur le développement, avec comme idée principale d’arrêtés de parler de pays développés et de pays en développement. Il faut voire cette vidéo en entier pour mieux comprendre le titre de ce billet qui j’espère m’amènera les requêtes les plus tordues en provenance de google.

Je m’intéresse en ce moment au calcul de la matrice d’information de Fisher pour les modèles à variable latentes. De manière générale on s’intéresse en fait à la matrice d’information de Fisher observée, pour des raisons théoriques (cf l’article de Bradley Effron) et pratiques. En ce qui concerne les modèle de mélanges et autres modèles à variables latentes l’article de référence concernant ce problème est celui de Thomas Louis de 82 « Finding the observed information matrix when using the EM-algorithm ».

J’ai également trouvé un rapport de recherche de Frank Picard reprenant les calculs et j’en ai extrait quelques équations clés :

Publié par : ecome | novembre 18, 2010

Regression logistic multinomiale,

Je bosse en ce moment sur un algorithme EM pour les mélanges d’experts. Celui-ci utilise lors de l’étape M un algorithme « des moindres carrés pondéré itérativement », (IRLS en version plus courte et anglaise) du même type que celui de la régression logistic multinomiale. Du coup, je suis tombé sur cette présentation, (vraiment pas dur à trouver en deuxième pour « irls logistic regression » sur gg) que j’ai envie de partager. On trouvera au passage le calcul du gradient et de la matrice Hessienne indispensable pour coder l’IRLS. Le gradient peut également servir pour le calcul du noyau de Fisher sur le même modèle et cela pourrait bien m’intéresser un jour donc autant garder une trace.

Publié par : ecome | novembre 15, 2010

Machine learning blogs

Un petit tour exploratoire pour voir ce qui ce fait du coté des blogs sur le « machine learning ». J’ai lancé le crawler développé pour marami sur la thématique machine learning en utilisant comme points d’entrés une liste de blogs trouvés sur metaoptimize. Après un peu de nettoyage voila ce que donne le graph (visualisation avec gephi).

Vous pouvez télécharger l’image en pdf en cliquant dessus.

On repère assez bien trois gros clusters « machine learning » en haut, « math plus théorique » au milieu et « math et enseignement » en bas. La communauté extraite par l’algorithme est assez petite, les blogs de machine learning n’ont a priori pas tous de blog-roll et présente donc une faible structure de communauté. Une petites sélection de blogs « importants » réalisée grâce à la carte donne :

Et, pour ceux que cela intéresse voila la liste complète des blogs de départ :

Publié par : ecome | novembre 8, 2010

fisher kernel

Quelques articles sur les noyaux de Fisher.

D’abord les deux articles de T. jaakola :

Une application avec quelques astuces à de la classifications d’images :

Enfin quelques explication pour le calcul du gradient de la log vraisemblance dans les modèle à variable latentes :

Et un petit formulaire de dérivation matricielle si besoin.

Je viens de tomber sur cette infographie « Six Ways to Find Value in Twitter’s Noise ».

L’usage des deux outils streamgraph et nuage de mots est pertinent. La petite histoire du lancement de l’ipad est joliment racontée par les gazouillis enregistrés par twitter. Le travail semble être de Jeff Clark (blog « neoformix »). Je ne suis pas sure que la méthodologie s’applique à des événements générant moins de « bruit ».

Publié par : ecome | octobre 29, 2010

Machine learning Webcasts

Comme je fais un peu de RER en ce moment, j’essaye de m’instruire en suivant quelques podcast video de cours. Je regarde les cours de machine learning d’Andrew Ng et j’en ai déjà pour un petit moment si je garde le rythme puisqu’il y a une vingtaine de cours de 1h30. J’ai regardé les 8 premiers et j’aime bien l’ensemble; c’est assez clair et un grand nombre de sujets sont abordés. J’ai surtout apprécié les rappels sur la famille exponentiel et sur le lagrangien pour les problèmes d’optimisation sous contrainte, mais a priori il reste encore pas mal de contenu intéressant (et que je connais moins bien en particulier sur l’apprentissage par renforcement). Quand j’en aurai fini avec ce cours j’irai sans doute faire un tour du coté des podcast de berkley qui ont l’air bien. Je suis en particulier tombé (grâce à ce post) sur cette série de vidéo machine learning workshop avec un menu alléchant (2 session de Jordan dont une sur les modèle bayesien non paramétrique).

« Newer Posts - Older Posts »

Catégories