vendredi 25 mars 2011

Avoir un aperçu d'un objet : les fonctions head() et tail()

Il est parfois utile d'avoir un aperçu d'un objet (vecteur, matrice, tableau, etc...). Mais lorsque l'objet en question est très grand (des centaines ou des milliers de valeurs ou de lignes), il n'est pas pratique d'afficher l'objet en entier. Les fonctions head() et tail() permettent de résoudre ce problème en n'affichant qu'une petite partie de l'objet.
Pour illustrer, nous allons utiliser le fichier de données "Orange" qui est intégré à R par défaut.
Pour afficher l'objet Orange, il suffit d'écrire:

> Orange # affiche l'objet "Orange"

Ce tableau comprend 35 lignes et 3 colonnes. La fonction head() permet de n'afficher que les 6 premières lignes:

> head(Orange) # affiche les 6 premières lignes de l'objet "Orange"

Mais on peut afficher le nombre de lignes que l'on veut. Par exemple, si on veut afficher 3 lignes, il suffit d'écrire:

> head(Orange, 3) # affiche les 3 premières lignes de l'objet "Orange"

Si on met un nombre négatif, par exemple -10, on affichera toutes les lignes sauf les 10 dernières.

> head(Orange, -10) # affiche toutes les lignes sauf les 10 dernières

La fonction tail() permet de n'afficher que les 6 dernières lignes:

> tail(Orange) # affiche les 6 dernières lignes de l'objet "Orange"

La fonction tail() prend aussi les mêmes options que la fonctio head(), pour pouvoir afficher le nombre de lignes que l'on veut (avec un nombre positif ou négatif).

lundi 14 mars 2011

La fonction data()

La fonction data() permet d'obtenir une liste de fichiers de données prêts à l'emploi. Cela peut être utile quand on veut tester une fonction dans R mais que l'on n'a pas de données sous la main. Par exemple, imaginons que l'on veuille tester la fonction cor(). Il nous faut un fichier de données contenant 2 variables numériques. Pour trouver un tel fichier, il suffit d'écrire dans R:

data()

Cela va ouvrir une liste de fichiers déjà créés. Prenons par exemple le fichier "airquality". Pour savoir ce que représente ce fichier, il suffit d'écrire:

help(airquality)

L'aide nous indique qu'il s'agit de mesures de la qualité de l'air effectuées à New-York de mai à septembre 1973. On voit que ce fichier comprend plusieurs variables numériques, on peut donc l'utiliser pour tester la fonction cor. Par exemple, on peut calculer le coefficient de corrélation entre le vent (Wind) et la température (Temp) de la manière suivante :

cor(airquality$Wind, airquality$Temp)

mardi 8 mars 2011

RStudio : un très bon IDE pour R

RStudio est un nouvel environnement de développement pour R. Il présente de nombreux avantages :

  • il est gratuit
  • il est multi-plateforme (Windows, Mac OS X, Linux)
  • son interface est simple et intuitive
  • il permet d'afficher un graphique sans faire disparaître le précédent
  • il permet d'exporter un graphique très simplement
  • il propose une complétion automatique du code

Bref, je trouve que RStudio permet de travailler sous R d'une manière beaucoup plus agréable.
A essayer donc...