Вы находитесь на странице: 1из 4

DataMining et Apprentissage Machine ISAEG – 2020 Master Pro.

DATA SCIENCE

TP combiné : 4 et 5 & 6
➢ TP 4 : Exercice Pratique : Analyse Exploratoire du dernier DataSet du Pandémie
COVID-19 (CORONA-VIRUS) (Source : WHO, Date : 09-03-2020).
➢ TP 5 & 6 : Les Algorithmes d'Apprentissage Machine.

1. Exercice Pratique : CORONAVIRUS

Le 31 décembre 2019, l’Organisation mondiale de la Santé (OMS) a été alertée de plusieurs cas
de pneumonie dans la ville de Wuhan, province du Hubei en Chine. Le virus ne correspond à
aucun autre virus connu. Cela a soulevé des inquiétudes car lorsqu'un virus est nouveau, nous
ne savons pas comment il affecte les gens.

Coronavirus (COVID-19) est un virus identifié comme la cause d'une pandémie de maladie
respiratoire détectée pour la première fois à Wuhan, en Chine. Au début, de nombreux patients
de l'épidémie de Wuhan, en Chine, auraient eu un lien avec un grand marché de fruits de mer
et d'animaux, suggérant une propagation de l'animal à la personne. Cependant, un nombre
croissant de patients n'auraient pas été exposés aux marchés aux animaux, ce qui indique une
propagation de personne à personne. (Source CDC : Centres pour le contrôle et la prévention
des maladies, États-Unis).

Les coronavirus sont zoonotiques, ce qui signifie qu'ils sont transmis entre les animaux et les
humains. Les signes d'infection courants comprennent les symptômes respiratoires, la fièvre, la
toux, l'essoufflement et les difficultés respiratoires. Dans les cas plus graves, l'infection peut
provoquer une pneumonie, un syndrome respiratoire aigu sévère, une insuffisance rénale et
même la mort. (Source WHO : L'Organisation mondiale de la santé)

Les recommandations standard pour prévenir la propagation des infections comprennent le


lavage régulier des mains, la couverture de la bouche et du nez lors de la toux et des
éternuements, la cuisson minutieuse de la viande et des œufs et d’éviter tout contact étroit avec
toute personne présentant des symptômes de maladie respiratoire tels que toux et éternuements.
(Source MSPT : Ministère de la santé publique Tunisienne)

Enseignant : KHMILI Boubaker 11/03/2020 1


DataMining et Apprentissage Machine ISAEG – 2020 Master Pro. DATA SCIENCE

En Tunisie, à la date de la rédaction de ce TP, le ministère de la santé a confirmé 2 cas et a mis


en quarantaine pas moins de 2000 personnes.

Les données de cet exercice contiennent les derniers chiffres concernant le nombre de cas, de
décès et de rétablissement jusqu’à 09 Mars 2020. L'ensemble de données contient les colonnes
suivantes :

Province/State : Province ou État de l'observation.

Country/Region : Pays d’observation.

Last Update : Heure en UTC à laquelle la ligne est mise à jour pour la province ou le comté
donné.

Confirmed : Nombre cumulé de cas confirmés jusqu'à cette date.

,Deaths : Nombre cumulé de décès jusqu'à cette date.

Recovered : Nombre cumulé de cas récupérés jusqu'à cette date.

Latitude : Latitude de la région.

Longitude : Longitude de la région.

Travail à faire : Réaliser une analyse exploratoire simple, en utilisant des plots, de ce dataset
concernant le Corona Virus.

2. Algorithme d’Apprentissage supervisé

Ce type d’algorithme consiste en une variable cible / résultat (ou variable dépendante) qui doit
être prédite à partir d'un ensemble donné de prédicteurs (variables indépendantes). En utilisant
cet ensemble de variables, nous générons une fonction qui mappe les entrées aux sorties
souhaitées. Le processus d’entrainement se poursuit jusqu'à ce que le modèle atteigne le niveau
de précision souhaité sur les données d’entrainement.

Exemples d'apprentissage supervisé : régression, arbre de décision, forêt aléatoire, KNN,


régression logistique, etc.

3. Algorithme d’Apprentissage non supervisé

Dans cet algorithme, nous n'avons pas de variable cible ou de résultat à prévoir / estimer. Il est
utilisé pour regrouper la population en différents groupes, ce qui est largement utilisé pour
segmenter les clients en différents groupes pour une intervention spécifique.

Enseignant : KHMILI Boubaker 11/03/2020 2


DataMining et Apprentissage Machine ISAEG – 2020 Master Pro. DATA SCIENCE

Exemples d'apprentissage non supervisé : algorithme Apriori, K-means.

4. Apprentissage par renforcement

À l'aide de cet algorithme, la machine est entrainée pour prendre des décisions spécifiques. Il
fonctionne de cette façon : la machine est exposée à un environnement où elle s'entraîne
continuellement à l'aide d'essais et d'erreurs. Cette machine apprend de l'expérience passée et
essaie de capturer les meilleures connaissances possibles pour prendre des décisions précises.

Exemple d'apprentissage par renforcement : processus de décision de Markov.

5. Liste des algorithmes courants d'apprentissage machine

Voici une liste des algorithmes d'apprentissage machine couramment utilisés. Ces algorithmes
peuvent être appliqués à presque tous les problèmes de données :

- Régression linéaire

- Régression logistique

- Arbre de décision

- Machine à vecteurs de support

- Bayes Naive

- kNN

- K-Means

- Forêt aléatoire

- Réduction de dimensionnalité

- Renforcement de gradient :

o GBM

o XGBoost

o LightGBM

o CatBoost

Enseignant : KHMILI Boubaker 11/03/2020 3


DataMining et Apprentissage Machine ISAEG – 2020 Master Pro. DATA SCIENCE

6. Régression linéaire

Il est utilisé pour estimer les valeurs réelles (coût des maisons, nombre d'appels, ventes totales,
etc.) en fonction de variable (s) continue (s). Ici, nous établissons une relation entre les variables
indépendantes et dépendantes en ajustant une meilleure ligne. Cette ligne de meilleur
ajustement est connue sous le nom de ligne de régression et représentée par une équation
linéaire Y = a * X + b.

# Charger les données d’entrainement et de test

# Identifiez les variables d'entité et de réponse. Les valeurs doivent être des tab
leaux numériques

x_train <- input_variables_values_training_datasets

y_train <- target_variables_values_training_datasets

x_test <- input_variables_values_test_datasets

x <- cbind(x_train,y_train)

# Entraînez le modèle à l'aide des ensembles d'entraînement et vérifiez le score

linear <- lm(y_train ~ ., data = x)

summary(linear)

# Prédire la sortie

predicted= predict(linear,x_test)

Enseignant : KHMILI Boubaker 11/03/2020 4

Вам также может понравиться