TP 4 5 6 Converti PDF

DataMining et Apprentissage Machine ISAEG – 2020 Master Pro.
DATA SCIENCE
TP combiné : 4 et 5 & 6
➢ TP 4 : Exercice Pratique : Analyse Exploratoire du dernier DataSet du Pandémie
COVID-19 (CORONA-VIRUS) (Source : WHO, Date : 09-03-2020).
➢ TP 5 & 6 : Les Algorithmes d'Apprentissage Machine.
1. Exercice Pratique : CORONAVIRUS
Le 31 décembre 2019, l’Organisation mondiale de la Santé (OMS) a été alertée de plusieurs cas
de pneumonie dans la ville de Wuhan, province du Hubei en Chine. Le virus ne correspond à
aucun autre virus connu. Cela a soulevé des inquiétudes car lorsqu'un virus est nouveau, nous
ne savons pas comment il affecte les gens.
Coronavirus (COVID-19) est un virus identifié comme la cause d'une pandémie de maladie
respiratoire détectée pour la première fois à Wuhan, en Chine. Au début, de nombreux patients
de l'épidémie de Wuhan, en Chine, auraient eu un lien avec un grand marché de fruits de mer
et d'animaux, suggérant une propagation de l'animal à la personne. Cependant, un nombre
croissant de patients n'auraient pas été exposés aux marchés aux animaux, ce qui indique une
propagation de personne à personne. (Source CDC : Centres pour le contrôle et la prévention
des maladies, États-Unis).
Les coronavirus sont zoonotiques, ce qui signifie qu'ils sont transmis entre les animaux et les
humains. Les signes d'infection courants comprennent les symptômes respiratoires, la fièvre, la
toux, l'essoufflement et les difficultés respiratoires. Dans les cas plus graves, l'infection peut
provoquer une pneumonie, un syndrome respiratoire aigu sévère, une insuffisance rénale et
même la mort. (Source WHO : L'Organisation mondiale de la santé)
Les recommandations standard pour prévenir la propagation des infections comprennent le

lavage régulier des mains, la couverture de la bouche et du nez lors de la toux et des
éternuements, la cuisson minutieuse de la viande et des œufs et d’éviter tout contact étroit avec
toute personne présentant des symptômes de maladie respiratoire tels que toux et éternuements.
(Source MSPT : Ministère de la santé publique Tunisienne)
Enseignant : KHMILI Boubaker 11/03/2020 1

DataMining et Apprentissage Machine ISAEG – 2020 Master Pro. DATA SCIENCE
En Tunisie, à la date de la rédaction de ce TP, le ministère de la santé a confirmé 2 cas et a mis

en quarantaine pas moins de 2000 personnes.
Les données de cet exercice contiennent les derniers chiffres concernant le nombre de cas, de
décès et de rétablissement jusqu’à 09 Mars 2020. L'ensemble de données contient les colonnes
suivantes :
Province/State : Province ou État de l'observation.
Country/Region : Pays d’observation.
Last Update : Heure en UTC à laquelle la ligne est mise à jour pour la province ou le comté
donné.
Confirmed : Nombre cumulé de cas confirmés jusqu'à cette date.
,Deaths : Nombre cumulé de décès jusqu'à cette date.
Recovered : Nombre cumulé de cas récupérés jusqu'à cette date.
Latitude : Latitude de la région.
Longitude : Longitude de la région.
Travail à faire : Réaliser une analyse exploratoire simple, en utilisant des plots, de ce dataset
concernant le Corona Virus.
2. Algorithme d’Apprentissage supervisé
Ce type d’algorithme consiste en une variable cible / résultat (ou variable dépendante) qui doit
être prédite à partir d'un ensemble donné de prédicteurs (variables indépendantes). En utilisant
cet ensemble de variables, nous générons une fonction qui mappe les entrées aux sorties
souhaitées. Le processus d’entrainement se poursuit jusqu'à ce que le modèle atteigne le niveau
de précision souhaité sur les données d’entrainement.
Exemples d'apprentissage supervisé : régression, arbre de décision, forêt aléatoire, KNN,

régression logistique, etc.
3. Algorithme d’Apprentissage non supervisé
Dans cet algorithme, nous n'avons pas de variable cible ou de résultat à prévoir / estimer. Il est
utilisé pour regrouper la population en différents groupes, ce qui est largement utilisé pour
segmenter les clients en différents groupes pour une intervention spécifique.

Exemples d'apprentissage non supervisé : algorithme Apriori, K-means.
4. Apprentissage par renforcement
À l'aide de cet algorithme, la machine est entrainée pour prendre des décisions spécifiques. Il
fonctionne de cette façon : la machine est exposée à un environnement où elle s'entraîne
continuellement à l'aide d'essais et d'erreurs. Cette machine apprend de l'expérience passée et
essaie de capturer les meilleures connaissances possibles pour prendre des décisions précises.
Exemple d'apprentissage par renforcement : processus de décision de Markov.
5. Liste des algorithmes courants d'apprentissage machine
Voici une liste des algorithmes d'apprentissage machine couramment utilisés. Ces algorithmes
peuvent être appliqués à presque tous les problèmes de données :
- Régression linéaire
- Régression logistique
- Arbre de décision
- Machine à vecteurs de support
- Bayes Naive
- kNN
- K-Means
- Forêt aléatoire
- Réduction de dimensionnalité
- Renforcement de gradient :
o GBM
o XGBoost
o LightGBM
o CatBoost

6. Régression linéaire
Il est utilisé pour estimer les valeurs réelles (coût des maisons, nombre d'appels, ventes totales,
etc.) en fonction de variable (s) continue (s). Ici, nous établissons une relation entre les variables
indépendantes et dépendantes en ajustant une meilleure ligne. Cette ligne de meilleur
ajustement est connue sous le nom de ligne de régression et représentée par une équation
linéaire Y = a * X + b.
# Charger les données d’entrainement et de test
# Identifiez les variables d'entité et de réponse. Les valeurs doivent être des tab
leaux numériques
x_train <- input_variables_values_training_datasets
y_train <- target_variables_values_training_datasets
x_test <- input_variables_values_test_datasets
x <- cbind(x_train,y_train)
# Entraînez le modèle à l'aide des ensembles d'entraînement et vérifiez le score
linear <- lm(y_train ~ ., data = x)
summary(linear)
# Prédire la sortie
predicted= predict(linear,x_test)

TP 4 5 6 Converti PDF

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

TP 4 5 6 Converti PDF

Загружено:

Авторское право:

Доступные форматы

DataMining et Apprentissage Machine ISAEG – 2020 Master Pro.

1. Exercice Pratique : CORONAVIRUS

Les recommandations standard pour prévenir la propagation des infections comprennent le

Enseignant : KHMILI Boubaker 11/03/2020 1

En Tunisie, à la date de la rédaction de ce TP, le ministère de la santé a confirmé 2 cas et a mis

Province/State : Province ou État de l'observation.

Country/Region : Pays d’observation.

Confirmed : Nombre cumulé de cas confirmés jusqu'à cette date.

,Deaths : Nombre cumulé de décès jusqu'à cette date.

Recovered : Nombre cumulé de cas récupérés jusqu'à cette date.

Latitude : Latitude de la région.

Longitude : Longitude de la région.

2. Algorithme d’Apprentissage supervisé

Exemples d'apprentissage supervisé : régression, arbre de décision, forêt aléatoire, KNN,

3. Algorithme d’Apprentissage non supervisé

Enseignant : KHMILI Boubaker 11/03/2020 2

Exemples d'apprentissage non supervisé : algorithme Apriori, K-means.

4. Apprentissage par renforcement

Exemple d'apprentissage par renforcement : processus de décision de Markov.

5. Liste des algorithmes courants d'apprentissage machine

- Machine à vecteurs de support

Enseignant : KHMILI Boubaker 11/03/2020 3

# Charger les données d’entrainement et de test

x_train <- input_variables_values_training_datasets

y_train <- target_variables_values_training_datasets

x_test <- input_variables_values_test_datasets

# Entraînez le modèle à l'aide des ensembles d'entraînement et vérifiez le score

linear <- lm(y_train ~ ., data = x)

Enseignant : KHMILI Boubaker 11/03/2020 4

Вам также может понравиться