Вы находитесь на странице: 1из 12

TECNOLÓGICO DE ESTUDIOS SUPERIORES DE

CHALCO
INGENIERÍA INFORMÁTICA

GESTION DE DATOS

PROFESOR: Kvin Giovani Ramirez Vite

Integrantes: ADRIAN RAMIREZ PEREZ


Itzel Anahi Nolasco Machado

GRUPO: 6951
INDICE

MACHINE LEARNING__________________________________________________________________3
TIPOS DE MACHINE LEARNING_________________________________________________________3
APRENDIZAJE SUPERVISADO:______________________________________________________________4
APRENDIZAJE NO SUPERVISADO:___________________________________________________________4
APRENDIZAJE POR REFUERZO:_____________________________________________________________4
LIBRERÍAS DE PYTHON UTILIZADAS EN MACHINE LEARNING_________________________________5
MATPLOTLIB_______________________________________________________________________________5
SEABORN__________________________________________________________________________________6
NUMPY____________________________________________________________________________________6
PANDAS___________________________________________________________________________________7
DESARROLLO_________________________________________________________________________7
CONCLUSIONES_______________________________________________________________________11
BIBLIOGRAFIAS_______________________________________________________________________12
MACHINE LEARNING

Machine Learning es una disciplina científica del ámbito de la Inteligencia Artificial que
crea sistemas que aprenden automáticamente.  La máquina que realmente aprende es un
algoritmo que revisa los datos y es capaz de predecir comportamientos
futuros. Automáticamente, también en este contexto, implica que estos sistemas se
mejoran de forma autónoma con el tiempo, sin intervención humana. Veamos cómo
funciona.
En la informática clásica, el único modo de conseguir que un sistema informático hiciera
algo era escribiendo un algoritmo que definiera el contexto y detalles de cada acción.

En cambio, los algoritmos que se usan en el desarrollo del Machine Learning realizan


buena parte de estas acciones por su cuenta. Obtienen sus propios cálculos según los
datos que se recopilan en el sistema, y cuantos más datos obtienen, mejores y más
precisas serán las acciones resultantes.

Las computadoras se programan a sí mismas, hasta cierto punto, usando dichos


algoritmos. Estos funcionan como ingenieros que pueden diseñar nuevas respuestas
informáticas, como respuesta a la información que se les suministra a través de su interfaz
u otros medios. Todo nuevo dato se convierte en un nuevo algoritmo, y a más datos,
mayor complejidad y efectividad de cálculo puede proporcionar el sistema informático.

TIPOS DE MACHINE LEARNING

Un sistema informático de Aprendizaje Automático se sirve de experiencias y evidencias


en forma de datos, con los que comprender por sí mismo patrones o comportamientos. De
este modo, puede elaborar predicciones de escenarios o iniciar operaciones que son la
solución para una tarea específica.

A partir de un gran número de ejemplos de una situación, puede elaborarse un modelo


que puede deducir y generalizar un comportamiento ya observado, y a partir de él realizar
predicciones para casos totalmente nuevos.
Existen tres tipos principales de Aprendizaje Automático:

APRENDIZAJE SUPERVISADO:

Este tipo de aprendizaje se basa en lo que se conoce como información de


entrenamiento. Se entrena al sistema proporcionándole cierta cantidad de datos
definiéndolos al detalle con etiquetas.

Una vez que se le ha proporcionado la suficiente cantidad de dichos datos, podrán


introducirse nuevos datos sin necesidad de etiquetas, en base a patrones distintos que ha
venido registrando durante el entrenamiento. Este sistema se conoce como clasificación.

Otro método de desarrollo del Aprendizaje Automático consiste en predecir un valor


continuo, utilizando parámetros distintos que, combinados en la introducción de nuevos
datos, permite predecir un resultado determinado. Este método se conoce como regresión.

APRENDIZAJE NO SUPERVISADO:

En este tipo de aprendizaje no se usan valores verdaderos o etiquetas. Estos sistemas


tienen como finalidad la comprensión y abstracción de patrones de información de manera
directa. Este es un modelo de problema que se conoce como clustering. Es un método de
entrenamiento más parecido al modo en que los humanos procesan la información.

APRENDIZAJE POR REFUERZO:

En la técnica de aprendizaje mediante refuerzo, los sistemas aprenden a partir de la


experiencia. Como ejemplo se puede observar el comportamiento de un coche autónomo.
Cuando el vehículo toma una decisión errónea, es penalizado, dentro de un sistema de
registro de valores. Mediante dicho sistema de premios y castigos, el vehículo desarrolla
una forma más efectiva de realizar sus tareas.

Es una técnica basada en la prueba y error, y en el uso de funciones de premio que


optimizan el comportamiento del sistema. Es una de las maneras más interesantes de
aprendizaje para sistemas de Inteligencia Artificial, pues no requiere de la introducción de
gran cantidad de información.
LIBRERÍAS DE PYTHON UTILIZADAS EN MACHINE LEARNING

El lenguaje de programación Python está adquiriendo muchísima popularidad en el mundo


de Machine Learning. En parte, esto se debe a la disponibilidad de una gran cantidad de
librerías para visualización, cálculo numérico, análisis de datos, aprendizaje automático y
deep learning. Las librerías de python que vamos a ver son gratuitas.
También hay otros lenguajes de programación que también están indicados para el
aprendizaje automático. Sin embargo, python, además de servir para Machine Learning
sirve para muchos otros propósitos. Muchas veces, el valor añadido de un proceso de
Machine Learning, es la capacidad de integrarlo en un sistema existente. Con python, esta
integración resulta más fácil que con otros lenguajes diseñados con énfasis en el análisis
de datos.

Una de las fases del proceso de Machine Learning más importantes es entender el
problema que vamos a resolver. Una forma que tenemos de mejorar nuestra comprensión
del problema es entender mejor los datos. La visualización de datos nos ayuda a entender
mejor tanto los datos y como el problema.
Así mismo, la visualización de datos será también muy útil para comprender los resultados
y analizar los errores. Aunque hay muchas librerías en python para la visualización de
datos, nos vamos a concentrar en: matplotlib, seaborn y bokeh por el momento.

MATPLOTLIB

Matplotlib es la librería gráfica de python estándar y la más conocida. Puedes usar


matplotlib para generar gráficos de calidad necesaria para publicarlas tanto en papel como
digitalmente. Con matplotlib puedes crear muchos tipos de gráficos: series temporales,
histogramas, espectros de potencia, diagramas de barras, diagramas de errores, etc.
SEABORN

Seaborn es una librería gráfica basada en matplotlib, especializada en la visualización de


datos estadísticos. Se caracteriza por ofrecer un interfaz de alto nivel para crear gráficos
estadísticos visualmente atractivos e informativos. Seaborn considera la visualización
como un aspecto fundamental a la hora de explorar y entender los datos. Se integra muy
bien con la librería de manipulación de datos pandas.

NUMPY

NumPy proporciona una estructura de datos universal que posibilita el análisis de datos y


el intercambio de datos entre distintos algoritmos. Las estructuras de datos que
implementa son vectores multidimensionales y matrices con capacidad para gran cantidad
de datos. Además, esta librería proporciona funciones matemáticas de alto nivel que
operan en estas estructuras de datos.

PANDAS
Pandas es una de las librerías de python más útiles para los científicos de datos. Las
estructuras de datos principales en pandas son Series para datos en 1 dimensión
y DataFrame para datos en 2 dimensiones. Estas son las estructuras de datos más
usadas en muchos campos tales como finanzas, estadística, ciencias sociales y muchas
áreas de ingeniería. Pandas destaca por lo fácil y flexible que hace la manipulación de
datos y el análisis de datos.

DESARROLLO

Se llevó a cabo la importación de las librerías Panda, Numpy, Seaborn y Matplotlib


mencionadas y explicadas anteriormente.

Se direcciono a la ubicación de la base de datos que se utilizara con extensión .csv 


que significa "valores separados por comas"que permitirá acceder a los datos  

Se realiza una data frame mediante la creación de una variable llamada “casas“que por
medio de pandas leerá el archivo csv para su posterior verificación de los datosque
contienen la base de datos.
Para la verificacion de la base de datos se mandan a traer las caracteristicas dentro de
la variable x mediante una orden de codigo en donde se observan los campos que la
conforman y el total de datos capturados con referencia a las casas para su posterior
venta.

Se determina la variable objetivo “precio” la cual se va a alojar en el eje de las y

Una vez llevada la obtención de datos se llevara a cabo el proceso de machine learnin
con el dataset de casas ,lo dividimos en datos de prueba y datos de entrenamiento

Se crean 4 variables para los datos de prueba y entrenamiento de los cuales se toma
un 30 % de los datos para prueba y especificamos que se recojan de forma aleatoria, a
su vez especificamos que para el entrenamiento le vamos a dejar el 70% de los datos

Se entrena el modelo por medio de un método llamado fit para el cual creamos una
variable que será una instancia de “linear regressión model” y sobre la misma le
aplicamos fit que es entrenar , y le asignamos los datos de entrenamiento.

Compilación del entrenamiento


Posterior a el modelo de entrenamiento lo tenemos que probar con los datos de prueba
para lo cual exportamos un módulo que nos servirá para poder evaluar el modelo para
lo cual ponemos las predicciones dentro de una variable para los datos de pruebas
mediante el metodo predict le asignamos las características de pruebas y con ello
podremos determinar el precio con relación a las características

De acuerdo a los datos arrojados podemos visualizar que tan bueno es el modelo por
medio de un gráfico de tipo scater donde podemos observar que los puntos se acercan
mucho a los valores de la recta que vendrían siendo los datos reales por lo cual
podemos decir que nuestro modelo es muy bueno

También podemos visualizarlo por medio de un histograma donde pondríamos los


valores reales menos los valores de la predicción.
También tenemos métricas para evaluar de manera numérica el modelo una de ellas
es sacando la media del valor absoluto del modelo y por medio de ello visualizar la
cantidad arrojada entre menor sea la cantidad más bueno es el modelo
 print(metrics.mean_absolute_error(y_test, predicciones))
resultado=81135.56609336905

Otra métrica se denomina mse que es la media de los errores al cuadrado

 print(metrics.mean_squared_error(y_test, predicciones))
resultado=10068422551.401144

Otra métrica seria el mrse que sería la raíz cuadrada de la media a los errores al
cuadrado
 print(np.sqrt(metrics.mean_squared_error(y_test, predicciones)))
resultado=100341.52954485567
CONCLUSIONES

Uno de los lenguajes de programación más utilizados actualmente para el mundo de la


programación es Python ya que es es un lenguaje de scripting independiente de
plataforma y orientado a objetos, preparado para realizar cualquier tipo de programa,
desde aplicaciones Windows a servidores de red o incluso, páginas web. Es un
lenguaje interpretado, lo que significa que no se necesita compilar el código fuente
para poder ejecutarlo, lo que ofrece ventajas como la rapidez de desarrollo e
inconvenientes como una menor velocidad, lo cual permite que sea la base para el uso
de otras tecnologías como Machine Learning que hace referencia a un Aprendizaje
Autónomo formando parte de una rama de la Inteligencia Artificial que tiene como
objetivo crear sistemas capaces de aprender por ellos mismos a partir de un conjunto
de datos (data set), sin ser programados de forma explícita, cabe mencionar que
consta de varios pasos para que al final se logre construir un modelo que permita
analizar cada una de las etapas de el ciclo de vida de un negocio con el fin de alcanzar
una visualización de los datos de una manera más atractiva mediante librerías que lo
permiten realizar ya que estas tienen como principal objetivo la inducción de gráficos,
representaciones visuales entre otras de los datos para una mejor comprensión de los
datos , con la finalidad de ser mas amigables con el usuario.
La base de datos que se retomó para esta ´practica consta de la venta de casas con
características que se creen necesarias por defecto como lo son el número de
habitaciones, dirección de la casa, tamaño ,entre otras con la finalidad de satisfacer al
cliente
BIBLIOGRAFIAS

https://www.managementsolutions.com/sites/default/files/publicaciones/esp/machine-
learning.pdf

https://www.iaa.csic.es/python/curso-python-para-principiantes.pdf

https://iartificial.net/librerias-de-python-para-machine-learning/

https://www.ibm.com/downloads/cas/GB8ZMQZ3

http://docs.python.org.ar/tutorial/pdfs/TutorialPython2.pdf

https://iaarbook.github.io/ML/ machine-learning.pdf

Вам также может понравиться