Вы находитесь на странице: 1из 6

Ciencia de datos

La ciencia de datos es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer
conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados,1 lo cual es
una continuación de algunos campos de análisis de datos como la estadística, la minería de datos, el aprendizaje automático y la
analítica predictiva.1

También se define La ciencia de datos como "Un concepto para unificar estadísticas, análisis de datos, aprendizaje automático y
sus métodos relacionados para comprender y analizar los fenómenos reales", 2 empleando técnicas y teorías extraídas de muchos
campos dentro del contexto de las matemáticas, la estadística, la ciencia de la información y la informática.

El ganador del premio Turing, Jim Gray, imaginó la ciencia de datos como un "cuarto paradigma" de la ciencia (empírico,
teórico, computacional y ahora basado en datos) y afirmó que "todo lo relacionado con la ciencia está cambiando debido al
impacto de la tecnología de la información y el diluvio de datos".3

En este nuevo paradigma, los investigadores se apoyan de sistemas y procesos que son muy diferentes a los utilizados en el
pasado, como son modelos, ecuaciones, algoritmos, así como evaluación e interpretación de resultados.1

Índice
Historia
Aplicaciones
Marketing
Gobernanza
Ciencia de datos y Big data
Científico de datos
La importancia de un científico de datos
Referencias
Enlaces externos

Historia
En 1962, John W. Tukey precedió al término “Ciencia de Datos” en su artículo “The Future of Data Analysis” al explicar una
evolución de la estadística matemática. En este, definió por primera vez el análisis de datos como: “Procedimientos para analizar
datos, técnicas para interpretar los resultados de dichos procedimientos, formas de planificar la recopilación de datos para hacer
su análisis más fácil, más preciso o acertado, y toda la maquinaria y los resultados de las estadísticas matemáticas que se aplican
al análisis de datos.”4 En 1977 publicó “Exploratory Data Analysis”, argumentando que era necesario poner más énfasis en el
uso de datos para sugerir hipótesis que probar en modelos estadísticos.

La ciencia de datos ha resultado para muchos una disciplina de reciente creación, pero en la realidad este concepto lo utilizó por
primera vez el científico danés Peter Naur en la década de los sesenta como sustituto de las ciencias computacionales. En 1974
publicó el libro Concise Survey of Computer Methods 5 donde utiliza ampliamente el concepto ciencia de datos, lo que permitió
que se comenzara a utilizar más libremente entre el mundo académico.
En 1977, el International Association for Statistical Computing (IASC) es establecido como una sección del International
Statistical Institute (ISI). “Es la misión de la IASC relacionar la metodología estadística tradicional, tecnología computacional
moderna, y el conocimiento de expertos del tema para convertir datos en información y conocimiento".6

En 1996 el término de Ciencia de Datos fue utilizado por primera vez en una conferencia, llamada "Ciencia de datos,
clasificación y métodos relacionados" en una reunión de miembros de la International Federation of Classification Societies
(IFCS) con sede en Kobe, Japón.6 En 1997, C.F. Jeff Wu dio una lectura llamada "Statistics = Data Science?", donde describió
al trabajo estadístico como una trilogía conformada por recolección de datos, análisis y modelado de datos, y la toma de
decisiones, haciendo la petición de que la estadística fuese renombrada como ciencia de datos y los estadísticos como científicos
de datos.7

En 2001, William S. Cleveland introdujo a la ciencia de datos como una disciplina independiente, extendiendo el campo de la
estadística para incluir los avances en computación con datos en su artículo "Data science: an action plan for expanding the
technical areas of the field of statistics". Cleveland estableció seis áreas técnicas que en su opinión conformarían al campo de la
ciencia de datos: investigaciones multidisciplinarias, modelos y métodos para datos, computación con datos, pedagogía,
evaluación de herramientas, y teoría.8

En abril del 2002, el International Council for Science: Committee on Data for Science and Technology (CODATA) empezó la
publicación del Data Science Journal,9 enfocada en problemas como la descripción de sistemas de datos, su publicación en
Internet, sus aplicaciones y problemas legales. Poco después, en enero del 2003, la Universidad de Columbia empezó a publicar
The Journal of Data Science,10 la cual ofreció una plataforma para que todos los profesionales de datos presentaran sus
perspectivas e intercambiaran ideas.

En 2005, The National Science Board publicó "Long-Lived Digital Data Collections Enabling Research and Education in the
21st Century" definiendo a los científicos de datos como "científicos de computación e información, programadores de bases de
datos y software, expertos disciplinarios, [...] que son cruciales para la gestión exitosa de una colección digital de datos, cuya
actividad primaria es realizar investigación creativa y análisis".11

Fue en el 2008 que Jeff Hammerbacher y DJ Patil lo reutilizaron para definir sus propios trabajos realizados en Facebook y
Linkedin, respectivamente, 12

En 2009, los investigadores Yangyong Zhu y Yun Xiong del Research Center for Dataology and Data Science, publicaron
“Introduction to Dataology and Data Science”, en donde manifiestan que “A diferencia de las ciencias naturales y las ciencias
sociales, Datología y Ciencia de Datos toman datos en la red y su objeto de estudio”.6

En 2013 fue lanzado el IEEE Task Force on Data Science and Advanced Analytics,13 mientras que la primera conferencia
internacional de IEEE International Conference on Data Science and Advanced Analytics fue lanzada en el 2014.14 En 2015, el
International Journal on Data Science and Analytics (https://www.springer.com/computer/database%2Bmanagement%2B%26%2
Binformation%2Bretrieval/journal/41060) fue lanzado por Springer para publicar trabajos originales en ciencia de datos y
analítica de big data.15

Aplicaciones

Marketing
En septiembre de 1994, BusinessWeek publicó el artículo “Marketing de base de datos”, manifestando que las empresas recopilan
una gran cantidad de información sobre los clientes, la cual es analizada para predecir la probabilidad de que compre un producto.
Afirman que se utiliza ese conocimiento para elaborar un mensaje de marketing calibrado con precisión para que el individuo
busque conseguirlo. Asimismo, explican que, en los ochentas, un entusiasmo provocado por la propagación de los lectores de
códigos de barras terminó en una decepción generalizada pues muchas empresas fueron abrumadas por la gran cantidad de datos
para lograr hacer algo útil con la información de sus clientes. Sin embargo, muchas empresas creen que no hay más remedio que
desafiar la frontera marketing y bases de datos para desarrollar más las tecnologías necesarias.16

En 2014 empresa sueca de música en streaming Spotify compra The Echo Nest, una compañía especializada en ciencia de de
datos musicales. Esta ahora es la encargada de almacenar y analizar la información de sus 170 millones de usuarios.17 Con ayuda
de dicha empresa, en 2015 Spotify lanzó un servicio de música personalizada llamado Discover Weekly que semanalmente
recomienda a sus usuarios una selección de canciones que podría interesarles por medio de algoritmos y análisis de los datos de la
música escuchada y el historial de búsqueda de la semana pasada. El servicio recibió una buena recepción generalizada18 y
actualmente figura un fuerte punto de venta ante la competencia de la empresa.19

Netflix, la empresa norteamericana de contenido multimedia en streaming ofrece a sus más de 120 millones de usuarios una
plataforma capaz de analizar, mediante algoritmos, las costumbres de consumo de los usuarios para diferenciar los contenidos que
estos buscan y lograr determinar qué nuevos contenidos les pueden interesar. Todd Yellin, vicepresidente de producto en Netflix,
explicó que algunos de los datos almacenados pueden extenderse desde la hora del día se conectan sus usuarios, cuánto tiempo
pasan dentro de la plataforma, su lista de contenidos recientemente vistos (para analizar incluso el orden específico de estos).
Toda la información que se almacena es utilizada específicamente para ser analizada, aprender del usuario y poder darle
recomendaciones acertadas.20

Gobernanza
En América Latina el Banco Interamericano de Desarrollo (BID) ha desarrollado estudios exploratorios en los que se analiza la
ciencia de datos en la implementación y diseño de políticas públicas en la región, tomando casos en países como Argentina y
Brasil, presentando recomendaciones para su implementación y mantenimiento.

Estas van desde temas como movilidad urbana sostenible, ciudades inteligentes, seguridad, propiedad de datos y privacidad.
Entre las sugerencias presentadas en las investigaciones está la de lograr una “inteligencia del valor público, la cual “tiene la
potencialidad de ser un componente estratégico para la toma de decisiones y el diseño, implementación y evaluación de políticas
públicas”. Otra de ellas es la capacidad para lograr desde este campo una mejora de rendición de cuentas de los gobiernos ante la
ciudadanía y promover un avance en cuanto a la curaduría de datos en las instituciones públicas.21

Ciencia de datos y Big data


Textualmente, Big Data (o macrodatos) se refiere a enormes volúmenes de datos que no pueden procesarse de manera efectiva
con las aplicaciones tradicionales que existen.22 De acuerdo con la guía de Amazon Web Service, esta considera al Big Data
como a una cantidad considerable de datos con dificultades para almacenarse en bases de datos tradicionales, para procesarse en
servidores estándar y para analizarse con aplicaciones habituales.

El término se suele relacionar con ciencia de datos, pues esta suele ser su fuente de información para análisis; La ciencia de datos
logra analizar los grandes conjuntos de datos desordenados e incompletos, para llegar a hallazgos que impulsan decisiones sobre
operaciones y productos.

Científico de datos
Las personas que se dedican a la ciencia de datos se les conoce como científico de datos, de acuerdo con el proyecto Master in
Data Science (http://www.mastersindatascience.org/) define al científico de datos como una mezcla de estadísticos, computólogos
y pensadores creativos, con las siguientes habilidades:

Recopilar, procesar y extraer valor de las diversas y extensas bases de datos.


Imaginación para comprender, visualizar y comunicar sus conclusiones a los no científicos de datos.
Capacidad para crear soluciones basadas en datos que aumentan los beneficios, reducen los costos.
Los científicos de datos trabajan en todas las industrias y hacen frente a los grandes proyectos de datos en
todos los niveles.
El proceso que sigue un científico de datos para responder cuestiones que se le plantean se puede resumir en estos pasos:

1. Extraer datos, independientemente de la fuente y de su volumen.


2. Limpiar los datos, para eliminar lo que pueda sesgar los resultados.
3. Procesar los datos usando métodos estadísticos como inferencia estadística, modelos de regresión, pruebas de
hipótesis, etc.
4. Diseñar experimentos adicionales en caso de ser necesario.
5. Crear visualizaciones graficas de los datos relevantes de la investigación.23
El doctor en estadística Nathan Yau, precisó lo siguiente: el científico de datos es un estadístico que debería aprender interfaces
de programación de aplicaciones (API), bases de datos y extracción de datos; es un diseñador que deberá aprender a programar; y
es un computólogo que deberá saber analizar y encontrar datos con significado.24

En la tesis doctoral de Benjamin Fry explicó que el proceso para comprender mejor a los datos comenzaba con una serie de
números y el objetivo de responder preguntas sobre los datos, en cada fase del proceso que él propone (adquirir, analizar, filtrar,
extraer, representar, refinar e interactuar), se requiere de diferentes enfoques especializados que aporten a una mejor comprensión
de los datos. Entre los enfoques que menciona Fry están: ingenieros en sistemas, matemáticos, estadísticos, diseñadores gráficos,
especialistas en visualización de la información y especialistas en interacciones hombre-máquina, mejor conocidos por sus siglas
en inglés “HCI” (Human-Computer Interaction). Además, Fry afirmó que contar con diferentes enfoques especializados lejos de
resolver el problema de entendimiento de datos, se convierte en parte del problema, ya que cada especialización conduce de
manera aislada el problema y el camino hacia la solución se puede perder algo en cada transición del proceso.25

en:Drew Conway en su página web (http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram) explica con la ayuda


de un diagrama de Venn, las principales habilidades que le dan vida y forma a la ciencia de datos, así como sus relaciones de
conjuntos.

La importancia de un científico de datos


La ciencia de datos ha cobrado recientemente mucha importancia en nuestro acontecer como disciplina o profesión emergente
(científico de datos) y se ha vuelto en foco de atención de cada vez más organizaciones a nivel mundial, tal como lo señaló el
economista en jefe de Google, Hal Varian “El trabajo más sexy en los próximos 10 años será ser estadístico”, palabras sobre las
que reflexionó Thomas H. Davenport para publicar en el 2012 su artículo: Data Scientist: The Sexiest Job of the 21st Century 26
donde describe el perfil que debe tener el científico de datos es el híbrido de un hacker de datos, un analista, un comunicador y un
consejero confiable, combinación extremadamente poderosa y poco común. Davenport, también señala que el científico de datos
no se siente cómodo como se dice coloquialmente “con la correa corta”, es decir, debe tener la libertad de experimentar y explorar
posibilidades. Además, Davenport en el mismo artículo presenta un decálogo de cómo encontrar el científico de datos que la
organización necesita (ver página 74 del artículo).

El informe que publicó “McKinsey”27 en el 2011 estimó que para el mundo de grandes datos en el que vivimos, espera que la
demanda por talento experto en análisis de datos podría alcanzar de los 440,000 a 490,000 puestos de trabajo para el 2018.
[cita requerida]

Referencias
1. Liu, Alex (17 de septiembre de 2015). «Data Science and Data Scientist» (http://www.researchmethods.org/Data
ScienceDataScientists.pdf) (en inglés). Consultado el 24 de septiembre de 2015.
2. Hayashi, Chikio (1998). Studies in Classification, Data Analysis, and Knowledge Organization (https://link.springe
r.com/chapter/10.1007/978-4-431-65950-1_3) (en inglés). Springer Japan. pp. 40-51. ISBN 9784431702085.
doi:10.1007/978-4-431-65950-1_3 (http://dx.doi.org/10.1007%2F978-4-431-65950-1_3). Consultado el 14 de septiembre de
2018.
3. Tansley, Stewart; Tolle, Kristin Michele (1 de enero de 2009). The Fourth Paradigm: Data-intensive Scientific
Discovery (https://books.google.com/books?id=oGs_AQAAIAAJ) (en inglés). Microsoft Research.
ISBN 9780982544204. Consultado el 3 de febrero de 2017.
4. Tukey, John W. (1962-03). «The Future of Data Analysis» (https://projecteuclid.org/euclid.aoms/1177704711).
The Annals of Mathematical Statistics (en inglés) 33 (1): 1-67. ISSN 0003-4851 (https://www.worldcat.org/issn/0003-4851).
doi:10.1214/aoms/1177704711 (http://dx.doi.org/10.1214%2Faoms%2F1177704711). Consultado el 1 de octubre de 2018.
5. Peter Naur (1974). Encyclopedia of Computer Science. Petrocelli Books. 91-44-07881-1.
6. Press, Gil. «A Very Short History Of Data Science» (http://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-
history-of-data-science/). Forbes. Consultado el 3 de febrero de 2017.
7. Wu, C.F. Jeff (1997). "Statistics = Data Science?" (http://www2.isye.gatech.edu/~jeffwu/presentations/datascienc
e.pdf). Consultado el 3 de febrero de 2017.
8. Cleveland, W. S. (2001). Data science: an action plan for expanding the technical areas of the field of statistics.
(en inglés). International Statistical Review / Revue Internationale de Statistique. p. 21–26.
9. «Data Science Journal». Available Volumes. Retrieved from Japan Science and Technology Information
Aggregator, Electronic: http://www.jstage.jst.go.jp/browse/dsj/_vols. 2012, abril.
10. «The Journal of Data Science» (http://www.jds-online.com/v1-1). Contents of Volume 1, Issue 1. 2003, enero.
11. National Science Board (2005). «US NSF - NSB-05-40, Long-Lived Digital Data Collections Enabling Research
and Education in the 21st Century» (http://www.nsf.gov/pubs/2005/nsb0540/). www.nsf.gov (en inglés). National
Science Foundation. Consultado el 3 de febrero de 2017.
12. Perlroth, Nicole (2 de noviembre de 2011). «The World´s 7 Most Powerful Data Scientists» (http://www.forbes.co
m/sites/nicoleperlroth/2011/11/02/tim-oreilly-the-worlds-7-most-powerful-data-scientists/) (en inglés). Consultado
el 24 de septiembre de 2015.
13. « "IEEE Task Force on Data Science and Advanced Analytics".» (http://www.dsaa.co/). Consultado el 3 de febrero
de 2017.
14. « "2014 IEEE International Conference on Data Science and Advanced Analytics".» (https://web.archive.org/web/
20170329172857/http://datamining.it.uts.edu.au/conferences/dsaa14/). Archivado desde el original (http://datami
ning.it.uts.edu.au/conferences/dsaa14/) el 29 de marzo de 2017. Consultado el 3 de febrero de 2017.
15. « "Journal on Data Science and Analytics".» (http://www.springer.com/41060). Consultado el 3 de febrero de
2017.
16. «Bloomberg - Database Marketing» (https://www.bloomberg.com/news/articles/1994-09-04/database-marketing).
www.bloomberg.com. Consultado el 3 de octubre de 2018.
17. «Spotify hits 75 million paid subscribers as it releases first earnings» (https://www.theverge.com/2018/5/2/173126
86/spotify-75-million-premium-subscribers-q1-2018-earnings). The Verge. Consultado el 3 de octubre de 2018.
18. Heath, Alex (6 de septiembre de 2015). «How Spotify's Discover Weekly playlist knows exactly what you want to
hear» (https://www.businessinsider.com.au/how-spotify-discover-weekly-works-2015-9). Business Insider
Australia (en inglés). Consultado el 3 de octubre de 2018.
19. «Spotify vs. Apple Music: The best music streaming service is...» (https://www.cnet.com/news/spotify-vs-apple-m
usic-which-is-the-best-music-service-compared/). CNET (en inglés). 3 de octubre de 2018. Consultado el 3 de
octubre de 2018.
20. «¿Cómo funciona el algoritmo de Netflix?» (https://www.abc.es/play/series/noticias/abci-como-funciona-algoritmo
-netflix-201809040145_noticia.html). abc. Consultado el 8 de octubre de 2018.
21. «El uso de datos masivos y sus técnicas analíticas para el diseño e implementación de políticas públicas en
Latinoamérica y el Caribe (2017)» (https://publications.iadb.org/handle/11319/8485). Banco Interamericano de
Desarrollo. Consultado el 29 de noviembre de 2018.
22. «Data Science vs. Big Data vs. Data Analytics» (https://www.simplilearn.com/data-science-vs-big-data-vs-data-an
alytics-article). Simplilearn.com (en inglés estadounidense). 5 de abril de 2016. Consultado el 10 de octubre de
2018.
23. «¿Qué es un Data Scientist?» (https://inlab.fib.upc.edu/es/blog/que-es-un-data-scientist). inLab FIB. 20 de mayo
de 2015. Consultado el 8 de octubre de 2018.
24. Harris, Harlan (septiembre de 2011). «What is “Data Science” Anyway? En Revolution Analytics» (https://web.arc
hive.org/web/20150925121255/http://www.harlan.harris.name/2011/09/data-science-moores-law-and-moneyball/)
(en inglés). Archivado desde el original (http://www.harlan.harris.name/2011/09/data-science-moores-law-and-mo
neyball/) el 25 de septiembre de 2015. Consultado el 24 de septiembre de 2015.
25. Fry, Benjamin (abril de 2014). «Thesis proposal: Computational Information Design» (http://benfry.com/phd/disser
tation-110323c.pdf) (en inglés). Consultado el 24 de septiembre de 2015.
26. Peter Drucker (2012). Data Scientist: The Sexiest Job of the 21st Century. Harvard Business Review.
27. Manyika, James; Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh, Angela Hung
Byers (mayo de 2011). «Big data: The next frontier for innovation, competition, and productivity» (http://www.mcki
nsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation) (en inglés). Consultado el 24
de septiembre de 2015.

Enlaces externos
Programa de becas [1] (http://insightdatascience.com/).
Comunidad de científicos de datos [2] (https://www.kaggle.com/).
Comunidad de científicos de datos [3] (https://www.topcoder.com/).

Obtenido de «https://es.wikipedia.org/w/index.php?title=Ciencia_de_datos&oldid=120527892»

Esta página se editó por última vez el 19 oct 2019 a las 14:14.

El texto está disponible bajo la Licencia Creative Commons Atribución Compartir Igual 3.0; pueden aplicarse
cláusulas adicionales. Al usar este sitio, usted acepta nuestros términos de uso y nuestra política de privacidad.
Wikipedia® es una marca registrada de la Fundación Wikimedia, Inc., una organización sin ánimo de lucro.

Вам также может понравиться