You are on page 1of 29

Big Data, nuevas epistemologas y los cambios de paradigma

Abstracto

Este artculo examina cmo la disponibilidad de grandes volmenes de datos, junto con los
nuevos anlisis de datos, desafos epistemologas a travs de las ciencias, las ciencias
sociales y humanas establecidas, y evala el grado en que se estn engendrando cambios
de paradigma a travs de mltiples disciplinas. En particular, se explora crticamente
nuevas formas de empirismo que declaran "el fin de la teora ', la creacin de datos
impulsada en lugar de la ciencia basada en el conocimiento, y el desarrollo de las
humanidades digitales y ciencias sociales computacionales que proponen radicalmente
diferentes maneras de hacer sentido de la cultura, la historia, la economa y la sociedad. Se
argumenta que: (1) grandes volmenes de datos y anlisis de datos nuevos son
innovaciones disruptivas que estn reconfigurando en muchos casos cmo se desarrolla la
investigacin; y (2) hay una necesidad urgente de mayor reflexin crtica dentro de la
academia sobre las implicaciones epistemolgicas de la revolucin datos de despliegue,
una tarea que apenas ha comenzado a ser abordado a pesar de los rpidos cambios en las
prcticas de investigacin, actualmente en curso. Despus de revisar crticamente las
posiciones epistemolgicas emergentes, se afirma que un enfoque potencialmente
fructfera sera el desarrollo de una epistemologa situada, reflexiva y contextualmente
matizado.

introduccin
Las revoluciones en la ciencia a menudo han sido precedida de revoluciones en la medicin.
Sinan Aral (citado en Cukier de 2010 )
Big Data crea un cambio radical en nuestra forma de pensar acerca de la investigacin ....
[Se ofrece] un profundo cambio en los niveles de la epistemologa y la tica. Big Data
replantea preguntas clave sobre la constitucin de los conocimientos, los procesos de
investigacin, cmo debemos comprometerse con la informacin, y la naturaleza y la
categorizacin de la realidad ... Big Data Alice nuevos terrenos de objetos, mtodos de
conocimiento, y definiciones de la vida social . ( Boyd y Crawford, 2012 )

Al igual que con muchos de los conceptos que emergen rpidamente, grandes volmenes
de datos se ha definido y operacionalizado, que van desde proclamas trilladas que grandes
volmenes de datos se compone de conjuntos de datos demasiado grandes para caber en
una hoja de clculo Excel o ser almacenados en una nica mquina de diversas maneras (
Strom 2012 ) a las evaluaciones ontolgicas ms sofisticados que se burlan de sus
caractersticas inherentes ( Boyd y Crawford, 2012 ; Mayer-Schnberger Cukier, 2013 ).
Sobre la base de un amplio compromiso con la literatura, Kitchin (2013) detalla que grandes
volmenes de datos es:

muy importante en volumen , que consta de terabytes o petabytes de datos; alta en


velocidad , crendose en o casi en tiempo real; diversa en variedad , siendo estructurada y
no estructurada en la naturaleza; exhaustiva en su alcance, tratando de capturar
poblaciones o sistemas completos (n = todos); de grano fino en la resolucin y nicamente
indicial un documento de identidad; relacional en la naturaleza, que contiene los campos
comunes que permiten la conjuncin de diferentes conjuntos de datos; flexibles ,
manteniendo los rasgos de extensionalidad (puede aadir fcilmente nuevos campos) y
escalabilidad (se puede ampliar de tamao rpidamente). (vase Boyd y Crawford, 2012 ;
Dodge y Kitchin, 2005 ; Laney, 2001 ; Marz y Warren, 2012 ; Mayer-Schnberger y Cukier,
2013 ; . Zikopoulos et al, 2012 ).

En otras palabras, Big Data no es simplemente denota por volumen. De hecho, la industria,
el gobierno y la academia han producido siempre grandes conjuntos de datos - por ejemplo,
los censos nacionales. Sin embargo, teniendo en cuenta los costes y las dificultades de
generar, procesar, analizar y almacenar este tipo de datos, estos datos han sido producidos
de forma muy controlada utilizando tcnicas de muestreo que limitan su mbito de
aplicacin, la temporalidad y el tamao ( Miller, 2010 ). Para hacer el ejercicio de
recopilacin de datos del censo manejable que se han producido una vez cada cinco o 10
aos, acaba de pedir 30 a 40 preguntas, y sus salidas son por lo general bastante gruesa
en la resolucin (por ejemplo, zonas o condados locales en lugar de individuos y hogares).
Por otra parte, los mtodos utilizados para generarlos son bastante inflexibles (por ejemplo,
una vez al censo se establece y se est administrando es imposible modificar o aadir /
eliminar preguntas). Mientras que el censo pretende ser exhaustiva, enumerando todas las

personas que viven en un pas, la mayora de las encuestas y otras formas de generacin
de los datos son muestras, buscando ser representativa de una poblacin.

Por el contrario, los grandes datos se caracteriza por ser generada de forma continua,
buscando ser exhaustiva y de grano fino en su alcance, y flexible y escalable en su
produccin. Ejemplos de la produccin de tales datos incluyen: CCTV digital; el registro de
las compras al por menor; dispositivos digitales que registran y comunican la historia de su
propio uso (por ejemplo, telfonos mviles); el registro de las transacciones e interacciones
a travs de redes digitales (por ejemplo, correo electrnico o banca en lnea); datos de
navegacin que el historial de navegacin a travs de un sitio web o aplicacin; mediciones
de sensores embebidos en objetos o entornos; el escaneo de objetos legibles por mquina,
tales como pases de viaje o cdigos de barras; y las noticias de los medios sociales (
Kitchin, 2014 ). Estos estn produciendo enormes flujos, dinmicos de diversos, de grano
fino, datos relacionales. Por ejemplo, en 2012 Wal-Mart estaba generando ms de 2,5
petabytes (2 50 bytes) de datos relativos a ms de 1 milln de transacciones de los clientes
cada hora ( Open Data Center Alliance, 2012 ) y Facebook inform que se estaba
procesando 2,5 millones de piezas de de contenido (enlaces, comentarios, etc.), 2,7
millones de acciones "como" y 300 millones de subida de fotos por da ( Constine, 2012 ).
La manipulacin y el anlisis de esos datos es una propuesta muy diferente a tratar con un
censo cada 10 aos o una encuesta de unos pocos cientos de los encuestados.

Mientras que la produccin de tales Big Data ha existido en algunos mbitos, como la
teledeteccin, la prediccin del tiempo, y los mercados financieros, desde hace algn
tiempo, una serie de avances tecnolgicos, como la computacin ubicua, trabajo internet
generalizada, y los nuevos diseos de bases de datos y almacenamiento soluciones, han
creado un punto de inflexin para su generacin y anlisis de rutina, no menos importante
de las cuales son nuevas formas de anlisis de datos diseados para hacer frente a la
abundancia de datos ( Kitchin, 2014 ). Tradicionalmente, las tcnicas de anlisis de datos
se han diseado para extraer ideas de los conjuntos de datos escasos, estticos, limpias y
mal relacionales, cientfico de la muestra y se adhieren a las suposiciones estrictas (como
la independencia, la estacionalidad, y la normalidad), y generados y analizados con una
pregunta especfica en mente ( Miller, 2010 ). El reto de analizar grandes volmenes de

datos es hacer frente a la abundancia, la exhaustividad y la variedad, la puntualidad y el


dinamismo, el desorden y la incertidumbre, alta relacionalidad, y el hecho de que gran parte
de lo que se genera tiene ninguna pregunta especfica en mente o es un subproducto de
otra actividad . Tal desafo era hasta hace poco demasiado complejo y difcil de
implementar, pero ha llegado a ser posible debido al clculo de alta potencia y las nuevas
tcnicas analticas. Estas nuevas tcnicas se basan en la investigacin relativa a los
sistemas de inteligencia y de expertos artificiales que han tratado de producir aprendizaje
automtico que puede computacionalmente y automticamente mina y detectar patrones y
construir modelos predictivos y optimizar los resultados ( Han et al., 2011 ; Hastie et al.,
2009 ). Por otra parte, ya que los diferentes modelos tienen sus puntos fuertes y dbiles, y
que a menudo es difcil prejuzgar qu tipo de modelo y sus diferentes versiones
desempear mejor en cualquier conjunto de datos, un conjunto enfoque puede ser
empleado para construir mltiples soluciones ( Seni y personas mayores, 2010 ). Aqu,
literalmente, cientos de diferentes algoritmos se pueden aplicar a un conjunto de datos para
determinar el mejor o un modelo compuesto o explicacin ( Siegel, 2013 ), un enfoque
radicalmente diferente al que se utiliza tradicionalmente en la que el analista selecciona un
mtodo apropiado en base a su conocimiento de las tcnicas y los datos. En otras palabras,
anlisis de grandes datos permite una nueva aproximacin epistemolgica para hacer
sentido del mundo; En lugar de probar una teora mediante el anlisis de los datos
pertinentes, los nuevos anlisis de datos tratan de obtener una visin 'nacidos a partir de
los datos .

La explosin en la produccin de grandes volmenes de datos, junto con el desarrollo de


nuevas epistemologas, est llevando a muchos a sostener que una revolucin de datos
est en marcha que ha consecuencias de largo alcance a cmo se produce el conocimiento,
desarrolla la actividad empresarial y el gobierno promulg ( Anderson, 2008 ; Bollier de
2010 ; Floridi, 2012 ; Mayer-Schnberger y Cukier, 2013 ). Con respecto a la produccin de
conocimiento, se afirma que grandes volmenes de datos presenta la posibilidad de un
nuevo paradigma de investigacin a travs de mltiples disciplinas. Segn lo establecido
por Kuhn (1962) , un paradigma constituye una forma aceptada de interrogar al mundo y
sntesis del conocimiento comn a una proporcin sustancial de los investigadores en una
disciplina en un momento dado en el tiempo. Peridicamente, Kuhn argumenta, una nueva
forma de pensar que emerge retos aceptadas teoras y enfoques. Por ejemplo, la teora de

la evolucin de Darwin alter radicalmente el pensamiento conceptual dentro de las ciencias


biolgicas, as como un desafo a la doctrina religiosa del creacionismo. Jim Gray (como se
detalla en Oye et al., 2009 ) traza la evolucin de la ciencia a travs de cuatro paradigmas
generales (ver Tabla 1 ). A diferencia de la tesis de Kuhn de que los cambios de paradigma
se producen porque el modo dominante de la ciencia no puede dar cuenta de fenmenos
particulares o responder a preguntas clave, exigiendo as la formulacin de nuevas ideas,
transiciones de Gray se basan en los avances en las formas de datos y el desarrollo de
nuevos mtodos analticos. Se propone por lo tanto que la ciencia est entrando en una
cuarta paradigma basado en la creciente disponibilidad de grandes volmenes de datos y
nuevos anlisis.

Tabla 1.
Cuatro paradigmas de la ciencia.
El argumento de Kuhn ha sido objeto de muchas crticas, sobre todo porque en algunos
mbitos acadmicos hay poca evidencia de paradigmas operativos, sobre todo en algunas
ciencias sociales donde hay un conjunto diverso de enfoques filosficos empleadas (por
ejemplo, humanos geografa, sociologa), aunque en otra dominios, tales como las ciencias,
no ha habido ms unidad epistemolgica en torno a cmo se lleva a cabo la ciencia,
utilizando un mtodo cientfico bien definido, respaldado por la prueba de hiptesis para
verificar o falsificar teoras. Por otra parte, las cuentas paradigmticos producen
excesivamente desinfectados y las historias lineales de cmo evolucionan las disciplinas,
suavizando las formas desordenadas, en pugna y plural en el que la ciencia se desarrolla
en la prctica. Sin embargo, mientras que la nocin de paradigmas es problemtico, que
tiene utilidad en la elaboracin de los debates actuales sobre el desarrollo de grandes
volmenes de datos y sus consecuencias, porque muchas de las afirmaciones que se
hacen con respecto a la produccin de conocimiento sostener que se est creando una
epistemologa fundamentalmente diferente; que la transicin a un nuevo paradigma est en
marcha. Sin embargo, la forma que esta nueva epistemologa est tomando se pone en
duda. El resto de este documento examina crticamente el desarrollo de un cuarto
paradigma emergente en la ciencia y su forma, y explora en qu medida los datos de la
revolucin est llevando a epistemologas alternativas en las humanidades y las ciencias
sociales y el cambio de las prcticas de investigacin.

Un cuarto de paradigma en la ciencia?

Mientras que Jim Gray prev el cuarto paradigma de la ciencia para ser intensivo de datos
a una forma radicalmente nueva extensin del mtodo cientfico establecido, otros sugieren
que grandes volmenes de datos marca el comienzo de una nueva era del empirismo, en
el que el volumen de datos, acompaada de tcnicas que puede revelar su verdad
inherente, permite que los datos hablan por s mismos libres de la teora. La vista empirista
ha ganado credibilidad fuera de la academia, especialmente dentro de los crculos de
negocios, pero sus ideas tambin han echado races en el nuevo campo de la ciencia de
datos y otras ciencias. Por el contrario, un nuevo modo de la ciencia basada en datos est
emergiendo dentro de las disciplinas tradicionales de la academia. En esta seccin, las
afirmaciones epistemolgicas de ambos enfoques se examinan crticamente, consciente de
los diferentes conductores y las aspiraciones de los negocios y la academia, con el primero
preocupado con el empleo de anlisis de datos para identificar nuevos productos, mercados
y oportunidades en lugar de avanzar en el conocimiento per se, y el segundo se centr en
la mejor manera de darle sentido al mundo y para determinar explicaciones acerca de los
fenmenos y procesos.

El fin de la teora: El empirismo renacer


Para los comentaristas como Chris Anderson, ex editor en jefe de Wired revista, grandes
volmenes de datos, anlisis de datos y nuevos enfoques de conjunto sealan una nueva
era de la produccin de conocimiento se caracteriza por "el fin de la teora '. En un artculo
provocador, Anderson (2008) sostiene que "el diluvio de datos hace que el mtodo cientfico
obsoleto '; que los patrones y relaciones que aparecen en grandes volmenes de datos
producen inherentemente conocimiento significativo y detallada sobre fenmenos
complejos. En esencia el argumento de que grandes volmenes de datos permite un modo
emprico de la produccin de conocimiento, l afirma:
En la actualidad existe una mejor manera. Petabytes nos permite decir: "La correlacin es
suficiente. ' ... Podemos analizar los datos sin hiptesis sobre lo que podra mostrar.
Podemos lanzar los nmeros en los mayores grupos informticos del mundo ha visto y dejar
que los algoritmos estadsticos encontrar patrones donde la ciencia no puede ... Correlacin
sustituye a la causalidad, y la ciencia puede avanzar incluso sin modelos coherentes,

teoras unificadas, o en realidad cualquier explicacin mecanicista en absoluto. No hay


razn para aferrarse a nuestras viejas costumbres.
Del mismo modo, Prensky (2009) argumenta:
los cientficos ya no tienen que hacer conjeturas, construir hiptesis y modelos, y probarlos
con los experimentos y ejemplos basados en datos. En su lugar, se puede extraer el
conjunto completo de datos de patrones que revelan efectos, produciendo conclusiones
cientficas sin experimentacin adicional.
Dyche (2012) por lo tanto sostiene que "la minera revela datos grandes relaciones y
patrones que ni siquiera saba que debe buscar." Del mismo modo, Steadman (2013)
argumenta:
El enfoque de grandes volmenes de datos a la recogida de informacin permite a un
analista para obtener la resolucin completa de los asuntos internacionales. No se pierde
nada de mirar demasiado de cerca a una seccin particular de datos; no se pierde nada de
tratar de obtener una perspectiva demasiado amplia en una situacin en la que el detalle
fino se pierde .... El analista ni siquiera tiene que preocuparse de proponer una hiptesis
ms.
Los ejemplos utilizados para ilustrar esta posicin por lo general provienen de la
comercializacin y la venta al por menor. Por ejemplo, Dyche (2012) detalla el caso de una
cadena de tiendas que analiz 12 aos de valor de las transacciones de compra de las
posibles relaciones entre inadvertidas productos que terminaron en las cestas de los
compradores. El descubrimiento de correlaciones entre ciertos elementos llevaron a nuevas
colocaciones de productos y un incremento del 16% en los ingresos por carro de compras
en el juicio del primer mes. No haba ninguna hiptesis de que el Producto A fue comprado
a menudo con H del producto que luego se puso a prueba. Los datos se les pregunt
simplemente para descubrir qu relaciones existido que podra haber sido previamente
desapercibido. Del mismo modo, el sistema de recomendacin de Amazon produce
sugerencias para otros artculos que un comprador podra estar interesado en sin saber
nada acerca de la cultura y las convenciones de libros y la lectura; simplemente identifica
los patrones de compra de los clientes a travs con el fin de determinar si la persona A le
gusta el libro X tambin son propensos a recibir Libro Y dada su propia y los patrones de
consumo de los dems. Si bien puede ser deseable para explicar por qu existen
asociaciones dentro de los datos y por qu podran ser significativos, tales explicacin se

convierte como en gran medida innecesaria. Siegel (2013: 90) argumenta de este modo
con respecto al anlisis predictivo: "Por lo general, no sabemos acerca la causalidad, y que
a menudo no necesariamente importa ... el objetivo es predecir ms de lo que es para
entender el mundo ... simplemente tiene que trabajar; triunfa sobre la prediccin de
explicacin ".

Algunos programas de software de anlisis de datos se vende precisamente en esta nocin.


Por ejemplo, el software de visualizacin de minera de datos y Ayasdi afirma ser capaz de
detectar automticamente los puntos de vista - independientemente de la complejidad - sin
hacer preguntas. Los clientes de Ayasdi finalmente pueden aprender las respuestas a
preguntas que no saben preguntar en primer lugar. En pocas palabras, es Ayasdi
'serendipia digital ". ( Clark, 2013 )
Adems, se pretende haber eliminado totalmente
el elemento humano que se dedica a la minera de datos - y, como tal, todos los prejuicios,
ser humano que va con ella. En lugar de esperar a que se le pregunte una pregunta o ser
dirigido a enlaces especficos de datos existentes, el sistema - no dirigida - entregar los
patrones de un controlador humano no podra haber pensado que debe buscar. ( Clark,
2013 )
Hay un conjunto potente y atractivo de las ideas en el trabajo en la epistemologa empirista
de que se opone al enfoque deductivo que es hegemnica dentro de la ciencia moderna:

Los datos se pueden capturar grandes todo un dominio y proporcionar la mxima


resolucin; no hay necesidad de una teora a priori, modelos o hiptesis;
mediante la aplicacin de anlisis de datos agnstico los datos pueden hablar por s mismos
libres de sesgo humano o marco, y cualquier patrones y relaciones dentro de grandes
volmenes de datos son intrnsecamente significativa y veraz;

significado trasciende el contexto o dominio especfico de conocimiento, por lo que puede


ser interpretado por cualquier persona que pueda decodificar una visualizacin estadstica
o datos.
Estos trabajan juntos para sugerir que se est creando un nuevo modo de la ciencia, en la
que el modus operandi es puramente inductiva en la naturaleza.
Mientras que esta epistemologa empirista es atractivo, que se basa en el pensamiento
falaz con respecto a las cuatro ideas que sustentan su formulacin. En primer lugar, a pesar
de grandes volmenes de datos puede pretende ser exhaustivo, la captura de un dominio
entero y proporcionar la mxima resolucin, que es a la vez una representacin y una
muestra, conformada por la tecnologa y la plataforma utilizada, la ontologa de datos
empleada y el entorno reglamentario, y que est sujeta al sesgo de muestreo ( Crawford,
2013 ; Kitchin, 2013 ). De hecho, todos los datos proporcionan vistas oligoptic del mundo:
vistas desde ciertos puntos de vista, el uso de determinadas herramientas, en lugar de una
que todo lo ve, vista de Dios infalible ojo ( Amin y Thrift, 2002 ; Haraway, 1991 ). Como tal,
los datos no son simplemente elementos naturales y esenciales que se abstraen de el
mundo en formas neutrales y objetivos y pueden ser aceptadas por su valor nominal; los
datos se crean dentro de un conjunto complejo que da forma activa su constitucin ( Ribes
y Jackson, 2013 ).

En segundo lugar, los grandes datos no surge de la nada, libre de la "regulacin de la fuerza
de la filosofa" ( Berry, 2011 : 8). Contra, sistemas han sido diseados para capturar ciertos
tipos de datos y los anlisis y algoritmos utilizados se basan en el razonamiento cientfico y
se han refinado a travs de pruebas cientficas. Como tal, una estrategia inductiva de la
identificacin de patrones dentro de los datos no se produce en un vaco cientfico y se
discursivamente enmarcada por los resultados anteriores, las teoras y la formacin; por la
especulacin que se basa en la experiencia y el conocimiento ( Leonelli, 2012 ). Nuevas
analticas pueden presentar la ilusin de descubrir puntos de vista de forma automtica sin
hacer preguntas, pero los algoritmos utilizados sin duda surgi y se probado cientficamente
para la validez y veracidad.

En tercer lugar, al igual que los datos no se generan libre de la teora, ni tampoco pueden
simplemente hablar por s mismos libres de sesgo humano o enmarcar. Como Gould (1981:

166) seala, "datos inanimados no pueden hablar por s mismos, y siempre hacer valer
algn marco conceptual, ya sea intuitiva y mal formado o forma firme y estructurado
formalmente, a la tarea de investigacin, anlisis y interpretacin'. Dar sentido a los datos
siempre se enmarca - los datos se examinan a travs de una lente particular que influye en
la forma en que se interpretan. Incluso si se automatiza el proceso, los algoritmos utilizados
para procesar los datos estn impregnadas de valores particulares y contextualizan en un
enfoque cientfico en particular. Adems, los patrones que se encuentran dentro de un
conjunto de datos no son intrnsecamente significativa. Las correlaciones entre variables
dentro de un conjunto de datos pueden ser de naturaleza aleatoria y tienen poca o ninguna
asociacin causal, e interpretarlas como tales pueden producir graves falacias ecolgicas.
Esto puede ser exacerbado en el caso de grandes volmenes de datos como la posicin
empirista parece promover la prctica de la filtracin de informacin - la caza de toda
asociacin o modelo.

En cuarto lugar, la idea de que los datos hablan por s mismas sugiere que cualquier
persona con un conocimiento razonable de las estadsticas debe ser capaz de interpretar
sin contexto o conocimiento especfico del dominio. Se trata de una presuncin expresada
por algunos datos e informticos y otros cientficos, como los fsicos, todos los cuales han
llegado a ser activo en la prctica de las ciencias sociales y la investigacin en
humanidades. Por ejemplo, varios fsicos han dirigido su atencin a las ciudades,
empleando anlisis de grandes volmenes de datos para modelar los procesos sociales y
espaciales y para identificar supuestas leyes que sustentan su formacin y funciones (
Bettencourt et al., 2007 ; Lehrer, 2010 ). Estos estudios a menudo ignoran deliberadamente
un par de siglos de becas en ciencias sociales, incluyendo casi un siglo de anlisis
cuantitativo y la construccin de modelos. El resultado es un anlisis de las ciudades que
es reduccionista, funcionalista e ignora los efectos de la cultura, la poltica, la poltica, la
gobernabilidad y el capital (que reproducen los mismos tipos de limitaciones generadas por
las ciencias cuantitativas / positivistas sociales en la mitad del siglo 20). Un conjunto similar
de preocupacin es compartida por los de las ciencias. Strasser (2012) , por ejemplo, seala
que dentro de las ciencias biolgicas, bioinformticos que tienen una forma muy estrecha y
particular de entender la biologa se muelen reclamando una vez ocupado por el clnico y
el bilogo experimental y molecular. Estos cientficos estn, sin duda, haciendo caso omiso
de las observaciones de Porway (2013):

Sin expertos en la materia disponibles para articular los problemas con antelacin, se
obtiene [pobres] resultados .... Expertos en la materia son doblemente necesarios para
evaluar los resultados del trabajo, sobre todo cuando se est tratando con datos sensibles
sobre el comportamiento humano. A medida que los cientficos de datos, estamos bien
equipados para explicar los datos "qu" de, pero rara vez deberamos tocar la cuestin de
"qu" en asuntos que no son expertos en.
En pocas palabras, mientras que los datos pueden ser interpretados libre de contexto y
dominio- conocimientos especficos, es probable que sea anmica e ineficiente tal
interpretacin epistemolgica ya que carece de empotrar en los debates ms amplios y
conocimientos.

Estas nociones falaces han ganado algo de traccin, especialmente dentro de los crculos
de negocios, debido a que poseen una narrativa conveniente para las aspiraciones de las
empresas de conocimiento orientado (por ejemplo, los corredores de datos, proveedores
de anlisis de datos, proveedores de software, consultoras) en la venta de sus servicios.
Dentro del marco emprico, anlisis de datos ofrecen la posibilidad de un conocimiento
profundo, objetivo y rentable sin la ciencia o los cientficos, y sus gastos generales del coste,
la contingencia, y la bsqueda de la explicacin y la verdad. En este sentido, mientras que
las tcnicas de las ciencias datos empleados podran sostener la prominencia genuina por
los practicantes, la articulacin de un nuevo empirismo funciona como un dispositivo de
retrica discursiva diseado para simplificar un enfoque epistemolgico ms compleja y de
convencer a los vendedores de la utilidad y el valor del anlisis de Big Data .

ciencia basada en datos

En contraste con las nuevas formas de empirismo, la ciencia basada en datos busca
mantener a los principios del mtodo cientfico, pero es ms abierta a la utilizacin de una
combinacin hbrida de abduccin, inductivos y deductivos enfoques para avanzar en la
comprensin de un fenmeno. Se diferencia del diseo tradicional deductivo, experimental
en que se busca generar hiptesis y percepciones 'nacidos de los datos "ms que" nace de
la teora "( Kelling et al., 2009 : 613). En otras palabras, se trata de incorporar un modo de

induccin en el diseo de la investigacin, aunque la explicacin a travs de la induccin


no es el punto final previsto (al igual que con los enfoques empiristas). En lugar de ello, se
forma un nuevo modo de generacin de hiptesis antes se emplea un enfoque deductivo.
Tampoco el proceso de induccin surgen de la nada, sino que se encuentra y se
contextualiza dentro de un dominio terico altamente evolucionado. Como tal, la estrategia
adoptada epistemolgica dentro de la ciencia basada en datos es el uso de tcnicas de
descubrimiento de conocimiento guiadas para identificar posibles preguntas (hiptesis) que
merecen mayor control y ensayo.

El proceso es guiado en el sentido de que la teora existente se utiliza para dirigir el proceso
de descubrimiento de conocimiento, en lugar de simplemente con la esperanza de
identificar todas las relaciones dentro de un conjunto de datos y asumir que son de alguna
manera significativa. Como tal, cmo se generan o reutilizados de datos est dirigida por
ciertos supuestos, apoyado por el conocimiento y la experiencia terica y prctica en cuanto
a si las tecnologas y sus configuraciones capturarn o producir material de investigacin
apropiada y til. Los datos no son generados por todos los medios posibles, utilizando todo
tipo de tecnologa disponible o cada tipo de marco de muestreo; ms bien, las estrategias
de generacin de datos y reutilizacin son cuidadosamente pensado, con las decisiones
estratgicas hechas para cosechar ciertos tipos de datos y no a otros. Del mismo modo,
cmo se procesan estos datos, gestionados y analizados se gua por suposiciones en
cuanto a qu tcnicas podran ofrecer una perspectiva interesante. Los datos no estn
sujetos a cada encuadre ontolgica es posible, o toda forma de tcnica de minera de datos
con la esperanza de que revelan una verdad oculta. Por el contrario, las decisiones
informadas tericamente se hacen sobre la mejor manera de abordar un conjunto de datos
de tal manera que se revelar la informacin que ser de inters potencial y es digno de
mayor investigacin. Y en lugar de comprobar si todas las relaciones revel ha veracidad,
la atencin se centr en aquellos - en base a unos criterios - que aparentemente ofrecen la
forma ms probable o vlida hacia adelante. De hecho, muchas supuestas relaciones
dentro de los conjuntos de datos de forma rpida pueden descartarse como trivial o absurdo
por especialistas de dominio, con otros marcan como merece ms atencin ( Miller, 2010 ).

Dicha toma de decisiones con respecto a los mtodos de generacin y anlisis de datos se
basa en el razonamiento abductivo. La abduccin es un modo de inferencia lgica y el
razonamiento remitida por CS Peirce (1839-1914) ( Miller, 2010 ). Se busca una conclusin
que tenga sentido lgico y razonable, pero no es definitiva en su reclamacin. Por ejemplo,
no hay ningn intento de deducir cul es la mejor manera de generar los datos, sino ms
bien para identificar un enfoque que tiene un sentido lgico teniendo en cuenta lo que ya
se sabe acerca de este tipo de produccin de datos. Secuestro es muy usada en la ciencia,
especialmente en la formulacin de hiptesis, aunque dicho uso no se reconoce
ampliamente. Cualquier relacin reveladas dentro de los datos no entonces surgen de la
nada y ni tampoco simplemente hablan por s mismos. El proceso de induccin - de ideas
que emergen de los datos - est enmarcada contextualmente. Y esas ideas no son el punto
final de una investigacin, dispuesto y motivado en una teora. Por el contrario, las ideas
sirven de base para la formulacin de hiptesis y la prueba de su validez deductiva. En
otras palabras, la ciencia basada en datos es una versin reconfigurado del mtodo
cientfico tradicional, proporcionando una nueva forma en la que la construccin de la teora.
No obstante, el cambio epistemolgico es significativa.

En lugar de empirismo y el final de la teora, se sostiene por algunos que la ciencia basada
en los datos se convertir en el nuevo paradigma del mtodo cientfico en una poca de
grandes volmenes de datos debido a que la epistemologa favorecida es adecuado para
extraer valiosa informacin adicional, el tradicional "en el conocimiento la ciencia impulsada
'sera un fracaso para generar ( Kelling et al., 2009 ; Loukides de 2010 ; Miller, 2010 ).
Impulsada por el conocimiento de ciencia, utilizando un enfoque deductivo recta, tiene
particular utilidad en la comprensin y explicacin del mundo en las condiciones de escasez
de datos y la computacin dbil. El uso continuado de este enfoque, sin embargo, cuando
los avances tecnolgicos y metodolgicos significan que es posible realizar anlisis mucho
ms rico de los datos - la aplicacin de los nuevos anlisis de datos y ser capaz de conectar
los datos en conjunto grande y dispar juntos en formas que hasta ahora eran imposibles, y
que producen nuevos datos valiosos e identificar y abordar las cuestiones de maneras
nuevas y emocionantes - tiene poco sentido. Por otra parte, los defensores de la ciencia
basada en datos argumentan que es mucho ms adecuado para explorar, extraer valor y
dar sentido, conjuntos de datos interconectadas masivas, fomentar la investigacin
interdisciplinar que conjuga experiencia en el campo (ya que es menos limitada por el marco

terico de partida) y que dar lugar a modelos y teoras de sistemas complejos enteros ms
holsticas y extensas en lugar de elementos de ellas ( Kelling et al., 2009 ).

Por ejemplo, se afirma que la ciencia basada en datos va a transformar nuestra


comprensin de los sistemas ambientales ( Bryant et al., 2008 ; . Lehning et al, 2009 ). Esto
permitir a datos de alta resolucin que se generan a partir de una variedad de fuentes, a
menudo en tiempo real (como las estaciones convencionales y mviles meteorolgicas,
imgenes areas y satelitales, radares meteorolgicos, transmitir observaciones y calibrar
las estaciones, las observaciones de los ciudadanos, planta y LIDAR areo , toma de
muestras, las medidas de gases, muestras de suelo, y sensores distribuidos agua calidad
que miden dominios tales como la temperatura del aire y la humedad seleccionado) para
integrarse juntos para proporcionar modelos muy detallada de los entornos en el flujo (en
lugar de en congelacin puntos en el tiempo y espacio) y para identificar las relaciones
especficas entre los fenmenos y procesos que generan nuevas hiptesis y teoras que
luego se pueden probar adems establecer su veracidad. Tambin ayudar a identificar y
an ms entender los puntos de conexin entre los diferentes compartimentos ambientales
- tales como la atmsfera (aire), la biosfera (ecosistemas), la hidrosfera (sistemas de agua),
litosfera (la cscara rocosa de la Tierra) y pedosfera (suelos) - y ayudar en la integracin
de las teoras en un conjunto terico ms holstica. Esto proporcionar una mejor
comprensin de los diversos procesos, relacionados entre s en el trabajo y las
interconexiones con los sistemas humanos, y se puede utilizar para guiar a los modelos y
simulaciones para predecir las tendencias a largo plazo y las posibles estrategias de
adaptacin.

ciencias sociales y las humanidades digitales computacionales

Mientras que las epistemologas del empirismo grandes volmenes de datos y la ciencia
basada en datos parecen destinados a transformar el enfoque de la investigacin tomada
en las ciencias naturales, la vida, fsicas y de ingeniera, su trayectoria en las ciencias
humanas y sociales es menos seguro. Estas reas de investigacin son muy diversos en
sus bases filosficas, con slo algunos estudiosos que emplean la epistemologa comn en
las ciencias. Los que utilizan el mtodo cientfico con el fin de explicar y modelar los

fenmenos sociales, en trminos generales, se basan en las ideas del positivismo (aunque
podran no adoptar una etiqueta de este tipo; Kitchin, 2006 ). Este tipo de trabajo tiende a
centrarse en la informacin objetiva, cuantificada - fenmenos empricamente observables
que pueden ser medidos con firmeza (como el recuento, la distancia, el costo y el tiempo),
en oposicin a los aspectos ms intangibles de la vida humana, tales como creencias o
ideologa - utilizando la prueba estadstica para establecer relaciones causales y construir
teoras y modelos predictivos y simulaciones. Enfoques positivistas estn bien establecidos
en la economa, la ciencia poltica, la geografa humana y la sociologa, pero son raros en
las humanidades. Sin embargo, dentro de estas disciplinas mencionadas, se ha producido
un fuerte movimiento en el ltimo medio siglo hacia enfoques post-positivistas,
especialmente en la geografa humana y la sociologa.

Para los estudiosos positivistas de las ciencias sociales, el Big Data ofrece una gran
oportunidad para desarrollar ms sofisticados a mayor escala, modelos, de grano ms fino
de la vida humana. A pesar de la preocupacin por el acceso a grandes volmenes de datos
sociales y econmicos (mucha de la cual es generada por los intereses privados) y
cuestiones como la calidad de los datos, Big Data ofrece la posibilidad de cambiar 'a partir
de datos con escasez de estudios ricas en datos de las sociedades; de las instantneas
estticas a dinmicas desdoblamientos; agregaciones de gruesas a altas resoluciones; a
partir de modelos relativamente simples hasta las ms complejas, sofisticadas simulaciones
'( Kitchin, 2014 : 3). Existe la posibilidad de una nueva era de la ciencia social computacional
que produce estudios con mucha mayor amplitud, la profundidad, la escala y la puntualidad,
y que son inherentemente longitudinal, en contraste con la investigacin en ciencias
sociales existentes ( Lazer et al., 2009 ; Batty et al ., 2012 ). Por otra parte, la variedad,
exhaustividad, la resolucin y la relacionalidad de los datos, adems de la creciente poder
de la computacin y los nuevos anlisis de datos, abordan algunas de las crticas de la beca
positivista hasta la fecha, especialmente los de reduccionismo y el universalismo,
proporcionando ms de grano fino, y anlisis matizado sensible que puede tener en cuenta
el contexto y la contingencia, y se puede utilizar para refinar y ampliar los conocimientos
tericos del mundo social y espacial ( Kitchin, 2013 ). Adems, dada la extensin de datos,
es posible probar la veracidad de tal teora a travs de una variedad de entornos y
situaciones. En tales circunstancias, se argumenta que el conocimiento sobre los
individuos, las comunidades, las sociedades y entornos se har ms profundo y til con

respecto a la formulacin de polticas y abordar los diversos problemas que enfrenta la


humanidad.

Para los estudiosos de post-positivistas, Big Data ofrece tanto oportunidades como
desafos. Las oportunidades son una proliferacin, la digitalizacin y la interconexin de un
conjunto diverso de datos analgicos y no estructurados, en gran parte nueva (por ejemplo,
los medios de comunicacin social) y gran parte de lo que ha sido hasta ahora de difcil
acceso (por ejemplo, millones de libros, documentos, peridicos, fotografas, obras de arte,
objetos materiales, etc., de toda la historia que han sido prestados en forma digital en el
ltimo par de dcadas por una serie de organizaciones; Cohen, 2008 ), y tambin la
provisin de nuevas herramientas de la custodia de informacin, gestin y anlisis que
puede manejar un nmero masivo de objetos de datos. En consecuencia, en lugar de
concentrarse en un puado de novelas o fotografas, o un par de artistas y sus obras, se
hace posible la bsqueda y conexin a travs de un gran nmero de obras relacionadas;
en lugar de centrarse en un puado de sitios web o salas de chat, los videos, los peridicos
en lnea, se hace posible examinar cientos de miles de tales medios ( Manovich, 2011 ).
Estas oportunidades son ampliamente siendo examinadas ms a travs del emergente
campo de las humanidades digitales.

Inicialmente, las humanidades digitales consistieron en la curacin y el anlisis de los datos


que han nacido digital y los proyectos de digitalizacin y archivo que pretendan representar
textos analgicos y los objetos materiales en formas digitales que puedan organizarse y
buscado y ser sometidos a formas bsicas de la general, automatizado o guiada anlisis
como las visualizaciones de resumen de contenido ( Schnapp y Presner de 2009 ).
Posteriormente, sus defensores se han dividido en dos campos. El primer grupo cree que
las nuevas tcnicas digitales de humanidades - conteo, grficos, mapas y la lectura a
distancia - llevar el rigor metodolgico y la objetividad de disciplinas que hasta ahora han
sido poco sistemtica y aleatoria en su enfoque y el enfoque ( Moretti, 2005 ; Ramsay, 2010
). Por el contrario, el segundo grupo sostiene que, en lugar de sustituir los mtodos
tradicionales o la prestacin de un emprico o un enfoque positivista de las humanidades,
las nuevas tcnicas de complementar y aumentar los mtodos de humanidades existentes
y facilitan las formas tradicionales de interpretacin y construccin de teoras, permitiendo

estudios de alcance mucho ms amplio para responder a las preguntas que seran
imposibles de responder, pero todos sin cmputo ( Berry, 2011 ; Manovich, 2011 ).

Las humanidades digitales no ha sido universalmente acogido, con detractores


contendientes que el uso de las computadoras como "mquinas de lectura '( Ramsay, 2010
) para llevar a cabo la" lectura distante "( Moretti, 2005 ) va en contra de y socava los
mtodos tradicionales de la lectura minuciosa. Culler (2010 : 22) seala que la lectura
minuciosa implica el pago de 'atencin a cmo se produce o se transmite significado, a qu
tipo de estrategias y tcnicas literarias y retricas estn desplegados para lograr lo que el
lector necesita para ser los efectos de la obra o pasaje' - algo que una lectura a distancia
es incapaz de realizar. Su preocupacin es que un enfoque de las humanidades digitales
promueve la investigacin literaria que no implica lectura real. Del mismo modo, Trumpener
(2009 : 164) sostiene que un "modelo estadsticamente impulsado de la historia literaria ...
parece requerir un impersonal mano invisible ', continuando:" cualquier intento de ver el
cuadro grande necesita ser informado por el amplio conocimiento, un astuto, historizada
sentido de cmo los gneros literarios y las instituciones de trabajo y herramientas
interpretativas incisivas '(pp. 170-171). Del mismo modo, Marche (2012) sostiene que los
bienes culturales, como la literatura, no pueden ser tratados como meros datos. Una pieza
de la escritura no es simplemente un orden de las letras y palabras; es contextual y
transmite significado y tiene cualidades que son inefables. Los algoritmos son muy buenos
para capturar y descifrar el significado o contexto y, Marche argumenta, el tratamiento de
'toda la literatura, como si se tratara de la misma ". Y contina:
[e] l anlisis algortmico de novelas y artculos periodsticos es necesariamente en el lmite
de la tendencia reductora. El proceso de convertir la literatura en datos elimina la distincin
en s. Se elimina el sabor. Se elimina todo el refinamiento de las crticas. Se elimina la
historia de la recepcin de las obras.
Jenkins (2013) concluye de esta manera:
el valor de las artes, la calidad de una obra de teatro o una pintura, no se puede medir. Se
puede poner todo tipo de datos en una mquina: fechas, colores, imgenes, los ingresos
de taquilla, y nada de esto podra explicar por qu la obra es, lo que significa, y por qu es
de gran alcance. Eso requiere hombre [sic], no la mquina.

Para muchos, a continuacin, las humanidades digitales est fomentando el anlisis dbil,
superficial, en lugar de, penetracin profunda penetracin. Es excesivamente reduccionista
y crudo en sus tcnicas, sacrificando la complejidad, especificidad, el contexto, la
profundidad y la crtica de la escala, la amplitud, la automatizacin, los patrones descriptivos
y la impresin de que la interpretacin no requiere un conocimiento profundo del contexto.

Los mismos tipos de argumentos pueden ser niveladas en las ciencias sociales
computacional. Por ejemplo, un mapa de la lengua de los tweets en una ciudad podra
revelar patrones de concentracin geogrfica de las diferentes comunidades tnicas (
Rogers, 2013 ), pero las preguntas importantes son que constituye este tipo de
concentraciones, por qu existen, cules fueron los procesos de formacin y la
reproduccin, y cules son sus consecuencias sociales y econmicas? Una cosa es
identificar los patrones; es otra de explicarlas. Esto requiere la teora social y el
conocimiento contextual de profundidad. Como tal, el patrn no es el punto final, sino ms
bien un punto de partida para el anlisis adicional, que es casi seguro que se va a requerir
otros conjuntos de datos.
Al igual que con las crticas anteriores de las ciencias sociales cuantitativos y positivistas,
ciencias sociales computacionales son llevados a la tarea por postpositivistas como
mecanicista, atomizacin y parroquial, la reduccin de diversos individuos y compleja, las
estructuras sociales multidimensionales a meros puntos de datos (Wyly, en prensa) . Por
otra parte, el anlisis est plagado de suposiciones de determinismo social, como se
ejemplifica por Pentland (2012): "la clase de persona que eres est determinada en gran
medida por el contexto social, por lo que si puedo ver algunas de sus conductas, puedo
inferir que el resto , slo que en comparacin con las personas de su multitud '. Por el
contrario, las sociedades humanas, se argumenta, son demasiado complejos, contingente
y desordenado que ser reducido a frmulas y leyes, con modelos cuantitativos que
proporciona poca informacin sobre fenmenos como las guerras, el genocidio, la violencia
domstica y el racismo, y una visin nica circunscrita en otra sistemas humanos tales
como la economa, la contabilidad inadecuada para el papel de la poltica, la ideologa, las
estructuras sociales y la cultura ( Harvey, 1972 ). Las personas no actan de manera
racional, predeterminados, sino que viven vidas llenas de contradicciones, paradojas y
sucesos imprevisibles. Cmo se organizan y operan las sociedades vara a travs del
tiempo y el espacio y no hay forma ptima o ideal, o rasgos universales. De hecho, hay una

increble diversidad de individuos, culturas y modos de vida en todo el planeta. La reduccin


de esta complejidad de los temas abstractos que pueblan modelos universales hace
violencia simblica de cmo creamos conocimiento. Adems, los enfoques positivistas
deliberadamente ignoran los aspectos metafsicos de la vida humana (que comprende los
significados, creencias, experiencias) y cuestiones normativas (dilemas ticos y morales
acerca de cmo deberan ser las cosas en lugar de la forma en que son) ( Kitchin, 2006 ).
En otras palabras, los enfoques positivistas slo se centran en determinados tipos de
preguntas, que tratan de responder de una manera reduccionista que aparentemente ignora
lo que significa ser humano y vivir en una rica diversidad de las sociedades y lugares. Esto
no quiere decir que los enfoques cuantitativos no son tiles - que son bastante claramente
- pero que sus limitaciones en la comprensin de la vida humana deben ser reconocidos y
complementarse con otros enfoques.

Brooks (2013) por lo tanto sostiene que el anlisis de datos grandes luchas con lo social (la
gente no est Justificacin y no se comportan de manera predecible, los sistemas humanos
son increblemente compleja, que tiene relacin contradictoria y paradjica); luchas con el
contexto (los datos son esquiladas en gran medida del contexto social, poltico y econmico
e histrico); crea un pajar ms grandes (que consta de muchas correlaciones espurias ms,
lo que hace difcil identificar agujas); tiene problemas para hacer frente a grandes
problemas (sobre todo sociales y los econmicos); favorece los memes ms obras
maestras (identifica las tendencias, pero no necesariamente caractersticas importantes
que pueden convertirse en una tendencia); y oscurece los valores (de los productores de
datos y los que ellos y sus objetivos analizar). En otras palabras, mientras que la analtica
de grandes datos pueden proporcionar algunas ideas, hay que reconocer que estn
limitados en su alcance, producir tipos particulares de conocimiento, y todava necesita
contextualizacin con respecto a otra informacin, ya sea que la teora de ser existente,
documentos de poltica, los estudios pequeos de datos o registros histricos, que pueden
ayudar a dar sentido a los patrones evidentes (Crampton et al., 2012).

Ms all del enfoque epistemolgico y metodolgico, que forma parte de la cuestin es que
tanto los grandes datos y anlisis parecen generarse sin preguntas especficas en mente,
o el enfoque es impulsado por la aplicacin de un mtodo o el contenido del conjunto de

datos en lugar de una particular, pregunta, o el conjunto de datos se est utilizando para
buscar una respuesta a una pregunta que nunca fue diseado para responder en el primer
lugar. Con respecto a esto ltimo, los datos de Twitter con etiquetas geogrficas no se ha
producido para proporcionar respuestas con respecto a la concentracin geogrfica de los
grupos lingsticos en una ciudad y los procesos que conducen a tales autocorrelacin
espacial. Nosotros tal vez no debera sorprendernos entonces que slo proporciona una
instantnea de la superficie, aunque sea una instantnea interesante, en lugar de penetrar
profundamente penetraciones en las geografas de la raza, la lengua, la aglomeracin y la
segregacin en lugares particulares.
Mientras que la mayora de los humanistas digitales reconocen el valor de la lectura atenta,
y el estrs cmo lecturas a distancia los complementan proporcionando profundidad y
contextualizacin, formas positivistas de las ciencias sociales son de oposicin a la postpositivistas enfoques. La diferencia entre las humanidades y las ciencias sociales a este
respecto se debe a que las estadsticas utilizadas en las humanidades digitales son en gran
parte descriptiva - la identificacin y el trazado de patrones. Por el contrario, las ciencias
sociales computacionales emplean el mtodo cientfico, como complemento de la
estadstica descriptiva con la estadstica inferencial que buscan identificar asociaciones y
la causalidad. En otras palabras, se sustentan en una epistemologa en la que el objetivo
es producir modelos estadsticos sofisticados que explicar, simular y predecir la vida
humana. Esto es mucho ms difcil de conciliar con los enfoques post-positivista. Incidencia
continuacin, se basa en la utilidad y el valor del mtodo y modelos, no en proporcionar
anlisis complementario de un conjunto ms amplio de datos.

Hay una alternativa potencialmente fructfera a esta posicin que adopta y extiende las
epistemologas empleadas en SIG crtica y estadsticas radicales. Estos enfoques emplean
tcnicas cuantitativas, la estadstica inferencial, modelado y simulacin teniendo siempre
en cuenta y abierto con respecto a sus epistemolgicas deficiencias, sobre la base de la
teora social crtica para enmarcar cmo se realiza la investigacin, cmo sentido se hace
de los resultados, y el conocimiento empleado. Aqu, hay un reconocimiento de que la
investigacin no es una actividad neutra y objetiva que produce una vista de la nada, y que
no hay una poltica inherentes que impregnan los conjuntos de datos analizados, la
investigacin se llev a cabo, y las interpretaciones ( Haraway, 1991 ; Rose, 1997 ) . Como
tal, el investigador es reconocido poseer una determinada posicionalidad (con respecto a

sus conocimientos, experiencias, creencias, aspiraciones, etc.), que la investigacin se


encuentra (dentro de los debates disciplinarias, el panorama de la financiacin, la poltica
social ms amplio, etc.) , los datos son un reflejo de la tcnica utilizada para generarlos y
mantener ciertas caractersticas (relativas al muestreo y marcos ontolgicos, limpieza de
datos, integridad, consistencia, veracidad y fidelidad), y los mtodos de anlisis utilizados
producen efectos particulares con respecto a los resultados producen y realizan
interpretaciones. Por otra parte, se reconoce que la forma en que se emplea la investigacin
no es ideolgicamente neutral, sino que se enmarca en formas sutiles y explcitos de las
aspiraciones e intenciones de los investigadores y los financiadores / patrocinadores, y
aquellos que se traducen este tipo de investigacin en diversas formas de la poltica,
instrumentos y la accin. En otras palabras, dentro de una epistemologa de la investigacin
llevada a cabo es reflexivo y abierto con respecto al proceso de investigacin, reconociendo
los riesgos y relacionalidades del mtodo empleado, produciendo as las cuentas y
conclusiones matizadas y contextualizadas. Tal epistemologa tambin no excluye que
complementa las ciencias sociales computacional situada con los estudios de datos
pequeos que proporcionan ideas adicionales y amplificando (Crampton et al., 2012). En
otras palabras, es posible pensar en nuevas epistemologas que no descartan o rechazan
anlisis de grandes volmenes de datos, sino que emplean el enfoque metodolgico de la
ciencia basada en datos dentro de un encuadre epistemolgico diferente, que permite a los
cientficos sociales para extraer informacin valiosa de grandes volmenes de datos que
estn situados y reflexiva.

Conclusin
Hay pocas dudas de que el desarrollo de grandes volmenes de datos y nuevos anlisis de
datos ofrece la posibilidad de replantear la epistemologa de la ciencia, las ciencias sociales
y las humanidades, y un replanteamiento tales ya est teniendo lugar de forma activa en
todas las disciplinas. Grandes volmenes de datos y nuevos anlisis de datos permiten a
los nuevos enfoques para la generacin de datos y de anlisis que deben implementado
que hacen que sea posible formular y responder preguntas de nuevas maneras. En lugar
de tratar de extraer conocimientos de los conjuntos de datos limitados por el alcance, la
temporalidad y tamao, grandes volmenes de datos proporciona el problema contador de
manejar y analizar enormes, dinmicos y variados conjuntos de datos. La solucin ha sido

el desarrollo de nuevas formas de gestin de datos y tcnicas de anlisis que se basan en


el aprendizaje automtico y nuevos modos de visualizacin.

En lo que respecta a las ciencias, el acceso a grandes volmenes de datos y nuevas praxis
de investigacin ha llevado a algunos a proclamar el surgimiento de un nuevo paradigma
de cuarta, que hunde sus races en la exploracin de datos intensivos que desafa el
enfoque deductivo cientfica establecida. En la actualidad, si bien es evidente que los
grandes datos es una innovacin disruptiva, que presenta la posibilidad de un nuevo
enfoque de la ciencia, no se establece la forma de este enfoque, con dos caminos posibles
propuestas que tienen epistemologas divergentes - empirismo, en el que los datos pueden
hablar por s mismos libres de la teora y la ciencia basada en datos que modifica
radicalmente el mtodo cientfico existente mediante la mezcla de los aspectos de la
abduccin, la induccin y la deduccin. Dada la debilidad de los argumentos empricos,
parece probable que el enfoque impulsado por los datos con el tiempo ganar fuera y con el
tiempo, ya que se vuelve ms comn de datos grandes y nuevos anlisis de datos se hacen
avanzar, presentar un fuerte desafo al mtodo cientfico basada en el conocimiento
establecido . Para acompaar esta transformacin de las bases filosficas de la ciencia
basada en datos, con respecto a sus principios epistemolgicos, los principios y la
metodologa, necesitan ser resueltos a travs debatido y proporcionar un marco terico
slido para el nuevo paradigma.

La situacin en las ciencias humanas y sociales es algo ms complejo dada la diversidad


de sus bases filosficas, siendo poco probable que conduzca a la creacin de nuevos
paradigmas disciplinarios grandes volmenes de datos y nuevos anlisis. En cambio, los
grandes datos mejorar el conjunto de datos disponibles para el anlisis y permitir nuevos
enfoques y tcnicas, pero no reemplazar completamente los tradicionales estudios
pequeos de datos. Esto se debe en parte a las posiciones filosficas, sino tambin porque
es poco probable que los grandes volmenes de datos adecuada ser producido que puede
ser utilizada para responder a preguntas particulares, y necesitan de ms estudios dirigidos.
Sin embargo, como Kitchin (2013) y Ruppert (2013) argumentan, Big Data presenta una
serie de oportunidades para los cientficos sociales y las humanidades, no menos
importante de los cuales son cantidades masivas de datos muy ricos sociales, culturales,

econmicos, polticos e histricos. Tambin plantea una serie de retos, incluyendo un dficit
de habilidades para analizar y dar sentido a estos datos, y la creacin de un enfoque
epistemolgico que permite formas post-positivista de la ciencia social computacional. Un
posible camino a seguir es una epistemologa que se inspira en SIG crtica y estadsticas
radicales en los que se emplean mtodos y modelos cuantitativos dentro de un marco que
es reflexiva y reconoce el carcter situado, posicionalidad y la poltica de la ciencia social
que se llev a cabo, en lugar de rechazar dicha una acercarse de las manos. Tal
epistemologa tambin tiene utilidad potencial en las ciencias para el reconocimiento y la
contabilidad de la utilizacin del secuestro y la creacin de una ciencia basada en datos
ms reflexiva. Como ilustra esta discusin preliminar, hay una necesidad urgente de mayor
reflexin crtica sobre las implicaciones epistemolgicas de grandes volmenes de datos y
anlisis de datos, una tarea que apenas ha comenzado a pesar de la velocidad de los
cambios en el paisaje de datos.

Expresiones de gratitud

Evelyn Ruppert y Mark Boyle proporcionan algunos comentarios tiles sobre un borrador
inicial de este trabajo. La investigacin para este trabajo fue financiado por una avanzada
Investigator Award Consejo Europeo de Investigacin, "La Ciudad programable '(ERC2012-ADG-323636).

El Autor (s) 2014 reimpresiones y permisos: sagepub.co.uk/journalsPermissions.nav


Este artculo se distribuye bajo los trminos de la licencia Creative Commons
Reconocimiento-No comercial 3.0 Licencia ( http://www.creativecommons.org/licenses/bync/3.0/ ) que permite el uso no comercial, reproduccin y distribucin de la obra sin el
permiso adicional siempre que la obra original es atribuido como se especifica en la SAGE
y la pgina de acceso abierto ( http://www.uk.sagepub.com/aboutus/openaccess.htm ).

referencias

Amin A ,Ahorro N( 2002 ) Ciudades: Volver a imaginar el Urbano , Londres : Polity .


Anderson C (2008) El fin de la teora: El diluvio de datos hace que el mtodo cientfico
obsoleto.

Wired

23

de

junio

de

2008.

Disponible

en:

http://www.wired.com/science/discoveries/magazine/16-07/pb_theory ( alcanzado el 12 de
octubre de 2012) .
Batty M ,Axhausen KW ,Giannotti F ,et al.( 2012 ) ciudades inteligentes del futuro . Temas
Europea de Fsica Diario especiales 214 : 481 - 518 .CrossRef Google Acadmico
Berry D (2011) El giro computacional: Pensando en las humanidades digitales. Cultura de
la

mquina

12.

Disponible

en:

http://www.culturemachine.net/index.php/cm/article/view/440/470 (consultado el 3 de
diciembre de 2012) .
Bettencourt LMA ,Lobo J ,Helbing D ,et al.( 2007 ) El crecimiento, la innovacin, la escala
y el ritmo de vida en las ciudades . Actas de la Academia Nacional de Ciencias 104 ( 17 ):
7301 - 7306 .Resumen / GRATIS texto completo Google Acadmico
Bollier D (2010) La promesa y el peligro de grandes volmenes de datos . El Instituto
Aspen.

Disponible

en:

http://www.aspeninstitute.org/sites/default/files/content/docs/pubs/The_Promise_and_Peril
_of_Big_Data.pdf (acceso el 1 de octubre de 2012) .
Boyd D ,Crawford K( 2012 ) Las preguntas crticas para grandes volmenes de datos .
Informacin, Comunicacin y Sociedad 15 ( 5 ): 662 - 679 .CrossRef Web of Science Google
Acadmico
Brooks D (2013) Qu datos no pueden hacer. New York Times , 18 de febrero de 2013.
Disponible en: http://www.nytimes.com/2013/02/19/opinion/brooks-what-data-cant-do html
(consultado el 18 de febrero de 2013) .
Bryant R, Katz HR y Lazowska ED (2008) Big-computacin de datos: Creacin de
revolucionarios avances en el comercio, la ciencia y la sociedad. En: Informtica Iniciativas
de Investigacin para el siglo 21, la Asociacin de Investigacin de Computacin, Ver. 8
Disponible en:. Http://www.cra.org/ccc/docs/init/Big_Data.pdf (alcanzado el 12 de octubre
de 2012) .

Clark L (2013) sin hacer preguntas: firma de datos de mapas grandes soluciones sin la
intervencin

humana.

Wired

16

de

enero

http://www.wired.co.uk/news/archive/2013-01/16/ayasdi

de

2013.

Disponible

en:

-grande-data-lanzamiento

(accedido el 28 de enero de 2013) .


Cohen D( 2008 ) Contribucin: La promesa de la historia clnica digital (mesa redonda) .
Revista de Historia de Amrica 95 ( 2 ): 452 - 491 .GRATIS texto completo Google
Acadmico
Constine J (2012) Qu tan grande es los datos de Facebook? 2,5 mil millones de piezas
de contenido y ms de 500 terabytes ingeridas cada da, el 22 de agosto de 2012.
Disponible

en:

http://techcrunch.com/2012/08/22/how-big-is-facebooks-data-2-5-billion-

piezas-de-contenido-y-500-terabytes-ingeridos-cada-da / (Accedido el 28 de enero de


2013) .
Crampton J, Graham M, Poorthuis A, et al. (2012) Ms all de la etiqueta geogrfica? La
deconstruccin de 'Big Data' y Aprovechamiento del potencial de geoweb . Disponible en:
http://www.uky.edu/~tmute2/geography_methods/readingPDFs/2012-Beyond-the-Geotag2012.10.01.pdf (consultado el 21 de febrero de 2013) .
Crawford K (2013) Los sesgos ocultos de grandes volmenes de datos. Harvard Business
Review Blog . 1 de abril. Disponible en: http://blogs.hbr.org/2013/04/the-hidden-biases-inbig-data/ (consultado el 18 de septiembre de 2013) .
Cukier K (2010) de datos, los datos de todo el mundo. The Economist , 25 de febrero
(Consultado el 12 de noviembre de 2012) .
Culler J( 2010 ) La cercana de la lectura minuciosa . ADE Boletn 149 : 20 - 25 de .Google
Acadmico
Esquivar M ,Kitchin R( 2005 ) Los cdigos de la vida: Cdigos de identificacin y el mundo
legible por la mquina . Medio Ambiente y Ordenacin D: Sociedad y del Espacio 23 ( 6 ):
851 - 881 .CrossRef Web of Science Google Acadmico
Dyche J 'eurekas!' (2012) Big Data no acaba de suceder. Harvard Business Review Blog
.

20

de

noviembre.

Disponible

en:

http://blogs.hbr.org/cs/2012/11/eureka_doesnt_just_happen.html (consultado el 23 de
noviembre de 2012) .

Floridi L( 2012 ) Big data y su desafo epistemolgico . Filosofa y Tecnologa 25 ( 4 ): 435


- 437 .CrossRef Google Acadmico
Gould P( 1981 ) Dejar que los datos hablan por s mismos . Anales de la Asociacin
Americana de Gegrafos 71 ( 2 ): 166 - 176 .CrossRef Web of Science Google Acadmico
Han J ,Kamber M ,Pei( 2011 ) Minera de datos: conceptos y tcnicas , 3 ed . Waltham :
Morgan Kaufmann .
Haraway D( 1991 ) simios, cyborgs y mujeres: La reinvencin de la naturaleza , Nueva
York : Routledge .
Harvey D( 1972 ) Justicia Social y la Ciudad , Oxford : Blackwell .
Hastie T ,Tibshirani R ,Friedman J( 2009 ) Los elementos del aprendizaje estadstico: Los
datos de Minera, Inferencia y prediccin , 2 ed . Nueva York : Springer .
Hey T ,Tansley S ,Tolle K( 2009 ) Jim gris en e-Ciencia: Un mtodo cientfico transformado
. En: Hey T , Tansley S , Tolle K (eds) El Cuarto Paradigma: Descubrimiento Cientficointensivo de datos , Redmond : Microsoft Research , pp. XVII - XXXI .Google Acadmico
Jenkins T (2013) No cuente con grandes volmenes de datos en busca de respuestas. El
escocs 12

de febrero

de 2013.

Disponible

scotsman/opinion/comment/tiffany-jenkins-don-t

en:

http://www.scotsman.com/the-

-count-en-big-datos-a-respuestas-1-

2785890 (consultado el 11 de marzo de 2013) .


Kelling S ,Hochachka W ,Fink D ,et al.( 2009 ) de datos intensivos Ciencia: Un nuevo
paradigma para el estudio de la biodiversidad . BioScience 59 ( 7 ): 613 - 620 .Resumen /
GRATIS texto completo Google Acadmico
Kitchin R( 2006 ) la geografa y la ciencia positivista espacial . En: Aitken S , Valentine G
(eds) Enfoques en Geografa Humana , Londres : Sage , pp. 20 - 29 de .Google Acadmico
Kitchin R( 2013 ) Big data y la geografa humana: oportunidades, desafos y riesgos .
Dilogos en Geografa Humana 3 ( 3 ): 262 - 267 .Resumen / GRATIS texto completo
Google Acadmico
Kitchin R( 2014 ) La ciudad en tiempo real? Big data y el urbanismo inteligente .
GeoJournal 79 : 1 - 14 de .CrossRef Google Acadmico

Kuhn T( 1962 ) La estructura de las revoluciones cientficas , Chicago : University of


Chicago Press .
Laney D de gestin de datos (2001) 3D: El control de volumen de datos, velocidad y
variedad.

Grupo

meta.

Disponible

en:

http://blogs.gartner.com/doug-

laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-andVariety.pdf (consultado el 16 de enero de 2013) .


Lazer D ,Pentland A ,Adnica L ,et al.( 2009 ) en ciencias sociales Computacional . Ciencia
323 : 721 - 733 .Resumen / GRATIS texto completo Google Acadmico
Lehning M, Dawes N, Bavay M. et al. (2009) Instrumentacin de la tierra: las redes de
sensores de ltima generacin y ciencias ambientales. En: Hey T, Tansley S y K Tolle (eds)
El Cuarto Paradigma: uso intensivo de datos Cientfico Descubrimiento . Redmond:
Microsoft Research, pp 45-51. .
Lehrer J (2010) Un fsico resuelve la ciudad. New York Times , 17 de diciembre. Disponible
en: http://www.nytimes.com/2010/12/19/magazine/19Urban_West-t.html (consultado el 23
de de diciembre de 2013) .
Leonelli S( 2012 ) Introduccin: Dar sentido a la investigacin basada en datos en las
ciencias biolgicas y biomdicas . Estudios de Historia y Filosofa de Ciencias Biolgicas y
Biomdicas 43 ( 1 ): 1 - 3 .CrossRef Google Acadmico
Loukides M (2010) Qu es la ciencia de datos? O'Reilly Radar , 2 de junio de 2010.
Disponible

en:

http://radar.oreilly.com/2010/06/what-is-data-science.html

(Accessed

January 28 2013 ) .
Manovich L (2011) Tendencias: Las promesas y los desafos de grandes volmenes de
datos

sociales.

Disponible

en:

http://www.manovich.net/DOCS/Manovich_trending_paper.pdf (consultado el 9 noviembre


de 2012) .
Marcas S (2012) La literatura no es de datos: En contra de las humanidades digitales. Los
Angeles

Review

of

Books

el

28

de

octubre

de

2012.

Disponible

en:

http://lareviewofbooks.org/article.php?id=1040&fulltext=1 (consultado el 4 de abril de 2013)


.

Marz N ,Warren J. MEAP ( 2012 ) Big Data: Principios y Buenas Prcticas de escalable en
tiempo real Data Systems , Westhampton : Manning .
Mayer-Schnberger V ,Cukier K( 2013 ) Big Data: Una revolucin que cambiar la forma
de vivir, trabajar y pensar , Londres : John Murray .
Miller HJ( 2010 ) La avalancha de datos est aqu. No deberamos estar cavando? Journal
of Regional Science 50 ( 1 ): 181 - 201 .CrossRef Google Acadmico
Moretti F( 2005 ) Los grficos, mapas, rboles abstractos: Modelos para una historia
literaria , Londres : Verso .
Para abrir Centro de datos de la alianza (2012) Gua para el consumidor de datos grandes
.

Abra

Data

Center

Alliance.

Disponible

en:

http://www.opendatacenteralliance.org/docs/Big_Data_Consumer_Guide_Rev1.0.pdf
(consultado el 11 de febrero de 2013) .
Un Pentland (2012) Reinventar la sociedad a raz de grandes volmenes de datos. Edge
30 de agosto de 2012. Disponible en: http://www.edge.org/conversation/reinventing-societyin-the-wake-of-big-data (accedido el 28 de enero de 2013) .
Porway J (2013) No se puede abrirse paso con el cambio social. Harvard Business Review
Blog

de

marzo

de

2013.

Disponible

en:

http://blogs.hbr.org/cs/2013/03/you_cant_just_hack_your_way_to.html (consultado 9 marzo


de 2013) .
Prensky M (2009) H. sapiens digital de:. De los inmigrantes digitales y nativos digitales a
la

sabidura

digital

de

Innovar

(3).

Disponible

en:

http://www.innovateonline.info/index.php?view=article&id=705 (alcanzado el 12 de octubre


de 2012) .
Ramsay S( 2010 ) Mquinas de lectura: Hacia una crtica algortmico , Champaign :
University of Illinois Press .
Ribes D ,Jackson SJ( 2013 ) la mordedura del hombre de los datos: El trabajo de
mantenimiento de estudio a largo plazo . En: Gitelman L (ed) "datos brutos" es un oxmoron
, Cambridge, MA : MIT Press , pp. 147 - 166 .Google Acadmico
Rogers S (2013) lenguas de Nueva York de Twitter se asigna. The Guardian , 21 de
Febrero

de

2013.

Disponible

en:

http://www.guardian.co.uk/news/datablog/interactive/2013/feb/21/twitter-languages- nuevayork-mapeado (consultado el 3 de abril de 2013) .


Rose G( 1997 ) conocimientos Situando: posicionalidad, reflexividades y otras tcticas . El
progreso en Geografa Humana 21 ( 3 ): 305 - 320 .Resumen / GRATIS texto completo
Google Acadmico
Ruppert E( 2013 ) Repensar las ciencias sociales empricas . Dilogos en Geografa
Humana 3 ( 3 ): 268 - 273 .Resumen / GRATIS texto completo Google Acadmico
Schnapp J y P Presner (2009) Humanidades Digitales Manifiesto 2.0. Disponible en:
http://www.humanitiesblast.com/manifesto/Manifesto_V2.pdf (accedido el 13 de marzo de
2013) .
Seni G ,Elder J( 2010 ) Mtodos de conjunto en minera de datos: Mejorando la Eficiencia
A travs de predicciones combinacin , San Rafael : Morgan y Claypool .
Siegel E( 2013 ) Anlisis Predictivo , Hoboken : Wiley .
Steadman I (2013) Big data y la muerte del terico. Wired , 25 de enero de 2013.
Disponible en: http://www.wired.co.uk/news/archive/2013-01/25/big-data-end -teora -de
(consultado el 30 de enero de 2013) .
Strasser BJ( 2012 ) por datos ciencias: A partir de los gabinetes de extraar a bases de
datos electrnicas . Estudios de Historia y Filosofa de Ciencias Biolgicas y Biomdicas 43
: 85 - 87 .CrossRef Google Acadmico
Strom D (2012) Big data hace las cosas mejor. Slashdot , 3 de agosto. Disponible en:
http://slashdot.org/topic/bi/big-data-makes-things-better/ (Accessed October 24 2013) .
Trumpener K( 2009 ) La respuesta crtica I. paratexto y el sistema de gnero: Una
respuesta a Franco Moretti . Critical Inquiry 36 ( 1 ): 159 - 171 .CrossRef Google Acadmico
Wyly E (en prensa) Automatizado (post) positivismo. Geografa Urbana .
Zikopoulos PC ,Eaton C ,DeRoos D ,et al.( 2012 ) La comprensin de grandes volmenes
de datos , Nueva York : McGraw Hill .
Resumen vista