Estudio Estadístico Del Uso Del Inglés en El Internet

Primera parte: las lenguas
1. Resultados del estudio lingüístico
Los resultados se han obtenido procesando una muestra de 57 palabras,

seleccionadas para permitir una comparación entre los idiomas lo más rigurosa
posible. Para cada una de estas palabras, la relación de los idiomas latinos con
respecto al inglés es usada como una variable aleatoria, y se aplican las técnicas de
la estadística incluyendo como hipótesis una distribución matemática corriente de
esta variable aleatoria (la curva de Gauss, también llamada distribución "normal").
Se han tomado en cuenta dos espacios de Internet para las mediciones: el espacio
WWW, explorado con el motor de búsqueda HotBot, y el espacio Usenet,
explorado con el motor de búsqueda DejaNews.
El capítulo Metodología Internet explica por qué la elección de estos motores de

búsqueda y comenta los límites del método, que dependen de los límites de los
buscadores respectivos.
El esfuerzo realizado en la selección de las palabras de la muestra (lo que se

explica en el capítulo Metodología lingüística) ha permitido que los resultados
sean estadísticamente de buena calidad, es decir, que la dispersión de las
relaciones de cada idioma con respecto al inglés sea relativamente baja, lo que
permite establecer un margen bastante estrecho en que la probabilidad de que el
valor exacto esté incluido es de 99/100 (lo que los estadísticos llaman "intervalo de
confianza"). Los resultados, desde este punto de vista, son mejores en el
espacio WWW que en el espacio Usenet, lo que no es sorprendente si se tiene
en cuenta el uso frecuente de abreviaciones en los grupos de discusión o tertulias.
La calidad de los resultados (y la importancia del intervalo de confianza) varía

según los idiomas: muy buena en francés, buena en castellano y en italiano en los
dos espacios, buena en portugués en el espacio WWW, pobre en rumano y en
portugués en el espacio Usenet. Véase en este sentido el anexo 2.
1.1 Síntesis de los resultados
El cuadro siguiente presenta la relación promedio entre cada idioma latino y el

inglés, obtenida a partir de la medición de la cantidad de ocurrencias de las
palabras de la muestra en cada uno de los dos espacios estudiados. El francés
ocupa el primer lugar en el espacio Internet, seguido de cerca por el castellano. Por
el contrario, fenómeno notable, su presencia en el espacio Usenet es pobre.
Cuadro 1:
Promedios de los idiomas latinos en relación con el inglés
WWW USENET
CASTELLANO 3,37% 2,41%

FRANCÉS 3,75% 1,44%
ITALIANO 2,00% 2,54%
PORTUGUÉS 1,09% 1,12%
RUMANO 0,20% 0,14%
1.2 Comentarios sobre el valor absoluto de la presencia del inglés
Los resultados obtenidos permiten evaluar la presencia de las lenguas latinas en

relación con el inglés; pero para calcular la presencia en términos absolutos de las
lenguas latinas en el espacio WWW, es necesario elaborar una hipótesis acerca de
la presencia del inglés. El cuadro que sigue muestra los valores de presencia
absoluta, establecidos a partir de los promedios a partir de diversas hipótesis en
cuanto a la presencia del inglés. El resultado inscrito en rojo es el considerado más
probable, más realista, a partir de los recortes realizados por los autores.
En la actualidad, ningún método es totalmente seguro; sea cual fuere el que se elija
para trabajar, subsistirá el obstáculo de la medición en las páginas multilingües.
Pero trabajando a partir de los datos obtenidos, es posible estimar, aunque con un
margen de aproximación relativamente grande, el valor de la presencia del inglés.
El algoritmo de lengua de AltaVista es, entre otros, un elemento capaz de
determinar este margen (véase en el estudio L3 el "método del complemento del
universo vacío").
El porcentaje de páginas en inglés no tendría que ser inferior a 65%, según las
mediciones realizadas con este método. Pero difícilmente sobrepasaría un 85%,
dado el lugar que ocupan idiomas importantes, tales como el japonés, el alemán, el
francés y el castellano, que pueden representar un 15%. Una cifra razonable
parecería ser hoy de aproximadamente 75%, si se tiene en cuenta el porcentaje
de idiomas que ocupan cada uno entre 0,5% y 1% (es decir, entre 7 y 10 idiomas
que constituyen un total de 5%), el de idiomas de presencia menor, como el
rumano (es decir, de 10 a 15 idiomas presentes en un 0,15% cada uno y un total
de 2%) y, por último, las numerosas lenguas cuya presencia es marginal. La
proporción de estas últimas es la más difícil de estimar; pero con la hipótesis de
200 lenguas presentes cada una en un 0,025%, alcanzan un total de 5%... Una
incógnita importante, cuyas consecuencias habrá que evaluar llegado el caso, es la
posible multiplicación de idiomas presentes en Internet, siendo que el total de los
idiomas que se practican en el mundo es muy superior al de los estados-naciones, y
el total de éstos es algo inferior a 200.
Esta cifra de 75% para el inglés se aplica al espacio WWW; la elevaremos a 80% en
el caso del espacio Usenet.
Cuadro 2:
Presencia absoluta de los idiomas latinos en el espacio WWW
Resultado más verosímil
Si INGLÉS = 90,00% 85,00% 80,00% 75,00% 70,00% 65,00%

entonces CASTELLANO = 3,03% 2,86% 2,69% 3,37% 2,36% 2,19%
entonces FRANCÉS = 3,37% 3,19% 3,00% 3,75% 2,62% 2,44%
entonces ITALIANO = 1,80% 1,70% 1,60% 2,00% 1,40% 1,30%
entonces PORTUGUÉS = 0,98% 0,93% 0,87% 1,09% 0,76% 0,71%
entonces RUMANO = 0,18% 0,17% 0,16% 0,20% 0,14% 0,13%
1.3 Relación entre la cantidad de latinos y su presencia lingüística en

Internet
Está claro que los valores de presencia absoluta no son un indicador perfecto de la
presencia de un idioma en Internet. Para obtener un resultado significativo,
conviene relacionar los valores que expresan la presencia de los idiomas en
Internet con la presencia efectiva de estos idiomas en el mundo real. Pero, para
medir la importancia del uso real de los idiomas en el mundo, un primer obstáculo
de envergadura es cuáles serán los criterios a tener en cuenta1 — y hasta hoy no
hay consenso entre los expertos. A los fines de este estudio, para apreciar la
importancia de los idiomas latinos a nivel mundial los autores han optado
arbitrariamente por el método que se explicita en el anexo 3 – Cantidad de
hablantes de los idiomas estudiados.
Para que las estadísticas presentadas sean representativos de las características

sociolingüísticas citadas en el citado anexo, los autores decidieron sumar las cifras
correspondientes a:
individuos que tienen la competencia de uno de los idiomas del estudio porque es
su lengua materna e individuos que tienen esta competencia en un país en que es
lengua oficial o de enseñanza,
individuos cuya lengua materna es una de las del estudio pero que residen en un
país en que este idioma no tiene ninguna forma de reconocimiento.
Cuadro 3:
Peso de los idiomas latinos (cifras redondas en millones)
Inglés Castellano Portugués Francés Italiano Rumano
Presencia absoluta 630 375 190 130 60 30

(cantidad de hablantes)
Presencia relativa 10,50% 6,25% 3,17% 2,17% 1% 0,50%
(porcentaje mundial)
La presencia relativa de estos idiomas es así calculada sin tener totalmente en

cuenta el factor "multilingüismo".
Partiendo de la hipótesis de una población total de 6 000 000 000 de habitantes, la
ponderación de la presencia de los idiomas en Internet se efectúa dividiendo el
valor de su presencia en el espacio WWW por el valor de su presencia relativa en el
mundo. Un cociente igual a 1 se considera resultado "normal"; inferior a 1,
insuficiente; superior a 1, respetable.
Cuadro 4:
Presencia ponderada de los idiomas latinos en el espacio WWW
Presencia WWW Presencia WWW

absoluta ponderada
INGLÉS 75,00% 7,14
CASTELLANO 3,37% 0,40
FRANCÉS 3,75% 1,30
ITALIANO 2,00% 1,50
PORTUGUÉS 1,09% 0,26
RUMANO 0,20% 0,30
1.4 Relación entre la cantidad de latinos y su presencia lingüística en el

espacio Usenet
El esquema siguiente presenta el resultado del cálculo estadístico realizado a partir

de la medición de la cantidad de ocurrencias de las palabras de la muestra en el
espacio Usenet. El anexo 4 incluye los cuadros que establecen los intervalos de
confianza.
Cuadro 5:
Presencia absoluta de los idiomas latinos en el espacio Usenet
Resultado más verosímil
Si INGLÉS = 90,00 % 85,00 % 80,00 % 75,00 % 70,00 % 65,00 %

entonces CASTELLANO = 2,17 % 2,05 % 2,41 % 1,81 % 1,69 % 1,57 %
entonces FRANCÉS = 1,29 % 1,22 % 1,44 % 1,08 % 1,01 % 0,93 %
entonces ITALIANO = 2,29 % 2,16 % 2,54 % 1,91 % 1,78 % 1,65 %
entonces PORTUGUÉS = 1,01 % 0,95 % 1,12 % 0,84 % 0,79 % 0,73 %
entonces RUMANO = 0,13 % 0,12 % 0,14 % 0,11 % 0,10 % 0,09 %
Cuadro 6:
Presencia ponderada de los idiomas latinos en el espacio Usenet
Presencia Usenet Presencia Usenet

absoluta ponderada
INGLÉS 80,00% 7,14
CASTELLANO 2,41% 0,31
FRANCÉS 1,44% 0,53
ITALIANO 2,54% 2,03
PORTUGUÉS 1,12% 0,28
RUMANO 0,14% 0,23
1 ¿Hay que tener en cuenta solo los primeros idiomas, en el uso de los individuos plurilingües? ¿Hay que tener
en cuenta las cifras referidas a las idiomas oficiales, aun cuando hay casos en que numerosas personas no
hablan este idioma (como, por ejemplo, el francés en Haïtí)? ¿Hay que incluir los idiomas supranacionales y
vehiculares?
2. Detalle de los resultados
2.1 Metodología Internet
Los motores de búsqueda de acceso libre en Internet (AltaVista, Hotbot, Excite,

DejaNews, Veronica, FtpSearch...) son herramientas sumamente poderosas, puesto
que indexan gran parte de las informaciones presentes en los diferentes espacios
de Internet: espacio de las páginas web, espacio de los grupos de discusión o
tertulias, espacio de los menús o de los documentos Gopher, espacio de los ficheros
accesibles en FTP. Han sido concebidos para la búsqueda de palabras o de
expresiones dentro de estos espacios y algunos de ellos ofrecen, además,
resultados cuantitativos sobre el número de ocurrencias de las palabras buscadas.
Este "beneficio secundario" fue usado por los autores para medir el lugar que
ocupan las lenguas y las culturas latinas en los diversos espacios. Decidieron
concentrar el trabajo en los espacios web y Usenet, que son los más
representativos de la evolución de Internet2 y también aquellos en que las
herramientas disponibles son más eficaces.
2.2 Metodología lingüística
Los resultados de la metodología aquí explicada pueden leerse en el

anexo 5 (Lista de palabras de la muestra de referencia)
2.2.1 Equivalencias y distinciones gráficas
Los autores decidieron procesar lingüísticamente las palabras a buscar, antes de

procesarlas de manera estadístico-informática con los motores de búsqueda. Un
equipo lingüístico trabajó primero de manera independiente, elaborando series de
seis palabras "funciones" (una en cada uno de los idiomas tratados) que sean por
una parte equivalentes (en cuanto à su significación y alcance referencial, su
sintaxis, su frecuencia de uso) y distintivas, es decir no homógrafas3 — tanto entre
sí como en relación con palabras de idiomas muy presentes en Internet.
En realidad, desde esta perspectiva lingüística se trató sistemáticamente de evitar

las homografías con una sola de las lenguas no estudiadas: el alemán, dada su
importancia en Internet y se tomó asimismo la decisión de no incluir formas de
menos de cuatro letras para evitar otras homografías posibles (en particular, pero
no solamente, con siglas). El resto de los problemas homográficos se trató en el
momento informático-estadístico, interpretando como tales el surgimiento de
desvíos significativos en las cifras, con respecto a los promedios.
Las homografías entre al menos dos de los idiomas del estudio se mostraron
sumamente frecuentes, en general –pero no solamente– entre el castellano y el
portugués; el inglés y sus formas de origen latino plantearon problemas, así como
los préstamos.
2.2.2 Palabras y variantes
Cada palabra o "función" comparada incluye o puede incluir variantes de distinta

especie:
Variantes sin diacríticos y variantes "incorrectas". En los cinco idiomas latinos,

cuya escritura incluye signos diacríticos (acentos, etc.), se incluyó siempre una
variante de la palabra con y otra sin todos estos signos –"incorrecta" pero muy
frecuente en Internet. También se incluyeron a veces formas no siempre aceptadas
o ausentes de muchos diccionarios, en otro sentido "incorrectas" pero muy
probablemente presentes en Internet. Aquí también, el trabajo informático-
estadístico confirmó su presencia sospechada.
En el caso de idiomas pluricéntricos, es decir, con más de un centro normativo

(por ejemplo, el castellano de Europa y de los distintos países de América Latina, el
portugués de Portugal y de Brasil), se tomaron en cuenta, cuando cabía, variantes
sinonímicas léxicas u ortográficas.
En un caso, hubo que considerar dos palabras de la misma raíz como una sola ya
que el alcance de su significación diverge, tomadas separadamente, y coincide si se
las toma juntas, como variantes sinonímicas: parity / equality (en), paridad /
igualdad (es), parité / égalité (fr), parità / uguglianza / eguaglianza (it)...
Se eligió incluir a veces, para incrementar la cantidad de las formas a buscar,

variantes morfológicas de número (singular o plural). Otras veces se hizo en
cambio obligatorio, para conservar las equivalencias, incluir variantes morfológicas
de número y de género en los idiomas que las presentan y aun de flexión casual
(diferencia determinado / no determinado incluida) –en varios sustantivos
rumanos.
2.2.3 Procesamiento de diferencias tipológicas

En las seis lenguas estudiadas existen diferencias tipológicas: en un extremo, el
inglés es un idioma sintético, con poca flexión, en el otro, el rumano, es una lengua
flexiva cuyos sustantivos tienen casos morfológicos. Aparte de la inclusión de las
variaciones citadas de número, género y caso cuando correspondía, dado que en
inglés, a menudo, la misma forma puede tener dos valores sintácticos (sustantivo y
verbo) con muchas variantes morfológicas en los demás idiomas para establecer las
equivalencias, se evitaron estas formas, que hubieran hecho la comparación
imposible o inútilmente costosa.
Otro escollo evitado lo constituyeron partículas tales como preposiciones o

pronombres, de funciones no comparables, pero en general ya se habían quedado
afuera por el criterio de evitar palabras de menos de cuatro letras.
Véase en el anexo 6 el conjunto de los criterios que se tuvieron en cuenta para la

selección de palabras a buscar.
2.2.4 Procesamiento de las homografías restantes
A pesar de todo, subsistieron algunas homografías en la muestra que fueron

tratadas estadísticamente como casos particulares, de modo de evitar distorsiones
en los resultados.
Las homografías restantes más frecuentes han sido los plurales en "-IDADES"
comunes al castellano y al portugués –que hubo que incluir obligatoriamente en
plural, puesto que la forma italiana en "-ità" es singular y plural a la vez. Cuando la
medición de la forma en "-idades" da un resultado bajo (inferior a 50), la
distribución entre castellano y portugués se hizo directamente, por observación de
los resultados. En los otros casos, se repartió la cifra entre el castellano y el
portugués proporcionalmente con el resultado indicado al respecto por el algoritmo
de AltaVista de búsqueda por idioma.
Hay un ejemplo de homografías a partir del rumano (CAL y CAI por "caballo":
homógrafos de palabras en castellano, en italiano, en portugués...) que dio lugar a
no contar estas formas, en detrimento del rumano. Y la forma casual CAII de la
misma palabra fue eliminada por homógrafa de siglas frecuentes en Internet.
LUNG ("pulmón" en inglés) significa "largo" en rumano. El efecto, muy marginal en

favor del inglés, no fue corregido.
FACA y FACAS significan respectivamente no sólo "cuchillo" y "cuchillos", en

portugués, sino que son dos formas conjugadas del verbo "hacer" (faça y faças,
variantes sin diacríticos). El resultado que se indica fue calculado a posteriori,
tomando como referencia el promedio general del portugués, de modo de no
desfavorecerlo.
La forma MALADIE existe en rumano con el mismo sentido de "enfermedad" que la

forma francesa, de la que es préstamo, pero no es muy frecuente y su efecto es
marginal. La forma BOLI (variante casual rumana de "enfermedad") se usa muy
frecuentemente por bolígrafo en castellano y debió ser eliminada.
JOI (variante de "jueves" en rumano) es una palabra de tres letras, candidata a

homógrafa, y JOIA es homógrafa del la palabra jóia de portugués (sin diacrítico),
que significa "joya". El resultado respectivo se calculó por extrapolación del
promedio.
MARTI (variante de "martes" en rumano) es homógrafa del nombre del célebre

cubano José Martí (variante sin diacrítico) y no fue contabilizada.
A la cifra de MARDI ("martes" en francés) se le quitó lo que correspondería a

MARDI GRAS, como se designa el "martes de carnaval" en francés pero, de manera
idéntica, en inglés.
2.2.5 Procesamiento de otras significaciones no equivalentes
El trabajo de filtro y la inserción de formas equivalentes ha eliminado prácticamente

el riesgo de significaciones no equivalentes (lo que en versiones precedentes del
trabajo llamamos "colisiones semánticas") que no se hubieran percibido en el nivel
lingüístico.
Quedan los siguientes escollos. Por una parte, knife ("cuchillo" en inglés) significa
a veces "acuchillar" o "apuñalar" y, al incluir esta forma, favorecemos en alguna
medida el inglés.
Por otra parte, en portugués los días de la semana se designan como en "quarta-
feira", palabra compuesta en que el primer término indica un número ordinal; pero
a veces se excluye, al hablar o escribir, el segundo término (quarta en vez de
quarta-feira). No se tuvo en cuenta esta forma simple como variante, para evitar
la confusión con "cuarta", decisión que desfavorece aquí al portugués en los cinco
días de la semana seleccionados (sobre todo en el espacio Usenet, en que estas
formas abreviadas son más frecuentes).
Nota metodológica: La cantidad de sitios indexados por Hotbot parece variar

mucho de mes en mes. Como las mediciones de las palabras no se hicieron todas
en el mismo momento, las comparaciones son algo aleatorias. Pero en cuanto a lo
que nos interesa –el peso relativo de los idiomas– las proporciones siguen siendo
esencialmente las mismas, sea cual fuere la dimensión del corpus indexado por
Hotbot.
2.2.6 Otros elementos lingüísticos considerados
Uno de los elementos más frustrantes de este trabajo fue el fracaso de un intento
de extender la cantidad de palabras de la muestra usando expresiones en lugar
de palabras simples. El equipo lingüístico seleccionó una cantidad de palabras
compuestas, términos especializados recogidos en diccionarios terminológicos. Se
estableció una muestra complementaria de más de sesenta términos (a partir de
400 en un comienzo). Pero las primeras mediciones mostraron ya una gran
dispersión de los resultados, en particular con respecto a la primera muestra. De
modo que se decidió suspender estas mediciones y el intento de reducir así la
dimensión de los intervalos de confianza aumentando la de la dimensión fracasó.
Una de las razones de este fenómeno es estadística. La función matemática que
relaciona la cantidad de ocurrencias de palabras simples en Internet puede ser
considerado lineal: cantidad de ocurrencias en inglés (palabra) = alpha X cantidad
de ocurrencias en castellano (palabra), etc. Tratamos de determinar el valor alpha
para una muestra de palabras simples. Pero en el caso de expresiones (como
"bienes de consumo" o "costo de la vida"), la función deja de ser lineal y puede
llegar a ser de segundo grado (cuadrática) o incluso cúbica, según esté compuesta
por dos o tres palabras simples. Así los resultados son menos coherentes
seguramente debido a fenómenos caóticos.
Para comprender este fenómeno, bastará comparar el peso relativo de una

expresión con cada una de las palabras que la componen. Veamos dos ejemplos
Cantidad de
Relación
ocurrencias
A/F
En inglés (AltaVista)
"networks" 3 834 260
"development" 21 258 510
"networks and development" 201
"foundation network and development" 9
En francés:
"réseaux" 326 250 0,09

"développement" 909 790 0,04
"réseaux et développement" 61 0,30
"association réseaux et développement" 40 44,00
La reducción de la cantidad de ocurrencias de combinaciones de palabras simples

es vertiginosa (¡de varios millones a 200!). Y aquí uno se da cuenta de que la
dimensión del universo de los sitios web no es tan grande como suponíamos.
Así, la comparación de la expresión "costo de la vida" da los resultados siguientes,

aberrantes, en que el inglés aparece como el idioma menos frecuente:
"cost of life" en 597

"costo de la vida"
669
es
"cout de la vie" fr 1 431
"costo della vita" it 899
"custo de vida" pt 747
2.3 Metodología estadística
Los intervalos de confianza entre 90% y 99% de los resultados se establecieron

según la distribución T de Student4, siguiendo la hipótesis de una distribución de
tipo normal.
2.3.1 Resultados de las mediciones en el espacio WWW con el motor de

búsqueda HotBot
En el cuadro del anexo 7 se indican, en cada lengua, la cantidad de ocurrencias de
las palabras en el espacio WWW, según el motor de búsqueda HotBot.
Se toman en cuenta todas las ocurrencias en el conjunto de las páginas web

referenciadas por HotBot. Lo que sigue es la cantidad total de ocurrencias de todas
las palabras contadas, por idioma.
Inglés Castellano Francés Italiano Portugués Rumano
TOTAL 57 246 318 1 469 252 1 673 864 742 335 439 229 74 631
2.3.2 Cálculos estadísticos en el espacio WWW
Estos son los porcentajes promedio de la presencia de los idiomas latinos en

relación con el inglés. Véase el detalle palabra por palabra en el anexo 8 (Cálculos
estadísticos en el espacio WWW).
Castellano Francés Italiano Portugués Rumano
PROMEDIO 3,37% 3,75% 2,00% 1,09% 0,20%

Desviación tipo 3,07% 1,78% 1,76% 0,99% 0,33%
Coeficiente de variación 0,96 0,69 0,94 0,95 1,27
El coeficiente de variación es la raíz cuadrada de la variación tipo al cuadrado

dividida por el promedio al cuadrado. Un valor superior a 1 indica una dispersión
importante, luego un promedio poco fiable. Un valor inferior a 1 indica una
dispersión pequeña, luego un resultado tanto más fiable cuanto menor es ese valor.
2.3.3 Resultado de las mediciones en el espacio Usenet con el motor de

búsqueda DejaNews
El cuadro en el anexo 9 indica la cantidad de ocurrencias de las palabras

seleccionadas, en cada idioma, en el espacio Usenet, contadas con el motor
DejaNews, los totales respectivos son los siguientes:
Inglés Castellano Francés Italiano Portugués Rumano
TOTAL 39 158 982 1 702 736 665 327 713 603 183 346 32 741
2.3.4 Cálculos estadísticos en el espacio Usenet
Estos son los porcentajes promedio de la presencia de los idiomas latinos en

relación con el inglés. Véase el detalle palabra por palabra en el anexo 10 (Cálculos
estadísticos en el espacio Usenet).
Castellano Francés Italiano Portugués Rumano
PROMEDIO 2,41% 1,44% 2,54% 1,12% 0,14%

Desviación tipo 1,37% 1,65% 2,74% 5,47% 0,48%
2.4 Comparación con otros estudios
2.4.1 Comparación con los estudios precedentes
Las relaciones inglés/francés y francés/castellano evolucionaron entre el primer

estudio realizado y éste de la manera siguiente:
Inglés/francés Francés/castellano Inglés/castellano
Marzo 1996 (L1) 21,91 2,40 52,58
Marzo 1997 (L2) 19,99 1,92 38,38
Marzo 1998 (L3) 17,60 1,33 23,32
Sept. 1998 (L4) 35,59 1,11 39,53
¿Significa esto que las lenguas latinas han retrocedido en 1998 en relación con los
años anteriores? Por supuesto que no. Estos cambios se deben a dos principales
razones:
A modificaciones de la metodología estadística. En el estudio presente, se ha

trabajado con la relación francés/inglés y no a la inversa, de modo de obtener una
distribución normalizada (es decir, cifras entre 0 y 1).
A una muestra de referencia distinta.
Es indudable que las características de la muestra de referencia tienen gran

influencia en los resultados con respecto al promedio y al coeficiente de variación.
Casi ninguna de las palabras de la muestra original de L1 respondería al conjunto
de criterios del filtro lingüístico riguroso establecido en este estudio L4. Si la
metodología estadística aquí aplicada se hubiera aplicado a la primera muestra, el
coeficiente de variación sería muy superior a 1 y los intervalos de confianza mucho
mayores.
El trabajo lingüístico permitió constatar que las probabilidades de homografías

entre las lenguas latinas son muy altas. La muestra de L1, establecida sin mayor
pretensión lingüística, favorecía a lenguas latinas tanto por este fenómeno de
homografías como debido a una selección de palabras no bastante "culturalmente
neutras".
De modo que, en cuanto a las tendencias, resulta difícil relacionar este estudio y su
rigor lingüístico, con los precedentes. Pero se puede comenzar un análisis científico
de las evoluciones a partir de la nueva muestra de referencia.
Una de las conclusiones de este estudio es la imposibilidad de comparar el inglés

con un solo idioma latino, dadas las muchas probabilidades de homografías entre
idiomas latinos: las ocurrencias de una misma forma se podrían atribuir a un solo
idioma cuando corresponderían a más de uno (así la forma "familia" tiene el mismo
significado en castellano, en portugués y en rumano).
Esto prueba la necesidad de una asociación entre la Agence de la

Francophonie y la Unión Latina para llevar a cabo el estudio.
2.4.2 Comparación con Alis y Altavista
En ocasión del estudio L3, se había realizado una comparación con el estudio
realizado por Alis Technologies, cuestionando sus resultados que sobrestimaban la
presencia del inglés. Los resultados presentados aquí, considerados ahora fiables,
muestran una importante sobrestimación del francés (cerca de un 100%). ¿Quiere
decir que las cifras de Alis estaban más próximas de la realidad que lo que
parecían? No es el caso. Si realizamos nuevamente la comparación teniendo en
cuenta los resultados más rigurosos obtenidos ahora, las cifras se acercan
relativamente a las que resultan del uso del algoritmo de reconocimiento de
idiomas de AltaVista, pero siguen alejadas de las cifras de Alis, que sigue
privilegiando excesivamente al inglés.
Las cifras de Alis son las que se han publicado en Internet, sin actualización en el
momento de este estudio. Las de AltaVista, han sido obtenidas mediante el método
del "complemento del conjunto vacío" descrito en el estudio L3. Las comparaciones
se han realizado partiendo de la hipótesis de un porcentaje idéntico en inglés.
Cuadro 7:
Comparación con los resultados de Altavista y de Alis
ALTAVISTA ALIS AGENCE

FRANCOPHONIE/UL/FUNREDES
ANY 107 958 869 % SIN % CON SIN CON comparación con
(*)
CORRECCIÓN CORRECCIÓN AltaVista Alis
INGLÉS 70 065 677 64,90% 76,35% 84,00 82,30 76,35% 82,30

JAPONÉS 4 369 675 4,05% 4,76% 3,10 1,6
ALEMÁN 4 009 554 3,71% 4,37% 4,50 4,00
FRANCÉS 1 951 446 1,81% 2,13% 1,8 1,5 2,86 3,08

CASTELLANO 1 495 195 1,38% 1,63% 1,20 1,10 2,57 2,77
ITALIANO 1 490 109 1,38% 1,62% 1,00 0,80 1,53 1,65
PORTUGUÉS 905 676 0,84% 0,99% 0,70 0,70 0,83 0,90
RUMANO 28 052 0,03% 0,03% 0,15
EL RESTO 23 643 485 25,77% Sitios multilingues
EL RESTO 7 449 655 8,12% 15%

CORREGIDO
Comparación con los resultados obtenidos a partir de AltaVista
En relación con nuestro estudio:
1) La cifra de AltaVista para el inglés nos parece demasiado baja.

2) La cifra de AltaVista para el francés está subestimada en un 35%.
3) La cifra de AltaVista para el castellano está subestimada en un 58%.
4) La cifra de AltaVista para el italiano está sobrestimada en un 6%.
5) La cifra de AltaVista para el portugués está sobrestimada en un 16%.
6) La cifra de AltaVista para el rumano está subestimada en un 403%.
Comparación con los resultados publicados por Alis Technologies
En relación con nuestro estudio:
1) La cifra de Alis para el inglés nos parece demasiado alta.

2) La cifra de Alis para el francés está subestimada en un 106%.
3) La cifra de Alis para el castellano está subestimada en un 152%.
4) La cifra de Alis para el italiano está sobrestimada en un 106%.
5) La cifra de Alis para el portugués está sobrestimada en un 28%.
6) Alis no considera el rumano.
Cuadro 8:
Síntesis comparativa de los cuatro métodos
EN/FR FR/SP EN/SP
MÉTODO ALTAVISTA 35,90 1,31 46,86

"COMPLEMENT DEL CONJUNTO VACÍO"
MÉTODO ALIS 46,67 1,36 63,64
MÉTODO FUNREDES APPROX. 17,60 1,33 23,32
MÉTODO FUNREDES/UL/AGENCE FRANCOPHONIE 35,59 1,11 39,53
3. Perspectivas para un seguimiento de la observación
En adelante va a resultar posible retomar las mediciones regularmente, a partir de

la misma muestra de referencia lingüística y poder así evaluar la evolución de cada
uno de los idiomas latinos en relación con el inglés y entre sí. Para llevarlo a cabo,
sería deseable automatizar el proceso de medición y de producción de resultados.
4. Referencias, en Internet, de trabajos afines

En cuanto a la importancia de los idiomas en general en el espacio WWW de
Internet, la única referencia conocida es la ya mencionada de Alis Technologies:
Palmarès des langues de la Toile: <http://babel.alis.com:8080/palmares.html>
El sitio siguiente mide, por su parte, los espacios de los usuarios por idioma:
Global statistics by language: <http://www.euromktg.com/globstats/>
En relación con algunos espacios lingüísticos, existen grupos o personas que

trabajan paran reunir la información existente y/o comentarla:
En el espacio francófono, el CIDIF, con el apoyo de la Agence de la Francophonie

ha llevado a cabo y se ocupa de administrar L’état du développement y de
l’utilisation de l’inforoute dans l'espace francophone:
<http://www1.cidif.org/franco>
En el mundo hispanohablante, dos centros de trabajo:
José Antonio Millán, que ha publicado varios artículos accesibles a partir de:
<http://ourworld.compuserve.com/homepages/JAMillan/josemill.htm>
El Instituto Cervantes y su Observatorio Español de las Industrias de la Lengua:

<http://www.cervantes.es/oeil/Oeil0.htm>
Un recuento que se actualiza regularmente de datos estadísticos sobre Internet en

América Latina y el Caribe se puede consultar en: <http://www.cr/latstat/>. Sus
cifras provienen de la fuente de referencia habitual en este tipo de estadísticas:
Network Wizard (<http://www.nw.com>).
Y, por último, se pueden señalar las referencias generales acerca de las estadísticas
sobre Internet –que, hasta hoy, no incluyen secciones referidas a lenguas o
culturas:
Matrix News, que realiza estudios demográficos sobre Internet: <http://mids.org>5
Y otro "clásico": la Universidad Georgia Tech, que realiza encuestas rigurosas sobre
los usuarios de WWW: <http://www.gvu.gatech.edu/user_surveys/>
2 El espacio (FTP) de los nombres de ficheros no presenta las características deseadas: pueden existir
correlaciones entre nombres de ficheros e idiomas, pero demasiado ocasionales para ser significativas. El
espacio Gopher, históricamente estrechamente relacionado con el mundo universitario, ha dejado de crecer
desde hace ya unos años.
3 Salvo indicación contraria, se tratará de homografías translingüísticas: los homógrafos dentro de un mismo
idioma son considerados, en principio, como la misma palabra (gráfica).
4 John E. Freund, Mathematical Statistics, 2da edición, 1972, Prentice Hall International, Cap. 9 "Estimation".
5 Y que tradujo al inglés y publicó los estudios precedentes L1, C1, L2 y L3 en la revista Matrix News.
Anexo 1
Cuadro 9.
Recapitulación y referencias de los distintos estudios de los autores
Fecha y Derechos de Enlace Internet Descripción

Nombre Autor
9/98 http://funredes.org/LC/ Página portada del

conjunto de los
estudios sobre
LC
lenguas y culturas.
3/96 Funredes http://funredes.org/LC/castellano/L1.html Primer estudio

sobre lenguas,
centrado en el
L1
francés pero que
incluye el
castellano.
Mediciones
comparativas, con
AltaVista, de la
presencia de
palabras en la
WWW, en inglés,
en francés y en
castellano, a partir
de una muestra de
50 palabras
establecida sin
rigor metodológico
a nivel lingüístico.
Resultado bastante
aproximado, que
muestra una
relación
inglés/francés de
22 y
francés/castellano
de 2,4.
3/96 Funredes http://funredes.org/LC/castellano/C1.html Primer estudio

sobre culturas,
centrado en la
C1
francofonía pero
que incluye la
hispanidad.
Mediciones
comparativas, con
AltaVista, de la
cantidad de
menciones del
nombre de
personalidades
culturalmente
representativas en
las páginas WWW:
unas 500
personalidades
distribuidas en 13
categorías. El
resultado,
subjetivo, muestra
una presencia
bastante
importante de los
representantes de
la cultura
francófona, en
relación con los
EE.UU., en los
ámbitos en que
cultura y comercio
no se confunden.
3/97 Funredes http://funredes.org/LC/castellano/L2.html Simple

actualización del
estudio sobre
L2
lenguas, que
muestra un
progreso lento del
francés en relación
con el inglés y un
avance rápido del
castellano.
3/98 Funredes 6
http://funredes.org/LC/castellano/L3.html Importante
actualización
presentada en la
L3
conferencia
"Visionarios", en
Caracas.
Análisis de los
límites de los
motores de
búsqueda y de la
presencia relativa
de los diacríticos.
Recomendación de
dejar de lado
AltaVista y usar
HotBot.
El "método del
conjunto vacío"
applicado a
AltaVista da una
idea de la magnitud
de la presencia de
los idiomas, a
partir del algoritmo
de reconocimiento
de idiomas de
AltaVista.
Evaluación crítica
de los resultados
del estudio de Alis
Technologies.
El francés continúa
su lenta progresión
y el castellano se le
acerca mucho.
9/98 Agence de la http://www.unilat.org/dtil/lenguainternet/l_latinas_es.htm Importantes

Francophonie cambios en la
metodología y
L4
obtención de
Unión Latina
resultados
rigurosos.
Funredes Consideración de
cinco lenguas
latinas: castellano,
francés, italiano,
portugués, rumano.
Definición de una
muestra según
criterios lingüísticos
rigurosos.
Medición con
HotBot en el
espacio WWW.
Medición con
DejaNews en el
espacio Usenet.
Establecimiento
de intervalos de
confianza de 90% y
99%.
Ponderación de
los resultados en
relación con las
dimensiones de los
espacios
lingüísticos en el
mundo.
9/98 Agence de la http://www.unilat.org/dtil/lenguainternet/l_latinas_es.htm Segundo estudio

Francophonie cultural, tres años
después.
No hay diferencias
Unión Latina
notables en cuanto
a la presencia
C2 cultural francófona.
Funredes
Uso de la misma
metodología,
mejorada en
cuanto a las
categorías, la
selección y la
cantidad de
personajes y
extensión
personajes en
relación con los
demás idiomas
latinos.
Análisis de ciertos
resultados por
lengua y en la
lengua de
referencia.
Anexo 2
Calidad de los resultados del estudio sur las lenguas latinas en el espacio
WWW
El esquema siguiente presenta el resultado del cálculo estadístico a partir de la

medición de la cantidad de ocurrencias de las palabras de la muestra en el espacio
WWW.
Cuadro 10.
Visualización de los intervalos de confianza en el espacio WWW
Señalización
Promedio .
Intervalo de 90% ......
Intervalo de 99% ----......----
Anexo 3
Cantidad de hablantes de los idiomas estudiados
Diferentes hipótesis de trabajo fueron estudiados y debieron ser desechadas por

poco realistas. Habría sido, por ejemplo, demasiado restrictivo atenerse a criterios
de "lengua oficial": habría significado considerar a millones de personas cuya
lengua oficial es el inglés, el portugués o el francés (por ejemplo en la India, en
Angola, en la República Democrática del Congo) pero que, por distintas razones
tienen dificultades en su práctica, y en cambio no se habría tenido en cuenta a
importantes comunidades que residen en países cuyo idioma oficial no es el propio
(como les ocurre a los hispanohablantes en EE. UU.). Pero, por otra parte, tampoco
habría sido fiable considerar solamente a las poblaciones respecto de la cuales una
de las lenguas estudiadas fuera su lengua materna, ya que se ignoraría así a los
millones de personas que dominan perfectamente, además de su lengua materna,
algún idioma de los estudiados que fuera lengua oficial en su país (en Africa, en
India, en EE. UU....).
Los seis idiomas objeto de este estudio fueron examinadas estableciendo tres
categorías:
1. El italiano y el rumano: idiomas de difusión claramente circunscrita, la cantidad

de hablantes fuera de las regiones principales es muy poco significativa;
2. El inglés, el francés y el portugués tienen un estatuto diferente, dada su amplia

expansión: lenguas oficiales y/o lenguas maternas en muchos países, son también
lenguas oficiales de naciones en que no son lenguas maternas de la mayoría de la
población –y desempeñan un papel de lenguas vehiculares. Por otra parte, en
algunos países son también idiomas de enseñanza7.
3. El castellano –lengua materna en muchos países en que es lengua oficial– es

también la lengua materna de importantes comunidades en países en que no es
lengua oficial, como los EE.UU.
Estudiamos así las poblaciones de estos idiomas según una clasificación en grupos
de hablantes tal como sigue:
1. Poblaciones de países cuya lengua oficial es la lengua materna de una gran

mayoría de los habitantes (francés en Francia, castellano en España, etc.): cifras
fácilmente accesibles.
2. Personas que son competentes en un idioma de los aquí estudiados y que
viven en un país en que éste es lengua oficial pero no lengua materna de la
mayoría de la población (el inglés en India, el portugués en Mozambique...),
esquema que no se refiere ni al castellano, ni al italiano, ni al rumano: cifras
fácilmente accesibles para el francés y el portugués, menos fiables para el inglés.
3. Individuos que se pueden comunicar sin dificultad en un idioma de los aquí

estudiados y residen en un país en que éste es lengua oficial pero no lengua
materna de la mayoría de la población (el portugués en Angola, el francés en
Senegal, el inglés en las Filipinas, esquema que no se refiere a los otros idiomas
estudiados): cifras fácilmente accesibles para el francés y el portugués, menos
fiables para el inglés.
4. Personas que han estudiado y son competentes en una de las lenguas aquí
estudiadas y viven en un país en que ésta no es ni lengua oficial ni lengua materna
de la mayoría de la población, sino lengua de enseñanza (el francés en Túnez):
cifras disponibles solamente para el francés, pero los demás idiomas estudiados no
parecen estar en una situación equivalente.
5. Importantes comunidades cuya lengua materna no es ni la lengua oficial ni la

lengua de enseñanza del país en que residen (el castellano en EE.UU.): cifras
conocidas sólo en el caso del castellano.
6. No hemos podido incluir, por no existir cifras en ninguno de los idiomas

respectivos, a los individuos que son competentes en uno de los idiomas de
estudio que no es su lengua materna y residen en un país en que éste no es ni
lengua oficial ni lengua materna lengua de enseñanza. Sería el caso de los daneses
competentes en inglés, los rumanos en francés, los canadienses en castellano, etc.
Para que las estadísticas que se presentan sean representativas de las

características sociolingüísticas mencionadas, se decidió de proceder de la siguiente
manera: se sumarán las cifras correspondientes a:
individuos que tienen la competencia de uno de los idiomas del estudio porque es
su lengua materna e individuos que tienen esta competencia en un país en que es
lengua oficial o de enseñanza
individuos cuya lengua materna es una de las del estudio pero que residen en un
país en que este idioma no tiene ninguna forma de reconocimiento.
Anexo 4
Cuadro 11.
Visualización de los intervalos de confianza en el espacio Usenet
Señalización
Promedio .
Intervalo de 90% ......
Intervalo de 99% ----......----
6 Con el apoyo metodológico de la Unión Latina.
7 Idiomas de eneseñanza, en que se realiza la enseñanza, no idiomas enseñados: es el caso del francés en
Túnez, Marruecos y Mauritania, en que no es lengua oficial.
Anexo 5
Cuadro 12.
Lista de palabras de la muestra de referencia
En cursiva: forma probablemente presente pero "incorrecta". El caso más frecuente

es el de palabras sin los signos diacríticos correspondientes.
EN MAYÚSCULAS: forma con homografía (translingüística) percibida, o bien forma

de menos de cuatro letras, candidata a homógrafa, en particular de siglas.
INGLÉS CASTELLANO FRANCÉS ITALIANO PORTUGUÉS RUMANO

(EN) (ES) (FR) (IT) (PT) (RO)
1 ambiguity ambigüedad ambiguïté ambiguità ambigüidade ambiguitate
ambiguities ambiguedad ambiguite ambiguita ambiguidade ambiguitatea
ambiguousness ambigüedades ambiguïtés ambigüidades ambiguităţii
ambiguousness ambiguedades ambiguites ambiguidades ambiguitatii
es ambiguităţi
ambiguitati
ambiguităţile
ambiguitatile
ambiguităţilor
ambiguitatilor
2 causality causalidad causalité causalità causalidade cauzalitate
causalities CAUSALIDADES causalite causalita CAUSALIDADES cauzalitatea
causalités cauzalităţii
causalites cauzalitatii
cauzalităţi
cauzalitati
cauzalităţile
cauzalitatile
cauzalităţilor
cauzalitatilor
3 cheese queso fromage formaggio queijo brânză
cheeses quesos fromages formaggi queijos branza
brânze
branze
brânza
brânzele
branzele
brânzei
branzei
brânzelor
branzelor
brânzeturi
branzeturi
brânzeturile
branzeturile
brânzeturilor
branzeturilor
4 compatibility compatibilidad compatibilité compatibilità compatibilidade compatibilitate
compatibilities COMPATIBILIDADES compatibilite compatibilita COMPATIBILIDADES compatibilitatea
compatibilités compatibilităţii
compatibilites compatibilitatii
compatibilităţi
compatibilitati
compatibilităţile
compatibilitatile
compatibilităţilor
compatibilitatilor
5 contiguity contigüidad contiguïté contiguità contigüidade contiguitate
contiguities contiguidad contiguite contiguita contiguidade contiguitatea
CONTIGÜIDADES contiguïtés CONTIGÜIDADES contiguităţii
CONTIGUIDADES contiguites CONTIGUIDADES contiguitatii
contiguităţi
contiguitati
contiguităţile
contiguitatile
contiguităţilor
contiguitatilor
6 dangerous peligroso dangereux pericoloso perigoso primejdios
peligrosa dangereuse pericolosa perigosa primejdioasă
peligrosos dangereuses pericolosi perigosos primejdioasa
peligrosas pericolose perigosas primejdioase
primejdioşi
primejdiosi
7 december diciembre décembre dicembre dezembro decembrie
decembre
8 density densidad densité densità densidade densitate
densities DENSIDADES densite densita DENSIDADES densitatea
densités densităţii
densites densitatii
densităţi
densitati
densităţile
densitatile
densităţilor
densitatilor
9 disparity disparidad disparité disparità disparidade disparitate
disparities DISPARIDADES disparite disparità DISPARIDADES disparitatea
disparités disparităţii
disparites disparitatii
disparităţi
disparitati
disparităţile
disparitatile
disparităţilor
disparitatilor
10 divisibility divisibilidad divisibilité divisibilità divisibilidade divizibilitate
divisibilities DIVISIBILIDADES divisibilite divisibilita DIVISIBILIDADES divizibilitatea
divisibilités divizibilităţii
divisibilites divizibilitatii
divizibilităţi
divizibilitati
divizibilităţile
divizibilitatile
divizibilităţilor
divizibilitatilor
11 elasticity elasticidad élasticité elasticità elasticidade elasticitate
elasticities ELASTICIDADES elasticite elasticita ELASTICIDADES elasticitatea
élasticités elasticităţii
elasticites elasticitatii
elasticităţi
elasticitati
elasticităţile
elasticitatile
elasticitităţilor
elasticitatilor
12 electricity electricidad électricité elettricità electricidade electricitate
electricities ELECTRICIDADES electricite elettricita eletricidade electricitatea
électricités ELECTRICIDADES electricităţii
electricites eletricidades electricitatii
electricităţi
electricitati
electricităţile
electricitatile
electricităţilor
electricitatilor
13 february febrero février febbraio fevereiro februarie
fevrier
14 femininity feminidad féminité femminilità feminidade feminitate
femininities femineidad feminite femminilita feminilidade feminitatea
FEMINIDADES féminités FEMINIDADES feminităţii
femineidades feminites feminilidades feminitatii
feminităţi
feminitati
feminităţile
feminitatile
feminităţilor
feminitatilor
15 fertility fertilidad fertilité fertilità fertilidade fertilitate
fertilities FERTILIDADES fertilite fertilita FERTILIDADES fertilitatea
fertilités fertilităţii
fertilites fertilitatii
fertilităţi
fertilitati
fertilităţile
fertilitatile
fertilităţilor
fertilitatilor
16 fidelity fidelidad fidélité fedeltà fidelidade fidelitate
fidelities FIDELIDADES fidelite fedelta FIDELIDADES fidelitatea
faithfulness fidélités fidelităţii
faithfulnesses fidelites fidelitatii
fidelităţi
fidelitati
fidelităţile
fidelitatile
fidelităţilor
fidelitatilor
17 fraternity fraternidad fraternité fraternità fraternidade fraternitate
fraternities FRATERNIDADES fraternite fraternita FRATERNIDADES fraternitatea
brotherhood fraternités fratellanza fraternităţii
brotherhoods fraternites fratellanze fraternitatii
fraternităţi
fraternitati
fraternităţile
fraternitatile
fraternităţilor
fraternitatilor
18 friday viernes vendredi venerdì sexta-feira vineri
fridays vendredis venerdi sextas-feiras vinerea
19 heterosexuality heterosexualidad hétérosexualit eterosessualit heterossexualidade heterosexualitate
heterosexualitie heterosexualidades é à heterossexualidades heterosexualitatea
s heterosexualit eterosessualit heterosexualităţii
e a heterosexualitatii
hétérosexualit heterosexualităţi
és heterosexualitati
heterosexualit heterosexualităţile
es heterosexualitatile
heterosexualităţilo
r
heterosexualitatilo
r
20 homosexuality homosexualidad homosexualité omosessualità homossexualidade homosexualitate
homosexualities homosexualidades homosexualite omosessualit homossexualidades homosexualitatea
homosexualité a homosexualităţii
s homosexualitatii
homosexualite homosexualităţi
s homosexualitati
homosexualităţile
homosexualitatile
homosexualităţilor
homosexualitatilor
21 horse caballo cheval cavallo cavalo CAL
horses caballos chevaux cavalli cavalos CAI
calul
CAII
calului
cailor
calule
22 humidity humedad humidité umidità humidade umiditate
humidities humedades humidite umidita umidade umiditatea
humidités humidades umidităţii
humidites umidades umiditatii
umidităţi
umiditati
umidităti
umiditaţi
umidităţile
umiditatile
umidităţilor
umiditatilor
23 illness enfermedad MALADIE malattia doença boală
illnesses enfermedades maladies malattie doenca BOLI
sickness infermità doenças boala
sicknesses infermita doencas bolile
disease enfermidade bolii
diseases enfermidades bolilor
24 immortality inmortalidad immortalité immortalità imortalidade imortalitate
immortalities inmortalidades immortalite immortalita imortalidades imortalitatea
immortalités imortalităţii
immortalites imortalitatii
imortalităţi
imortalitati
imortalităţile
imortalitatile
imortalităţilor
imortalitatilor
25 immunity inmunidad immunité immunità imunidade imunitate
immunities inmunidades immunite immunita imunidades imunitatea
immunités imunităţii
immunites imunitatii
imunităţi
imunitati
imunităti
imunităţile
imunitatile
imunităţilor
imunitatilor
26 incompatibility incompatibilidad incompatibilité incompatibilit incompatibilidade incompatibilitate
incompatibilities INCOMPATIBILIDADE incompatibilite à INCOMPATIBILIDADE incompatibilitatea
S incompatibilité incompatibilit S incompatibilităţii
s a incompatibilitatii
incompatibilite incompatibilităţi
s incompatibilitati
incompatibilităţile
incompatibilitatile
incompatibilităţile
incompatibilitatilo
r
27 infallibility infalibilidad infaillibilité infallibilità infalibilidade infaibilitate
infallibilities INFALIBILIDADES infaillibilite infallibilita INFALIBILIDADES infaibilitatea
infaillibilités infaibilităţii
infaillibilites infaibilitatii
infaibilităţi
infaibilitati
infaibilităţile
infaibilitatile
infaibilităţilor
infaibilitatilor
28 inferiority inferioridad infériorité inferiorità inferioridade inferioritate
inferiorities INFERIORIDADES inferiorite inferiorita INFERIORIDADES inferioritatea
infériorités inferiorităţii
inferiorites inferioritatii
inferiorităţi
inferioritati
inferiorităţile
inferioritatile
inferiorităţile
inferioritatilor
29 infidelity infidelidad infidélité infedeltà infidelidade infidelitate
infidelities INFIDELIDADES infidelite infedelta INFIDELIDADES infidelitatea
unfaithfulness infidélités infidelităţii
unfaithfulnesses infidelites infidelitatii
infidelităţi
infidelitati
infidelităţile
infidelitatile
infidelităţilor
infidelitatilor
30 instability inestabilidad instabilité instabilità instabilidade instabilitate
instabilities inestabilidades instabilite instabilita instabilidades instabilitatea
instabilités instabilităţii
instabilites instabilitatii
instabilităţi
instabilitati
instabilităţile
instabilitatile
instabilităţilor
instabilitatilor
31 inviolability inviolabilidad inviolabilité inviolabilit inviolabilidade inviolabilitate
inviolabilities INVIOLABILIDADES inviolabilite inviolabilita INVIOLABILIDADES inviolabilitatea
inviolabilités inviolabilităţii
inviolabilites inviolabilitatii
inviolabilităţi
inviolabilitati
inviolabilităţile
inviolabilitatile
inviolabilităţilor
inviolabilitatilor
32 irregularity irregularidad irrégularité irregolarità irregularidade iregularitate
irregularities IRREGULARIDADES irregularite irregolarita IRREGULARIDADES iregularitatea
unevenness irrégularités iregularităţii
unevennesses irregularites iregularitatii
iregularităţi
iregularitati
iregularităţile
iregularitatile
iregularităţilor
iregularitatilor
33 irresponsibility irresponsabilidad irresponsabilit irresponsabilit irresponsabililidade iresponsabilitate
irresponsibilities IRRESPONSABILIDAD é à IRRESPONSABILIDAD iresponsabilitatea
ES irresponsabilit irresponsabili ES iresponsabilităţii
e ta iresponsabilitatii
irresponsabilit iresponsabilităţi
és iresponsabilitati
irresponsabilit iresponsabilităţile
es iresponsabilitatile
iresponsabilităţilor
iresponsabilitatilor
34 june junio juin giugno junho iunie
35 knee rodilla genou ginocchio joelho genunchi
knees rodillas genoux ginocchia joelhos genunchiul
ginocchi genunchii
genunchiului
genunchilor
36 knife cuchillo couteau coltello FACA cuţit
knives cuchillos couteaux coltelli FACAS cutit
cuţite
cutite
cuţitul
cutitul
cuţitele
cutitele
cuţitului
cutitului
cuţitelor
cutitelor
37 LUNG pulmón poumon polmone pulmão plămân
lungs pulmon poumons polmoni pulmao plaman
pulmones pulmões plămâni
pulmoes plamani
plămânul
plamanul
plămânii
plamanii
plămânului
plamanului
plămânilor
plamanilor
38 masculinity masculinidad masculinité mascolinità masculinidade masculinitate
masculinities MASCULINIDADES masculinite mascolinita MASCULINIDADES masculinitatea
masculinités masculinităţii
masculinites masculinitatii
masculinităţi
masculinitati
masculinităţile
masculinitatile
masculinităţilor
masculinitatilor
39 monday lunes lundi lunedì segunda-feira luni
mondays lundis lunedi segundas-feiras lunea
40 october octubre octobre ottobre outubro octombrie
41 parity igualdad égalité eguaglianza igualdade egalitate
parities IGUALDADES egalite eguaglianze IGUALDADES egalitatea
equality paridad égalités uguglianza paridade egalităţii
equalities PARIDADES egalites uguglianze PARIDADES egalitatii
parité parità egalităţi
parite parita egalitati
parités egalităţile
parites egalitatile
egalităţilor
egalitatilor
paritate
paritatea
parităţii
paritatii
parităţi
paritati
parităţile
paritatile
parităţilor
paritatilor
42 probability probabilidad probabilité probabilità probabilidade probabilitate
probabilities PROBABILIDADES probabilite probabilita PROBABILIDADES probabilitatea
likelihood probabilités probabilităţii
likelihoods probabilites probabilitatii
probabilităţi
probabilitati
probabilităţile
probabilitatile
probabilităţilor
probabilitatilor
43 productivity productividad productivité produttività produtividade productivitate
productivities productividades productivite produttivita produtividades productivitatea
productiveness productivités productivităţii
productivenesse productivites productivitatii
s productivităţi
productivitati
productivităţile
productivitatile
productivităţilor
productivitatilor
44 puberty pubertad puberté pubertà puberdade pubertate
puberties pubertades puberte puberta puberdades pubertatea
pubertés pubertăţii
pubertes pubertatii
pubertăţi
pubertati
pubertăţile
pubertatile
pubertăţilor
pubertatilor
45 responsibility responsabilidad responsabilité responsabilità responsabilidade responsabilitate
responsibilities RESPONSABILIDADES responsabilite responsabilita RESPONSABILIDADES responsabilitatea
liability responsabilités responsabilităţii
liabilities responsabilites responsabilitatii
responsabilităţi
responsabilitati
responsabilităţile
responsabilitatile
responsabilităţilor
responsabilitatilor
46 sexuality sexualidad sexualité sessualità sexualidade sexualitate
sexualities SEXUALIDADES sexualite sessualita SEXUALIDADES sexualitatea
sexualités sexualităţii
sexualites sexualitatii
sexualităţi
sexualitati
sexualităţile
sexualitatile
sexualităţilor
sexualitatilor
47 singularity singularidad singularité singolarità singularidade singularitate
singularities SINGULARIDADES singularite singolarita SINGULARIDADES singularitatea
singularités singularităţii
singularites singularitatii
singularităţi
singularitati
singularităţile
singularitatile
singularităţilor
singularitatilor
48 superiority superioridad supériorité superiorità superioridade superioritate
superiorities SUPERIORIDADES superiorite superiorita SUPERIORIDADES superioritatea
supériorités superiorităţii
superiorites superioritatii
superiorităţi
superioritati
superiorităţile
superioritatile
superiorităţilor
superioritatilor
49 thursday jueves jeudi giovedì quinta-feira JOI /
thursdays jeudis giovedi quintas-feiras JOIA
50 today hoy aujourde hui oggi hoje azi
astăzi
astazi
51 truth verdad vérité verità verdade adevăr
truths VERDADES verite verita VERDADES adevar
vérités adevărul
verites adevarul
adevărului
adevarului
adevăruri
adevaruri
adevărurile
adevarurile
adevărurilor
adevarurilor
52 tuesday martes MARDI martedì terça-feira marţi
tuesdays mardis martedi terca-feira MARTI
terças-feiras marţea
tercas-feiras martea
53 uniformity uniformidad uniformité uniformità uniformidade uniformitate
uniformities UNIFORMIDADES uniformite uniformita UNIFORMIDADES uniformitatea
uniformités uniformităţii
uniformites uniformitatii
uniformităţi
uniformitati
uniformităţile
uniformitatile
uniformităţilor
uniformitatilor
54 universality universalidad universalité universalità universalidade universalitate
universalities UNIVERSALIDADES universalite universalita UNIVERSALIDADES universalitatea
universalités universalităţii
universalites universalitatii
universalităţi
universalitati
universalităţile
universalitatile
universalităţilor
universalitatilor
55 university universidad université università universidade universitate
universities UNIVERSIDADES universite universita UNIVERSIDADES universitatea
universités universităţii
universites universitatii
universităţi
universitati
universităţile
universitatile
universităţilor
universitatilor
56 wednesday miércoles mercredi mercoledì quarta-feira miercuri
wednesdays miercoles mercredis mercoledi quartas-feiras miercurea
57 yellow amarillo jaune giallo amarelo galben
amarilla jaunes gialla amarela galbenă
amarillos gialli amarelos galbena
amarillas gialle amarelas galbeni
galbene
Anexo 6
Criterios para la selección de las palabras
El cuadro siguiente detalla los criterios de selección de las palabras de la muestra

de referencia. Se trata de criterios de filtro. Para llegar a las 57 que han quedado,
se filtraron centenas de palabras.
Cuadro 13:
Criterios de selección lingüística de las palabras de la muestra
CRITERIO DEFINICIÓN EJEMPLOS MÉTODO COMENTARIOS
Neutralidad Propiedad de una Las palabras Para obtener una

cultural palabra en relación francesas vin, muestra con el
con su frecuencia de parfum, coeficiente de
uso en la lengua en gastronomie y variación menor
función de la cultura las palabras del posible, se
respectiva. lenguaje dejaron de lado
diplomático no las palabras que
son neutras no son neutras
culturalmente, en culturalmente.
relación con el
francés.
Homografía La grafía de una Ejemplo de grafía Rechazar las Se han tenido en

translingüística palabra en un idioma idéntica (con el palabras cuenta, para
es idéntica a la de mismo sentido): homógrafas (con rechazarlas, las
otra palabra en otro casa en o sin diacríticos). homografías
idioma, incluido el castellano y entre los idiomas
caso de faux amis portugués. del estudio o con
(significación Ejemplos de faux un idioma muy
diferente). Puede amis: red en presente en
haber homografías castellano y red Internet, como el
con o sin diacríticos. en inglés alemán. Para
("rojo"); hier evitar el riesgo
en francés estadístico de
("ayer") y hier homografías con
en allemand otros idiomas, se
("aquí"). descartan por
principio las
palabras de
menos de cuatros
letras.
Homografía Una palabra del Mardi gras Es necesario Es posible

translingüística de estudio, al entrar en ("martes de controlar los descontar las
una palabra composición, es carnaval") en resultados de las ocurrencias que
compuesta, de la homógrafa de otra inglés y francés, búsquedas para provocan, al
que se guarda un palabra compuesta en con respecto a detectar este tipo formar palabras
elemento simple otro idioma. tuesday en de intrusos. compuestas,
inglés y mardi homografías.
en francés.
Homografía Cuando una palabra Anglicismos Excluir

translingüística de un idioma es comme sistemáticamente
por préstamo aceptada tal cual en business, de la muestra
otro. sandwich o
software. El
galicismo, deja
vu en inglés,
castellano, etc.
(homógrafo de la
expresión
francesa sin
diacríticos).
Homografía con Sept, siete en Evitar estas Estamos

una abreviación francés, palabras. relativamente
homógrafo de las protegidos por la
abreviaciones de consigna de
septiembre en evitar palabras de
varios idiomas, menos de cuatros
sobre todo en letras.
inglés.
Homografía con un Windows Evitar estas

nombre propio significa palabras.
frecuente "ventana" en
inglés.... pero es
asimismo el
nombre de un
programa muy
citado en
Internet.
Pseudohomografía La escritura de una Ambasador en Se rechazan estas

translingüística palabra con une error rumano puede palabras
de ortografía confundirse con solamente si la
frecuente en un ambas(s)ador lengua con que se
idioma corresponde a en inglés. confunde es el
otra en otro idioma. inglés.
Significados no Prix en francés Evitar estas

equivalentes equivale en su palabras, salvo si
significado a fuera posible
premio y a incluir todos los
precio –a price significantes que
y a prime en completarían el
inglés. sentido en las
lenguas que lo
necesiten.
Morfosintaxis no El inglés, muy Love en inglés Evitar estas Esta

equivalente: diferente es el sustantivo palabras. característica del
sustantivo, verbo morfosintácticamente que significa inglés nos lleva a
de los demás idiomas "amor" y el excluir los
estudiados, suele verbo amar: en verbos.
tener una misma el infinitivo
forma como (cuando sigue a
sustantivo y variante to), en el
verbal, ésta última presente del
equivalente a su vez indicativo (amo,
de muchas formas amas, ama,
conjugadas en los amamos,
demás idiomas. amáis, aman),
etc., etc.
Morfosintaxis no Los adjetivos, El adjetivo inglés Incluir las

equivalente: invariables en inglés, yellow variantes de
adjetivos y varían en género y en corresponde a género, número y
sustantivos número en los demás amarillo / caso en los
idiomas estudiados. amarilla / idiomas en la
Los sustantivos, que amarillos / necesidad de
en general sólo varían amarillas. Ele equivalencia lo
en número en los sustantivo inglés exige.
demás idiomas, instability /
varían en rumano instabilities a
también según el las variantes
caso (nominativo, rumanas
genitivo, etc.) y la siguientes:
diferencia instabilitate /
determinado / no instabilitatea /
determinado. instabilităţii /
instabilităţi /
instabilităţile /
instabilităţilor.
(no incluimos
aquí las variantes
sin diacríticos).
Pluricentrismo Cuando un idioma Según el país Incluir las

léxico y semántico tiene más de un hispanohablante, variantes
centro normativo se dice nafta o sinonímicas
léxico-semántico. gasolina. nacionales o
Americano, en regionales cuando
muchos países corresponda.
de América
Latina, no tiene
el mismo sentido
que en otros o en
España.
Pluricentrismo Cuando un idioma Casos del inglés Incluir las

ortográfico tiene más de un y del portugués: variantes
centro normativo ortografía ortográficas
ortográfico. diferente en EE. nacionales o
UU. y en el Reino regionales cuando
Unido (theater y corresponda.
theatre), en
Portugal y en
Brasil
(electricidade y
eletricidade).
Anexo 7
Cuadro 14.
Resultados de las mediciones en el espacio WWW
En el cuadro siguiente, los valores correspondientes a cada idioma en relación con

cada una de las palabras de la muestra corresponden a la cantidad de ocurrencias
de estas palabras en el espacio WWW, contadas con el motor de búsqueda HotBot
siguiendo los parámetros: "exact phrase", "anytime", "anywhere".
Esto permite incluir todas las ocurrencias en el conjunto de las páginas web
referenciadas por HotBot. Los valores señalados en letra cursiva corresponden a
anomalías en la medición resultado del trabajo de preparación lingüística (véanse
los capítulos y anexos respectivos).
PALABRAS EN ES FR IT PT RO
1 ambiguity 144 766 2 072 5 466 2 169 706 317

2 causality 23 547 747 1 744 536 281 12
3 cheese 350 048 10 243 13 329 7 861 2 847 911
4 compatibility 619 141 6 248 9 140 8 584 2 272 869
5 contiguity 3 947 101 228 440 65 14
6 dangerous 422 323 15 423 20 639 8 854 3 327 82
7 december 4 202 193 119 649 152 966 60 469 41 827 5 295
8 density 573 362 9 277 16 396 5 052 3 156 314
9 disparity 62 899 1 499 3 428 1 819 526 8
10 divisibility 3 515 108 215 67 64 3
11 elasticity 43 374 1 377 1 623 1 538 579 50
12 electricity 380 218 16 721 24 586 2 500 3 280 286
13 february 4 072 110 105 941 129 898 53 753 19 515 3 523
14 femininity 15 281 430 870 570 129 19
15 fertility 113 268 2 097 2 317 903 1 254 48
16 fidelity 156 597 5 221 5 768 3 881 1 877 315
17 fraternity 197 787 2 978 5 878 1 988 1 533 75
18 friday 1 481 714 35 993 37 232 17 349 5 227 1 506
19 heterosexuality 6648 90 226 58 22 1
20 homosexuality 69 100 1 029 3 251 772 221 46
21 horse 373 770 6 454 11 311 11 120 1 527 127
22 humidity 201 190 8 158 6 447 2 896 2 257 114
23 illness 1 329 311 26 450 55 458 15 318 9 861 957
24 immortality 53 435 999 1 248 693 430 6
25 immunity 132 276 2 821 2 928 1 195 1 015 594
26 incompatibility 72 043 2 893 2 827 3 931 951 261
27 infallibility 7 468 196 221 130 83 0
28 inferiority 18 555 978 805 766 277 85
29 infidelity 19 343 801 542 472 219 14
30 instability 133 942 5 040 5 125 1 805 1 815 416
31 inviolability 4 634 863 392 222 247 63
32 irregularity 43 704 5 029 2 372 2 958 2 387 16
33 irresponsibility 11 420 1 727 741 281 384 232
34 june 4 466 960 118 879 159 146 66 627 27 606 3 786
35 knee 548 412 6 143 7 335 4 217 2 105 361
36 knife 325 334 3 672 6 878 3 386 3 500 664
37 lung 378 212 4 903 4 585 2 031 1 454 152
38 masculinity 19 436 352 338 104 131 8
39 monday 1 356 145 33 409 36 129 17 198 3 841 4 533
40 october 4 186 337 111 332 144 021 61 602 28 527 6 588
41 parity 398 500 18 244 22 870 9 553 4 004 1 408
42 probability 629 463 8 363 9 789 6 327 3 088 321
43 productivity 678 743 17 888 18 540 8 073 8 086 1 060
44 puberty 30 393 609 855 359 228 32
45 responsibility 3 076 317 64 057 79 070 31 791 20 552 2 310
46 sexuality 174 287 3 657 6 372 1 776 1 300 30
47 singularity 34 154 1 525 1 980 693 662 53
48 superiority 79 047 2 698 2 901 1 421 852 281
49 thursday 1 177 498 29 563 32 481 13 102 3 900 1 297
50 today 6 898 783 200 295 151 755 110 150 62 192 15 265
51 truth 1 109 455 50 004 32 219 18 042 22 785 7 740
52 tuesday 1 167 880 28 159 39 124 3 373 11 924 1 604
53 uniformity 74 001 1 940 2 814 1 927 565 54
54 universality 26 237 1 694 2 637 916 495 89
55 university 10 457 021 215 767 284 361 107 266 106 449 5 837
56 wednesday 2 231 584 56 276 54 576 23 020 7 217 3 221
57 yellow 2 379 190 90 170 47 471 28 431 7 605 1 358
TOTAL 57 246 318 1 469 252 1 673 864 742 335 439 229 74 631
Anexo 8
Cuadro 15.
Cálculos estadísticos en el espacio WWW
1 ambiguity 144 766 1,43% 3,78% 1,50% 0,49% 0,22%

2 causality 23 547 3,17% 7,41% 2,28% 1,19% 0,05%
3 cheese 350 048 2,93% 3,81% 2,25% 0,81% 0,26%
4 compatibility 619 141 1,01% 1,48% 1,39% 0,37% 0,14%
5 contiguity 3 947 2,56% 5,78% 11,15% 1,65% 0,35%
6 dangerous 422 323 3,65% 4,89% 2,10% 0,79% 0,02%
7 december 4 202 193 2,85% 3,64% 1,44% 1,00% 0,13%
8 density 573 362 1,62% 2,86% 0,88% 0,55% 0,05%
9 disparity 62 899 2,38% 5,45% 2,89% 0,84% 0,01%
10 divisibility 3 515 3,07% 6,12% 1,91% 1,82% 0,09%
11 elasticity 43 374 3,17% 3,74% 3,55% 1,33% 0,12%
12 electricity 380 218 4,40% 6,47% 0,66% 0,86% 0,08%
13 february 4 072 110 2,60% 3,19% 1,32% 0,48% 0,09%
14 femininity 15 281 2,81% 5,69% 3,73% 0,84% 0,12%
15 fertility 113 268 1,85% 2,05% 0,80% 1,11% 0,04%
16 fidelity 156 597 3,33% 3,68% 2,48% 1,20% 0,20%
17 fraternity 197 787 1,51% 2,97% 1,01% 0,78% 0,04%
18 friday 1 481 714 2,43% 2,51% 1,17% 0,35% 0,10%
19 heterosexuality 6 648 1,35% 3,40% 0,87% 0,33% 0,02%
20 homosexuality 69 100 1,49% 4,70% 1,12% 0,32% 0,07%
21 horse 373 770 1,73% 3,03% 2,98% 0,41% 0,03%
22 humidity 201 190 4,05% 3,20% 1,44% 1,12% 0,06%
23 illness 1 329 311 1,99% 4,17% 1,15% 0,74% 0,07%
24 immortality 53 435 1,87% 2,34% 1,30% 0,80% 0,01%
25 immunity 132 276 2,13% 2,21% 0,90% 0,77% 0,45%
26 incompatibility 72 043 4,02% 3,92% 5,46% 1,32% 0,36%
27 infallibility 7 468 2,62% 2,96% 1,74% 1,11% 0,00%
28 inferiority 18 555 5,27% 4,34% 4,13% 1,49% 0,46%
29 infidelity 19 343 4,14% 2,80% 2,44% 1,13% 0,07%
30 instability 133 942 3,76% 3,83% 1,35% 1,36% 0,31%
31 inviolability 4 634 18,62% 8,46% 4,79% 5,33% 1,36%
32 irregularity 43 704 11,51% 5,43% 6,77% 5,46% 0,04%
33 irresponsibility 11 420 15,12% 6,49% 2,46% 3,36% 2,03%
34 june 4 466 960 2,66% 3,56% 1,49% 0,62% 0,08%
35 knee 548 412 1,12% 1,34% 0,77% 0,38% 0,07%
36 knife 325 334 1,13% 2,11% 1,04% 1,08% 0,20%
37 lung 378 212 1,30% 1,21% 0,54% 0,38% 0,04%
38 masculinity 19 436 1,81% 1,74% 0,54% 0,67% 0,04%
39 monday 1 356 145 2,46% 2,66% 1,27% 0,28% 0,33%
40 october 4 186 337 2,66% 3,44% 1,47% 0,68% 0,16%
41 parity 398 500 4,58% 5,74% 2,40% 1,00% 0,35%
42 probability 629 463 1,33% 1,56% 1,01% 0,49% 0,05%
43 productivity 678 743 2,64% 2,73% 1,19% 1,19% 0,16%
44 puberty 30 393 2,00% 2,81% 1,18% 0,75% 0,11%
45 responsibility 3 076 317 2,08% 2,57% 1,03% 0,67% 0,08%
46 sexuality 174 287 2,10% 3,66% 1,02% 0,75% 0,02%
47 singularity 34 154 4,47% 5,80% 2,03% 1,94% 0,16%
48 superiority 79 047 3,41% 3,67% 1,80% 1,08% 0,36%
49 thursday 1 177 498 2,51% 2,76% 1,11% 0,33% 0,11%
50 today 6 898 783 2,90% 2,20% 1,60% 0,90% 0,22%
51 truth 1 109 457 4,51% 2,90% 1,63% 2,05% 0,70%
52 tuesday 1 167 880 2,41% 3,35% 0,29% 1,02% 0,14%
53 uniformity 74 001 2,62% 3,80% 2,60% 0,76% 0,07%
54 universality 26 237 6,46% 10,05% 3,49% 1,89% 0,34%
55 university 10 457 021 2,06% 2,72% 1,03% 1,02% 0,06%
56 wednesday 2 231 584 2,52% 2,45% 1,03% 0,32% 0,14%
57 yellow 2 379 190 3,79% 2,00% 1,19% 0,32% 0,06%
PROMEDIO 3,37% 3,75% 2,00% 1,09% 0,20%
Desviación tipo 3,07% 1,78% 1,76% 0,99% 0,33%
Los valores muy superiores al promedio están señalados con fondo negro.
Los valores muy inferiores al promedio están señalados con fondo gris.

Anexo 9
Cuadro 16.
Resultado de las mediciones en el espacio Usenet
En el cuadro siguiente, los valores correspondientes a cada idioma en relación con

cada una de las palabras de la muestra corresponden a la cantidad de ocurrencias
de estas palabras en el espacio Usenet WWW, contadas con el motor de búsqueda
DejaNews siguiendo los parámetros: archive: "complete"; messages: "past" 8 — es
decir, todos los mensajes archivados por el buscador.
1 ambiguity 60 902 700 500 1200 232 96

2 causality 22 058 515 146 200 100 15
3 cheese 371 096 5 900 11 600 6 931 569 522
4 compatibility 271 900 3 600 4 000 5 600 823 40
5 contiguity 1 105 5 11 72 1 1
6 dangerous 1 100 000 15 900 34 100 31 700 3 700 77
7 december 540 000 11 000 3 700 12 000 4 100 1 200
8 density 175 000 2 280 655 1 600 520 23
9 disparity 42 800 360 298 500 98 7
10 divisibility 717 10 7 95 2 0
11 elasticity 11 300 310 79 1 000 64 8
12 electricity 190 500 4 603 5 507 800 901 30
13 february 430 000 13 000 2 600 11 000 2 800 800
14 femininity 11 023 185 93 500 28 7
15 fertility 52 027 300 50 300 100 12
16 fidelity 74 061 1 530 2 900 1 701 925 82
17 fraternity 142 200 850 1 034 1 000 615 37
18 friday 1 549 000 25 000 28 400 25 000 2 200 598
19 heterosexuality 16 000 100 40 600 31 1
20 homosexuality 210 300 2 609 808 4 600 300 34
21 horse 1 190 000 10 300 21 100 27 000 2 200 297
22 humidity 120 900 999 410 800 53 4
23 illness 426 200 13 600 35 000 23 900 2 229 678
24 immortality 54 034 908 63 300 4 5
25 immunity 63 402 449 600 600 310 142
26 incompatibility 60 000 2 300 2 100 2 500 300 61
27 infallibility 11 000 402 78 500 38 0
28 inferiority 38 400 1 504 204 1 100 400 54
29 infidelity 20 500 407 51 100 700 7
30 instability 52 700 1 030 300 900 206 129
31 inviolability 1 300 92 11 39 400 35
32 irregularity 22 300 500 241 1 100 153 2
33 irresponsibility 13 400 1 130 106 200 612 45
34 june 1 300 000 15 000 48 000 30 000 5 600 600
35 knee 660 000 3 300 8 800 10 400 1 400 47
36 knife 304 700 2 200 6 300 31 800 3 100 3 245
37 lung 220 000 1 300 1 700 2 900 198 46
38 masculinity 16 000 200 14 57 90 4
39 monday 1 251 000 26 000 24 700 17 000 1 845 5 400
40 october 550 000 9 300 13 000 11 000 4 400 400
41 parity 234 400 9 310 11 620 5 908 1 827 162
42 probability 328 000 5 500 1 800 10 000 2 100 26
43 productivity 221 000 1 810 1 210 1 100 901 52
44 puberty 39 013 200 89 200 100 21
45 responsibility 1 534 000 21 000 22 500 9 700 6 900 443
46 sexuality 192 100 1 830 430 2 400 1 115 12
47 singularity 58 300 580 171 300 120 11
48 superiority 130 300 21 017 628 3 100 1 317 103
49 thursday 1 017 000 18 000 20 500 13 000 1 303 1 400
50 today 6 400 000 140 000 100 000 210 000 35 000 9 200
51 truth 2 515 000 150 000 16 000 45 000 29 000 3 700
52 tuesday 977 000 17 000 41 600 11 000 716 42
53 uniformity 16 044 407 73 400 53 7
54 universality 9 000 504 100 200 47 23
55 university 12 250 000 1 110 000 152 000 80 000 38 000 1 400
56 wednesday 830 000 7 600 17 000 8 300 19 000 1 100
57 yellow 760 000 18 300 20 300 44 400 3 500 248
TOTAL 39 158 982 1 702 736 665 327 713 603 183 346 32 741
Anexo 10
Cuadro 17.
Cálculos estadísticos en el espacio Usenet
1 ambiguity 60 902 1,15% 0,82% 1,97% 0,38% 0,16%

2 causality 22 058 2,33% 0,66% 0,91% 0,45% 0,07%
3 cheese 371 096 1,59% 3,13% 1,87% 0,15% 0,14%
4 compatibility 271 900 1,32% 1,47% 2,06% 0,30% 0,01%
5 contiguity 1 105 0,45% 1,00% 6,52% 0,09% 0,09%
6 dangerous 1 100 000 1,45% 3,10% 2,88% 0,34% 0,01%
7 december 540 000 2,04% 0,69% 2,22% 0,76% 0,22%
8 density 175 000 1,30% 0,37% 0,91% 0,30% 0,01%
9 disparity 42 800 0,84% 0,70% 1,17% 0,23% 0,02%
10 divisibility 717 1,39% 0,98% 13,25% 0,28% 0,00%
11 elasticity 11 300 2,74% 0,70% 8,85% 0,57% 0,07%
12 electricity 190 500 2,42% 2,89% 0,42% 0,47% 0,02%
13 february 430 000 3,02% 0,60% 2,56% 0,65% 0,19%
14 femininity 11 023 1,68% 0,84% 4,54% 0,25% 0,06%
15 fertility 52 027 0,58% 0,10% 0,58% 0,19% 0,02%
16 fidelity 74 061 2,07% 3,92% 2,30% 1,25% 0,11%
17 fraternity 142 200 0,60% 0,73% 0,70% 0,43% 0,03%
18 friday 1 549 000 1,61% 1,83% 1,61% 0,14% 0,04%
19 heterosexuality 16 000 0,63% 0,25% 3,75% 0,19% 0,01%
20 homosexuality 210 300 1,24% 0,38% 2,19% 0,14% 0,02%
21 horse 1 190 000 0,87% 1,77% 2,27% 0,18% 0,02%
22 humidity 120 900 0,83% 0,34% 0,66% 0,04% 0,00%
23 illness 426 200 3,19% 8,21% 5,61% 0,52% 0,16%
24 immortality 54 034 1,68% 0,12% 0,56% 0,01% 0,01%
25 immunity 63 402 0,71% 0,95% 0,95% 0,49% 0,22%
26 incompatibility 60 000 3,83% 3,50% 4,17% 0,50% 0,10%
27 infallibility 11 000 3,65% 0,71% 4,55% 0,35% 0,00%
28 inferiority 38 400 3,92% 0,53% 2,86% 1,04% 0,14%
29 infidelity 20 500 1,99% 0,25% 0,49% 3,41% 0,03%
30 instability 52 700 1,95% 0,57% 1,71% 0,39% 0,24%
31 inviolability 1 300 7,08% 0,85% 3,00% 30,77% 2,69%
32 irregularity 22 300 2,24% 1,08% 4,93% 0,69% 0,01%
33 irresponsibility 13 400 8,43% 0,79% 1,49% 4,57% 0,34%
34 june 1 300 000 1,15% 3,69% 2,31% 0,43% 0,05%
35 knee 660 000 0,50% 1,33% 1,58% 0,21% 0,01%
36 knife 304 700 0,72% 2,07% 10,44% 1,02% 1,06%
37 lung 220 000 0,59% 0,77% 1,32% 0,09% 0,02%
38 masculinity 16 000 1,25% 0,09% 0,36% 0,56% 0,03%
39 monday 1 251 000 2,08% 1,97% 1,36% 0,15% 0,43%
40 october 550 000 1,69% 2,36% 2,00% 0,80% 0,07%
41 parity 234 400 3,97% 4,96% 2,52% 0,78% 0,07%
42 probability 328 000 1,68% 0,55% 3,05% 0,64% 0,01%
43 productivity 221 000 0,82% 0,55% 0,50% 0,41% 0,02%
44 puberty 39 013 0,51% 0,23% 0,51% 0,26% 0,05%
45 responsibility 1 534 000 1,37% 1,47% 0,63% 0,45% 0,03%
46 sexuality 192 100 0,95% 0,22% 1,25% 0,58% 0,01%
47 singularity 58 300 0,99% 0,29% 0,51% 0,21% 0,02%
48 superiority 130 300 16,13% 0,48% 2,38% 1,01% 0,08%
49 thursday 1 017 000 1,77% 2,02% 1,28% 0,13% 0,14%
50 today 6 400 000 2,19% 1,56% 3,28% 0,55% 0,14%
51 truth 2 515 000 5,96% 0,64% 1,79% 1,15% 0,15%
52 tuesday 977 000 1,74% 4,26% 1,13% 0,07% 0,00%
53 uniformity 16 044 2,54% 0,45% 2,49% 0,33% 0,04%
54 universality 9 000 5,60% 1,11% 2,22% 0,52% 0,26%
55 university 12 250 000 9,06% 1,24% 0,65% 0,31% 0,01%
56 wednesday 830 000 0,92% 2,05% 1,00% 2,29% 0,13%
57 yellow 760 000 2,41% 2,67% 5,84% 0,46% 0,03%
PROMEDIO 2,41% 1,44% 2,54% 1,12% 0,14%
Desviación tipo 1,37% 1,65% 2,74% 5,47% 0,48%
Los valores muy superiores al promedio están señalados con fondo negro.
Los valores muy inferiores al promedio están señalados con fondo gris.

8 En el estado actual de la interfaz de DejaNews, es necesaria una primera búsqueda precisando "complete"
archive, luego ir al fondo de la página de resultado e indicar "past" messages.

Estudio Estadístico Del Uso Del Inglés en El Internet

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Estudio Estadístico Del Uso Del Inglés en El Internet

Загружено:

Авторское право:

Доступные форматы

Primera parte: las lenguas

1. Resultados del estudio lingüístico

Los resultados se han obtenido procesando una muestra de 57 palabras,

El capítulo Metodología Internet explica por qué la elección de estos motores de

El esfuerzo realizado en la selección de las palabras de la muestra (lo que se

La calidad de los resultados (y la importancia del intervalo de confianza) varía

1.1 Síntesis de los resultados

El cuadro siguiente presenta la relación promedio entre cada idioma latino y el

CASTELLANO 3,37% 2,41%

1.2 Comentarios sobre el valor absoluto de la presencia del inglés

Los resultados obtenidos permiten evaluar la presencia de las lenguas latinas en

Resultado más verosímil

Si INGLÉS = 90,00% 85,00% 80,00% 75,00% 70,00% 65,00%

1.3 Relación entre la cantidad de latinos y su presencia lingüística en

Para que las estadísticas presentadas sean representativos de las características

Inglés Castellano Portugués Francés Italiano Rumano

Presencia absoluta 630 375 190 130 60 30

La presencia relativa de estos idiomas es así calculada sin tener totalmente en

Presencia WWW Presencia WWW

1.4 Relación entre la cantidad de latinos y su presencia lingüística en el

El esquema siguiente presenta el resultado del cálculo estadístico realizado a partir

Resultado más verosímil

Si INGLÉS = 90,00 % 85,00 % 80,00 % 75,00 % 70,00 % 65,00 %

Presencia Usenet Presencia Usenet

2. Detalle de los resultados

2.1 Metodología Internet

Los motores de búsqueda de acceso libre en Internet (AltaVista, Hotbot, Excite,

2.2 Metodología lingüística

Los resultados de la metodología aquí explicada pueden leerse en el

2.2.1 Equivalencias y distinciones gráficas

Los autores decidieron procesar lingüísticamente las palabras a buscar, antes de

En realidad, desde esta perspectiva lingüística se trató sistemáticamente de evitar

2.2.2 Palabras y variantes

Cada palabra o "función" comparada incluye o puede incluir variantes de distinta

Variantes sin diacríticos y variantes "incorrectas". En los cinco idiomas latinos,

En el caso de idiomas pluricéntricos, es decir, con más de un centro normativo

Se eligió incluir a veces, para incrementar la cantidad de las formas a buscar,

2.2.3 Procesamiento de diferencias tipológicas

Otro escollo evitado lo constituyeron partículas tales como preposiciones o

Véase en el anexo 6 el conjunto de los criterios que se tuvieron en cuenta para la

2.2.4 Procesamiento de las homografías restantes

A pesar de todo, subsistieron algunas homografías en la muestra que fueron

LUNG ("pulmón" en inglés) significa "largo" en rumano. El efecto, muy marginal en

FACA y FACAS significan respectivamente no sólo "cuchillo" y "cuchillos", en

La forma MALADIE existe en rumano con el mismo sentido de "enfermedad" que la

JOI (variante de "jueves" en rumano) es una palabra de tres letras, candidata a

MARTI (variante de "martes" en rumano) es homógrafa del nombre del célebre

A la cifra de MARDI ("martes" en francés) se le quitó lo que correspondería a

2.2.5 Procesamiento de otras significaciones no equivalentes

El trabajo de filtro y la inserción de formas equivalentes ha eliminado prácticamente

Nota metodológica: La cantidad de sitios indexados por Hotbot parece variar

2.2.6 Otros elementos lingüísticos considerados

Para comprender este fenómeno, bastará comparar el peso relativo de una

"networks" 3 834 260

"development" 21 258 510

"networks and development" 201

"foundation network and development" 9

"réseaux" 326 250 0,09

La reducción de la cantidad de ocurrencias de combinaciones de palabras simples

Así, la comparación de la expresión "costo de la vida" da los resultados siguientes,

"cost of life" en 597

2.3 Metodología estadística

Los intervalos de confianza entre 90% y 99% de los resultados se establecieron