Академический Документы
Профессиональный Документы
Культура Документы
Se han tomado en cuenta dos espacios de Internet para las mediciones: el espacio
WWW, explorado con el motor de búsqueda HotBot, y el espacio Usenet,
explorado con el motor de búsqueda DejaNews.
Cuadro 1:
Promedios de los idiomas latinos en relación con el inglés
WWW USENET
En la actualidad, ningún método es totalmente seguro; sea cual fuere el que se elija
para trabajar, subsistirá el obstáculo de la medición en las páginas multilingües.
Pero trabajando a partir de los datos obtenidos, es posible estimar, aunque con un
margen de aproximación relativamente grande, el valor de la presencia del inglés.
El algoritmo de lengua de AltaVista es, entre otros, un elemento capaz de
determinar este margen (véase en el estudio L3 el "método del complemento del
universo vacío").
El porcentaje de páginas en inglés no tendría que ser inferior a 65%, según las
mediciones realizadas con este método. Pero difícilmente sobrepasaría un 85%,
dado el lugar que ocupan idiomas importantes, tales como el japonés, el alemán, el
francés y el castellano, que pueden representar un 15%. Una cifra razonable
parecería ser hoy de aproximadamente 75%, si se tiene en cuenta el porcentaje
de idiomas que ocupan cada uno entre 0,5% y 1% (es decir, entre 7 y 10 idiomas
que constituyen un total de 5%), el de idiomas de presencia menor, como el
rumano (es decir, de 10 a 15 idiomas presentes en un 0,15% cada uno y un total
de 2%) y, por último, las numerosas lenguas cuya presencia es marginal. La
proporción de estas últimas es la más difícil de estimar; pero con la hipótesis de
200 lenguas presentes cada una en un 0,025%, alcanzan un total de 5%... Una
incógnita importante, cuyas consecuencias habrá que evaluar llegado el caso, es la
posible multiplicación de idiomas presentes en Internet, siendo que el total de los
idiomas que se practican en el mundo es muy superior al de los estados-naciones, y
el total de éstos es algo inferior a 200.
Esta cifra de 75% para el inglés se aplica al espacio WWW; la elevaremos a 80% en
el caso del espacio Usenet.
Cuadro 2:
Presencia absoluta de los idiomas latinos en el espacio WWW
Está claro que los valores de presencia absoluta no son un indicador perfecto de la
presencia de un idioma en Internet. Para obtener un resultado significativo,
conviene relacionar los valores que expresan la presencia de los idiomas en
Internet con la presencia efectiva de estos idiomas en el mundo real. Pero, para
medir la importancia del uso real de los idiomas en el mundo, un primer obstáculo
de envergadura es cuáles serán los criterios a tener en cuenta1 — y hasta hoy no
hay consenso entre los expertos. A los fines de este estudio, para apreciar la
importancia de los idiomas latinos a nivel mundial los autores han optado
arbitrariamente por el método que se explicita en el anexo 3 – Cantidad de
hablantes de los idiomas estudiados.
individuos que tienen la competencia de uno de los idiomas del estudio porque es
su lengua materna e individuos que tienen esta competencia en un país en que es
lengua oficial o de enseñanza,
individuos cuya lengua materna es una de las del estudio pero que residen en un
país en que este idioma no tiene ninguna forma de reconocimiento.
Cuadro 3:
Peso de los idiomas latinos (cifras redondas en millones)
Cuadro 4:
Presencia ponderada de los idiomas latinos en el espacio WWW
Cuadro 5:
Presencia absoluta de los idiomas latinos en el espacio Usenet
Cuadro 6:
Presencia ponderada de los idiomas latinos en el espacio Usenet
1 ¿Hay que tener en cuenta solo los primeros idiomas, en el uso de los individuos plurilingües? ¿Hay que tener
en cuenta las cifras referidas a las idiomas oficiales, aun cuando hay casos en que numerosas personas no
hablan este idioma (como, por ejemplo, el francés en Haïtí)? ¿Hay que incluir los idiomas supranacionales y
vehiculares?
Las homografías entre al menos dos de los idiomas del estudio se mostraron
sumamente frecuentes, en general –pero no solamente– entre el castellano y el
portugués; el inglés y sus formas de origen latino plantearon problemas, así como
los préstamos.
En un caso, hubo que considerar dos palabras de la misma raíz como una sola ya
que el alcance de su significación diverge, tomadas separadamente, y coincide si se
las toma juntas, como variantes sinonímicas: parity / equality (en), paridad /
igualdad (es), parité / égalité (fr), parità / uguglianza / eguaglianza (it)...
Las homografías restantes más frecuentes han sido los plurales en "-IDADES"
comunes al castellano y al portugués –que hubo que incluir obligatoriamente en
plural, puesto que la forma italiana en "-ità" es singular y plural a la vez. Cuando la
medición de la forma en "-idades" da un resultado bajo (inferior a 50), la
distribución entre castellano y portugués se hizo directamente, por observación de
los resultados. En los otros casos, se repartió la cifra entre el castellano y el
portugués proporcionalmente con el resultado indicado al respecto por el algoritmo
de AltaVista de búsqueda por idioma.
Hay un ejemplo de homografías a partir del rumano (CAL y CAI por "caballo":
homógrafos de palabras en castellano, en italiano, en portugués...) que dio lugar a
no contar estas formas, en detrimento del rumano. Y la forma casual CAII de la
misma palabra fue eliminada por homógrafa de siglas frecuentes en Internet.
Quedan los siguientes escollos. Por una parte, knife ("cuchillo" en inglés) significa
a veces "acuchillar" o "apuñalar" y, al incluir esta forma, favorecemos en alguna
medida el inglés.
Por otra parte, en portugués los días de la semana se designan como en "quarta-
feira", palabra compuesta en que el primer término indica un número ordinal; pero
a veces se excluye, al hablar o escribir, el segundo término (quarta en vez de
quarta-feira). No se tuvo en cuenta esta forma simple como variante, para evitar
la confusión con "cuarta", decisión que desfavorece aquí al portugués en los cinco
días de la semana seleccionados (sobre todo en el espacio Usenet, en que estas
formas abreviadas son más frecuentes).
Uno de los elementos más frustrantes de este trabajo fue el fracaso de un intento
de extender la cantidad de palabras de la muestra usando expresiones en lugar
de palabras simples. El equipo lingüístico seleccionó una cantidad de palabras
compuestas, términos especializados recogidos en diccionarios terminológicos. Se
estableció una muestra complementaria de más de sesenta términos (a partir de
400 en un comienzo). Pero las primeras mediciones mostraron ya una gran
dispersión de los resultados, en particular con respecto a la primera muestra. De
modo que se decidió suspender estas mediciones y el intento de reducir así la
dimensión de los intervalos de confianza aumentando la de la dimensión fracasó.
Una de las razones de este fenómeno es estadística. La función matemática que
relaciona la cantidad de ocurrencias de palabras simples en Internet puede ser
considerado lineal: cantidad de ocurrencias en inglés (palabra) = alpha X cantidad
de ocurrencias en castellano (palabra), etc. Tratamos de determinar el valor alpha
para una muestra de palabras simples. Pero en el caso de expresiones (como
"bienes de consumo" o "costo de la vida"), la función deja de ser lineal y puede
llegar a ser de segundo grado (cuadrática) o incluso cúbica, según esté compuesta
por dos o tres palabras simples. Así los resultados son menos coherentes
seguramente debido a fenómenos caóticos.
Cantidad de
Relación
ocurrencias
A/F
En inglés (AltaVista)
En francés:
TOTAL 57 246 318 1 469 252 1 673 864 742 335 439 229 74 631
TOTAL 39 158 982 1 702 736 665 327 713 603 183 346 32 741
¿Significa esto que las lenguas latinas han retrocedido en 1998 en relación con los
años anteriores? Por supuesto que no. Estos cambios se deben a dos principales
razones:
De modo que, en cuanto a las tendencias, resulta difícil relacionar este estudio y su
rigor lingüístico, con los precedentes. Pero se puede comenzar un análisis científico
de las evoluciones a partir de la nueva muestra de referencia.
En ocasión del estudio L3, se había realizado una comparación con el estudio
realizado por Alis Technologies, cuestionando sus resultados que sobrestimaban la
presencia del inglés. Los resultados presentados aquí, considerados ahora fiables,
muestran una importante sobrestimación del francés (cerca de un 100%). ¿Quiere
decir que las cifras de Alis estaban más próximas de la realidad que lo que
parecían? No es el caso. Si realizamos nuevamente la comparación teniendo en
cuenta los resultados más rigurosos obtenidos ahora, las cifras se acercan
relativamente a las que resultan del uso del algoritmo de reconocimiento de
idiomas de AltaVista, pero siguen alejadas de las cifras de Alis, que sigue
privilegiando excesivamente al inglés.
Las cifras de Alis son las que se han publicado en Internet, sin actualización en el
momento de este estudio. Las de AltaVista, han sido obtenidas mediante el método
del "complemento del conjunto vacío" descrito en el estudio L3. Las comparaciones
se han realizado partiendo de la hipótesis de un porcentaje idéntico en inglés.
Cuadro 7:
Comparación con los resultados de Altavista y de Alis
Cuadro 8:
Síntesis comparativa de los cuatro métodos
El sitio siguiente mide, por su parte, los espacios de los usuarios por idioma:
Global statistics by language: <http://www.euromktg.com/globstats/>
José Antonio Millán, que ha publicado varios artículos accesibles a partir de:
<http://ourworld.compuserve.com/homepages/JAMillan/josemill.htm>
Y, por último, se pueden señalar las referencias generales acerca de las estadísticas
sobre Internet –que, hasta hoy, no incluyen secciones referidas a lenguas o
culturas:
Matrix News, que realiza estudios demográficos sobre Internet: <http://mids.org>5
Y otro "clásico": la Universidad Georgia Tech, que realiza encuestas rigurosas sobre
los usuarios de WWW: <http://www.gvu.gatech.edu/user_surveys/>
2 El espacio (FTP) de los nombres de ficheros no presenta las características deseadas: pueden existir
correlaciones entre nombres de ficheros e idiomas, pero demasiado ocasionales para ser significativas. El
espacio Gopher, históricamente estrechamente relacionado con el mundo universitario, ha dejado de crecer
desde hace ya unos años.
3 Salvo indicación contraria, se tratará de homografías translingüísticas: los homógrafos dentro de un mismo
idioma son considerados, en principio, como la misma palabra (gráfica).
4 John E. Freund, Mathematical Statistics, 2da edición, 1972, Prentice Hall International, Cap. 9 "Estimation".
5 Y que tradujo al inglés y publicó los estudios precedentes L1, C1, L2 y L3 en la revista Matrix News.
Anexo 1
Cuadro 9.
Recapitulación y referencias de los distintos estudios de los autores
3/98 Funredes 6
http://funredes.org/LC/castellano/L3.html Importante
actualización
presentada en la
L3
conferencia
"Visionarios", en
Caracas.
Análisis de los
límites de los
motores de
búsqueda y de la
presencia relativa
de los diacríticos.
Recomendación de
dejar de lado
AltaVista y usar
HotBot.
El "método del
conjunto vacío"
applicado a
AltaVista da una
idea de la magnitud
de la presencia de
los idiomas, a
partir del algoritmo
de reconocimiento
de idiomas de
AltaVista.
Evaluación crítica
de los resultados
del estudio de Alis
Technologies.
El francés continúa
su lenta progresión
y el castellano se le
acerca mucho.
Anexo 2
Calidad de los resultados del estudio sur las lenguas latinas en el espacio
WWW
Cuadro 10.
Visualización de los intervalos de confianza en el espacio WWW
Señalización
Promedio .
Intervalo de 90% ......
Intervalo de 99% ----......----
Anexo 3
Los seis idiomas objeto de este estudio fueron examinadas estableciendo tres
categorías:
Estudiamos así las poblaciones de estos idiomas según una clasificación en grupos
de hablantes tal como sigue:
4. Personas que han estudiado y son competentes en una de las lenguas aquí
estudiadas y viven en un país en que ésta no es ni lengua oficial ni lengua materna
de la mayoría de la población, sino lengua de enseñanza (el francés en Túnez):
cifras disponibles solamente para el francés, pero los demás idiomas estudiados no
parecen estar en una situación equivalente.
individuos que tienen la competencia de uno de los idiomas del estudio porque es
su lengua materna e individuos que tienen esta competencia en un país en que es
lengua oficial o de enseñanza
individuos cuya lengua materna es una de las del estudio pero que residen en un
país en que este idioma no tiene ninguna forma de reconocimiento.
Anexo 4
Cuadro 11.
Visualización de los intervalos de confianza en el espacio Usenet
Señalización
Promedio .
Intervalo de 90% ......
Intervalo de 99% ----......----
7 Idiomas de eneseñanza, en que se realiza la enseñanza, no idiomas enseñados: es el caso del francés en
Túnez, Marruecos y Mauritania, en que no es lengua oficial.
Anexo 5
Cuadro 12.
Lista de palabras de la muestra de referencia
Anexo 6
Anexo 7
Cuadro 14.
Resultados de las mediciones en el espacio WWW
Esto permite incluir todas las ocurrencias en el conjunto de las páginas web
referenciadas por HotBot. Los valores señalados en letra cursiva corresponden a
anomalías en la medición resultado del trabajo de preparación lingüística (véanse
los capítulos y anexos respectivos).
PALABRAS EN ES FR IT PT RO
Anexo 8
Cuadro 15.
Cálculos estadísticos en el espacio WWW
PALABRAS EN ES FR IT PT RO
Los valores muy superiores al promedio están señalados con fondo negro.
Los valores muy inferiores al promedio están señalados con fondo gris.
Anexo 9
Cuadro 16.
Resultado de las mediciones en el espacio Usenet
PALABRAS EN ES FR IT PT RO
Anexo 10
Cuadro 17.
Cálculos estadísticos en el espacio Usenet
PALABRAS EN ES FR IT PT RO
Los valores muy superiores al promedio están señalados con fondo negro.
Los valores muy inferiores al promedio están señalados con fondo gris.
8 En el estado actual de la interfaz de DejaNews, es necesaria una primera búsqueda precisando "complete"
archive, luego ir al fondo de la página de resultado e indicar "past" messages.