Los paquetes estadísticos son programas específicamente diseñados para el
análisis estadístico de datos, son la evolución natural de las librerías de rutinas matemáticas pensadas inicialmente para ser utilizadas desde lenguajes de programación como Fortran y C.
Estas conjunto de rutinas y subprogramas con el tiempo se fueron
perfeccionado, de forma que empezaron a funcionar de forma conjunta, agrupándose en subprogramas cada vez mas completos y enfocados a realizar análisis concretos, por ejemplo en vez de utilizar una rutina para calcular los coeficientes de regresión, otra subrutina para calcular los residuos, después invocar a un procedimiento gráfico para representar el gráfico de los residuos al cuadrado versus predicciones ... etc, estas se fueron agrupando en forma de subprogramas para realizar análisis de cada vez mas completos, suministrando toda la información habitualmente demandada por el analista.
Con la evolución de los computadores, se empezó a suministrar un marco
común desde donde llamar a todos estos subprogramas de una forma simplificada. Posteriormente se les añadió una interfaz de usuario, que permite utilizar estos paquetes sin tener que aprenderse el lenguaje de programación correspondiente. Aunque la gran mayoría de estos paquetes fueron desarrollados para mainframes, con el tiempo la potencia de los computadores personales fue creciendo y actualmente casi todos estos paquetes tienen su correspondiente versión para PC.
El coste de estos paquetes de análisis estadístico de datos suele ser elevado, si
bien hay que señalar que actualmente existen algunos paquetes de libre distribución, como R.
Los puntos más importantes de los paquetes estadísticos son los siguientes:
El número de análisis que realizan y profundidad de los mismos.
El nivel de conocimiento requerido por el analista. El volumen de datos que son capaces de tratar. La ergonomía de uso. La facilidad de programación. Si consideramos los paquetes SPSS, SAS, BMDP y R, en mi opinión el más completo de ellos es el SAS, seguido del SPSS, quedando en último lugar el BMDP. Sin embargo si consideramos el grado de conocimientos del analista para sacarle el rendimiento a estos paquetes, el que menos conocimientos requiere es el SPSS, seguido del SAS y el BMDP quedando en último lugar el R.
Tanto el SPSS y el SAS son capaces de tratar grandes conjuntos de datos,
encontrándose la limitación únicamente en la potencia del computador que los acoge, el numero de variables que pueden tratar el SPSS y SAS es del orden de 300,000 y la longitud del fichero prácticamente ilimitada.
Si consideramos la ergonomía de uso, que puede ser un factor determinante,
el mas sencillo de manejar es el SPSS, seguido por el SAS y el BMDP, en cambio el R requiere tanto conocimientos de programación así como profundos conocimientos de estadística.
La posibilidad de programar nuestros propios análisis se encuentra limitada
por la potencia del lenguaje de programación de estos paquetes, es donde el R se destaca claramente de los demás, permitiendo incluso la incrustación de rutinas hechas en otros lenguajes, el SAS permite manipulaciones no triviales de datos en su data step, incluso permite manipulaciones matriciales, pero en general es complicado el acceso desde programación a los valores de los análisis con el realizados. El SPSS posee un lenguaje de programación sencillo pero poco potente y no permite el acceso a los valores de los análisis.