lunes, 1 de diciembre de 2008

Datos y estadísticas

Universidad de Sonora.

Depto. de Historia y Antropología

Materia: Introducción a las Nuevas Tecnologías de la Información.

Proyecto 3: Juegos de datos.

Maestro: Carlos Soqui Silva.

Grupo: H47

Equipo #3

Integrantes:
Lorena Elizondo.
Rebeca Quiroz Gómez.
Tesia Cruz Loustaunau.

Hermosillo, Sonora 26 de octubre del 2008.





Concepto de dato.

Unidad básica de información. Individualmente carece de utilidad o sentido, pero que luego adquiere al ser interpretado por el hombre.


Principios y fundamentos de la estadística..


la estadística analizando su desarrollo como una disciplina pero también considerándola como una metodología.

La estadística se estudia como una materia en muchos planes de estudio de las más diversas profesiones y forma parte de los programas de especialización y posgrado en las más diversas disciplinas. Es, de hecho, casi imposible que un profesional, técnico o científico no haya recibido en su formación al menos un curso de estadística.

la estadística es una disciplina que llegó para expandirse y para incorporarse a la cultura en la sociedad del conocimiento y la información.

la estadística tiene como finalidad coadyuvar al incremento del entendimiento, a promover el beneficio humano y mejorar la calidad de vida y bienestar por medio del avance del descubrimiento y uso efectivo del conocimiento derivado de datos.

Bosquejo histórico.

los babilonios, los egipcios, los chinos, los mayas, los incas, y los griegos, por mencionar algunas culturas, recopilaban y analizaban datos de sus gobiernos utilizando algún tipo de estadísticas, que podríamos referir como rudimentarias.

hasta el Siglo XVII que surge lo que podríamos llamar la "disciplina estadística",

los desarrolladores de esta teoría podemos señalar a Neyman (1894-1981) y a Lehmann (1917- ) (Leiva-Sánchez, 2002).

Ronald Aylmer Fisher (1890-1962) es considerado el Padre de la Estadística Moderna, ya que realizó importantes contribuciones a la metodología estadística,

Para las décadas de los cincuentas y sesentas del siglo pasado la estadística ya tenía un reconocimiento.

Con la llegada y proliferación de las computadoras, las técnicas para el manejo y explotación de la información los setentas, ochentas y noventas, la masificación de los paquetes computacionales estadísticos hizo que casi cualquier profesional o técnico tuviese la posibilidad de aplicar la estadística, sin tener necesidad de realizar tortuosos cálculos.

la estadística tuvo un desarrollo vertiginoso sucedió fundamentalmente por tres razones:

1) Por la elaboración de una sólida teoría matemática

2) Por la proliferación del cómputo electrónico y por el desarrollo de paquetes de programas para implementar los procedimientos numéricos.

3) Por el desarrollo y promoción del paradigma cuantitativo en todas las áreas y disciplinas.

Situación actual
La metodología estadística nos dota de una serie de principios cuatro tareas fundamentales en la investigación y los estudios técnicos:
1. Obtener datos pertinentes de manera rápida y a costos bajos. 2. Ya con los datos proporciona los métodos para su organización y procesamiento, para la información requerida. 3. Proporciona los principios y métodos a seguir sean el producto de procesos de inducción válidos y se obtengan de interpretaciones adecuadas de los resultados; y 4. Proporciona los principios y lineamientos para comunicar apropiadamente los resultados, conclusiones y recomendaciones, ya sea en el marco de un reporte, una presentación oral o un artículo científico.


Del conocimiento tácito al dato explícito.


La diferencia competitiva entre las empresas se concentra en un nuevo factor el cual es la información. Pero no información, si no más bien del conocimiento, entendiéndose por conocimiento al grado de incorporación, sistematización y utilización de la información con el motivo de mejora. Newman desarrollo un modelo bajo la denominación de datos-información-conocimiento en el cual deduce que la explotación del conocimiento en aras de la obtención de una ventaja competitiva sostenible requiere de alguna herramienta que lleve a cabo esa sistematización de la información.


El conocimiento no es lo mismo que los datos, ni tan siquiera lo mismo que información. Los datos son la base del conocimiento, un conjunto de datos organizados y analizados en un contexto determinado se le llama información, pero información no es lo mismo que conocimiento. El conocimiento es identificar, estructurar y sobre todo utilizar la información para obtener un resultado. La capacidad de interpretar datos es lo que hace que la información se vuelva conocimiento.


La gestión del conocimiento se compone de tres elementos sustanciales que son:

  • La información o los datos.

  • Su sistematización y organización.

  • El objetivo de mejorar la cuenta de resultados.

Para poder mejorar el objetivo de mejora de la cuenta de resultados se pueden aplicar técnicas o herramientas informáticas de gestión del conocimiento que responden a enfoques y aproximaciones diferentes. Según Nonaka y Takeuchi (1995) existen dos tipos de conocimiento que son:

  • Conocimiento explicito u objetivo y racional.

  • Conocimiento tácito.


El conocimiento explicito es aquel que puede ser expresado con palabras, números, formulas, etc. Pero el conocimiento tácito es aquel que una persona, comunidad, organización o país tiene incorporado o almacenado en su mente y es difícil de explicar, este conocimiento esta compuesto por:

  • Ideas, experiencias, destrezas, habilidades, costumbres, valores, historia y creencias.

  • Conocimiento del contexto o ecológico.

  • Conocimiento como destreza cognitiva.


El problema del conocimiento tácito es que es difícil de expresar, por ellos es necesario sustraerlo del contexto de origen y formalizarlo con lo que se genera un “ciclo de conversión” de Nonaka y Takeuchi, el cual se describe en cuatro procesos:

  • De tácito a tácito: Se produce a través de procesos de la socialización, es decir mediante la interacción directa con el mundo exterior adquiriendo conocimientos e información.

  • De tácito a explicito: Se produce a través de la externalizacion, que podríamos definir como el proceso de expresar algo, dialogo.

  • De explicito a explicito: Se denomina de combinación, ya que se combinan diferentes formas de conocimientos explicito mediante documentos o bases de datos.

  • Tácito a tácito: es la interiorización del conocimiento, y consiste en la incorporación del conocimiento tácito por parte de los individuos de cualquier organización.


Al utilizar técnicas de minería de datos en un determinado proyecto se esta llevando a cabo una extracción no trivial de información implícita, previamente desconocida a partir de los datos, con el fin de descubrir patrones, relaciones, reglas, asociaciones o incluso excepciones útiles, que debemos de exteriorizar, para posteriormente externalizarlo en la toma de decisiones. La manera de analizar los datos por parte de la minería de datos es bastante similar, aunque cada proceso de minería de datos es un “caso”, podremos adaptar y modificar estos pasos según las propias características del proyecto en el que nos encontremos inmersos:

  • Selección y procesado de datos: Los datos que se encuentran en una base de datos no se encuentran por lo general en formatos adecuados para los algoritmos, por lo que es necesario realizar operaciones sobre ellos, como un filtrado de valores incorrectos o un muestreo.

  • Selección de características: Es la determinación de aquellas variables que nos interesan, con el objetivo de simplificar los datos y realizar el proceso lo mas sencillo y rápido posible.

  • Uso de un algoritmo de extracción de conocimiento: Se aplica la técnica de minería de datos que se determino anteriormente para tener un modelo de conocimiento con los patrones de comportamiento y las reglas de asociación entre las variables.

  • Interpretación y evaluación de los resultados: Se verifica si los resultados obtenidos por los análisis estadísticos y de visualización grafica. Posteriormente verificaremos si nos aportan un nuevo conocimiento que podamos considerar en nuestras decisiones. Si no es así el proceso de empieza de nuevo.


La minería de datos es la convergencia de distintos campos como son la estadística, el aprendizaje automático, la recuperación de información, bases de datos, etc. pero dada las características de la minería la suponen un nuevo reto científico e intelectual ya que en diferencia con el análisis estadístico la minería de datos busca la base de datos sin una idea previa y deduce la afirmación mientras que con la estadística conocemos la relación y el análisis la cuantifica. Hay una amplia gama de técnicas para poder desarrollar la minería de datos, las cuales son:

  • Técnicas de visualización: Adecuadas para ubicar patrones en un conjunto de datos.

  • Árboles de decisión: son estructuras en forma de árbol que representan conjuntos de decisiones.

  • Redes neuronales: Son modelos predecibles que aprenden a través de entrenamiento y semejan la estructura de una red biológica.

  • Redes bayesianas: Buscan predeterminar relaciones causales que expliquen un fenómeno en base a los datos contenidos en una base de datos.

  • Reglas de inducción: Técnica usada para realizar operaciones en data mining denominada modelado, es simplemente el acto de construir un modelo donde usted conoce la respuesta y luego donde no la conoce.

En todo proceso data mining es el descubrimiento automático de hechos e hipótesis ocultas o no explicitas en un acontecimiento que busca la diferencia competitiva, junto con el aumento de eficacia y productividad de la organización.



Orígenes y evolución de la calidad


Previo a la conformación de los primeros grupos humanos organizados de importancia, las personas tenían pocas opciones para elegir lo que habrían de comer, vestir, en donde vivir y como vivir, todo dependía de sus habilidades en la cacería y en el manejo de herramientas, así como de su fuerza y voluntad, el usuario y el primitivo fabricante eran, regularmente, el mismo individuo.

La calidad era posible definirla como todo aquello que contribuyera a mejorar las precarias condiciones de vida de la época prehistórica, es decir, las cosas eran valiosas por el uso que se les daba, lo que era acentuado por la dificultad de poseerlas.

Conforme el ser humano evoluciona culturalmente y se dinamiza el crecimiento de los asentamientos humanos, la técnica mejora y comienzan a darse los primeros esbozos de manufactura; se da una separación importante entre usuario o cliente y el fabricante o proveedor.

La calidad se determinaba a través del contacto entre los compradores y lo vendedores, las buenas relaciones mejoraban la posibilidad de hacerse de una mejor mercancía, sin embargo, no existían garantías ni especificaciones, el cliente escogía dentro de las existencias disponibles.

Conforme la técnica se perfecciona y las poblaciones se transforman poco a poco en pueblos y luego en ciudades de tamaño considerable, aparecen los talleres de artesanos dedicados a la fabricación de gran variedad de utensilios y mercancías, cada taller se dedicaba a la elaboración de un producto, eran especialistas en ello y basaban su prestigio en la alta calidad de sus hechuras, las que correspondían a las necesidades particulares de sus clientes. En esta etapa surge el comerciante, sirviendo de intermediario entre el cliente y el fabricante.

Los gurús de nuestros días

Los gurús de esta nueva etapa idealizan las funciones y dinámica de la organización para insertarlas en un nuevo modelo de comportamiento, relaciones y disciplinas. Entre estos tenemos:

William Edwards Deming.
- Joseph Moses Juran.
- Kaoru Ishikawa.

- Philip B. Crosby.
- Genichi Taguchi.
- Shigeo Shingo.

Los catorce pasos hacia el "cero defectos" de crosby
Denominados para que la administración conduzca a la organización a una posición productiva y competitiva. En los años 60’s, Philip B. Crosby propuso un programa de 14 pasos a los que denominó “cero defectos”, a través de los cuales hizo entender a los directivos que cuanto se exige perfección ésta puede lograrse, pero para hacerlo la alta gerencia tiene que motivar a sus trabajadores (Crosby:1979). De esta forma planteaba la importancia de las relaciones humanas en el trabajo.





El Control Estadístico de la Calidad y la mejora de procesos.

Comenzando con la aportación de Shewhart sobre reconocer que en todo proceso de producción existe variación (Gutiérrez:1992), puntualizó que no podían producirse dos partes con las mismas especificaciones, pues era evidente que las diferencias en la materia prima e insumos y los distintos grados de habilidad de los operadores provocaban variabilidad. Shewhart no proponía suprimir las variaciones, sino determinar cuál era el rango tolerable de variación que evite que se originen problemas.

Para lograr lo anterior, desarrolló las gráficas de control al tiempo que Roming y Dodge desarrollaban las técnicas de muestreo adecuadas para solamente tener que verificar cierta cantidad de productos en lugar de inspeccionar todas las unidades. Este periodo de la calidad surge en la década de los 30’s a raíz de los trabajos de investigación realizados por la Bell Telephone Laboratories.

En su grupo de investigadores destacaron hombres como Walter A. Shewhart, Harry Roming y Harold Dodge, incorporándose después, como fuerte impulsor de las ideas de Shewhart, el Dr. Edwards W. Deming (Cantú:1997).

Estos investigadores cimentaron las bases de lo que hoy conocemos como Control Estadístico de la Calidad (Statistical Quality Control, SQC), lo cual constituyó un avance sin precedente en el movimiento hacia la calidad,

Causas de variación
Existen variaciones en todas las partes producidas en el proceso de manufactura. Hay dos fuentes de variación: Aleatoria y asignable

Diagramas de diagnóstico
Controles o registros que podrían llamarse "herramientas para asegurar la calidad de una fábrica", esta son las siguientes:

    • Hoja de control (Hoja de recogida de datos)

    • Histograma

    • Análisis paretiano (Diagrama de pareto)

    • Diagrama de Ishikawa: Diagrama de causa y efecto (Espina de Pescado)

    • Estratificación (Análisis por Estratificación)

    • Diagrama de scadter (Diagrama de Dispersión)

    • Gráfica de control

La experiencia de los especialistas en la aplicación de estos instrumentos o Herramientas Estadísticas señala que bien aplicadas y utilizando un método estandarizado de solución de problemas pueden ser capaces de resolver hasta el 95% de los problemas.

En la práctica estas herramientas requieren ser complementadas con otras técnicas como son:

    • La lluvia de ideas (Brainstorming)

    • La Encuesta

    • La Entrevista

    • Diagrama de Flujo

    • Matriz de selección de Problemas, etc…

Hay personas que se inclinan por técnicas sofisticadas y tienden a menospreciar, pero la realidad es que es posible resolver la mayor parte de problemas de calidad, con el uso combinado de estas herramientas en cualquier proceso de manufactura industrial.:

    • Detectar problemas

    • Delimitar el área problemática

    • Estimar factores que probablemente provoquen el problema

    • Determinar si el efecto tomado como problema es verdadero o no

    • Prevenir errores debido a omisión, rapidez o descuido

    • Confirmar los efectos de mejora

    • Detectar desfases

Objetivo de los diagramas de control de la calidad
El objetivo de los diagramas de control de la calidad es determinar y visualizar en una gráfica el momento en que ocurre una causa asignable en el sistema de producción para poder identificarla y corregirla. Esto se logra con la selección periódica de una pequeña muestrade la producción actual.

Los procedimientos para establecer un control estadístico
Los procedimientos para establecer un control estadístico del comportamiento de la empresa

  1. establecer la "capacidad del proceso",

  2. crear un gráfico de control;

  3. recoger datos periódicos y representarlos gráficamente;

  4. identificar desviaciones;

  5. identificar las causas de las desviaciones;

  6. perpetuar los efectos positivos y corregir las causas de los negativos.

Un gráfico de control utiliza medidas de un proceso para determinar el comportamiento normal de dicho proceso. La desviación típica es una medida de variabilidad que también puede calcularse, con las cuales trazamos los límites de control superior e inferior. Incluyendo los datos futuros a medida que se obtienen, veremos si los nuevos datos se corresponden con los resultados esperados. Si no es así, inferiremos que ha sucedido algo infrecuente con lo que procederemos a buscar la causa. Estas causas son denominadas causas especiales para diferenciarlas de las causas comunes de variabilidad, las cuales siempre están presentes y son las causantes de la variación incluida en las observaciones previas. Las causas comunes se reflejan en los cálculos de la media y de la desviación típica utilizados para elaborar el gráfico de control.


Nosotros opinamos que es posible creer en los sitios donde leímos la información, auque tenemos algunas dudas personales sobre los datos. Nos intrigó mucho la página de http://www.worldometers.info/ porque los datos parecen ser muy exactos y están en constante evolución, sin embargo, nos preguntamos ¿Cómo es esto posible?, ¿Cómo se filtra esa información a cada segundo?

A continuación la gráfica que realizamos sobre la Población por regiones:
Población mundial por regiones. - http://sheet.zoho.com



No hay comentarios: