trabajo final de fundamentos

Friday, July 21, 2006

trabajo final de fundamentos

Data Warehousing.

Desde que se inició la era de la computadora, las organizaciones han usado los datos desde sus sistemas operacionales para atender sus necesidades de información. Algunas proporcionan acceso directo a la información contenida dentro de las aplicaciones operacionales. Otras, han extraído los datos desde sus bases de datos operacionales para combinarlos de varias formas no estructuradas, en su intento por atender a los usuarios en sus necesidades de información.
Ambos métodos han evolucionado a través del tiempo y ahora las organizaciones manejan una data no limpia e inconsistente, sobre las cuales, en la mayoría de las veces, se toman decisiones importantes.
La gestión administrativa reconoce que una manera de elevar su eficiencia está en hacer el mejor uso de los recursos de información que ya existen dentro de la organización. Sin embargo, a pesar de que esto se viene intentando desde hace muchos años, no se tiene todavía un uso efectivo de los mismos. La razón principal es la manera en que han evolucionado las computadoras, basadas en las tecnologías de información y sistemas. La mayoría de las organizaciones hacen lo posible por conseguir buena información, pero el logro de ese objetivo depende fundamentalmente de su arquitectura actual, tanto de hardware como de software.
El data warehouse, es actualmente, el centro de atención de las grandes instituciones, porque provee un ambiente para que las organizaciones hagan un mejor uso de la información que está siendo administrada por diversas aplicaciones operacionales.
Un data warehouse es una colección de datos en la cual se encuentra integrada la información de la Institución y que se usa como soporte para el proceso de toma de decisiones gerenciales. Aunque diversas organizaciones y personas individuales logran comprender el enfoque de un Warehouse, la experiencia ha demostrado que existen muchas dificultades potenciales.
Reunir los elementos de datos apropiados desde diversas fuentes de aplicación en un ambiente integral centralizado, simplifica el problema de acceso a la información y en consecuencia, acelera el proceso de análisis, consultas y el menor tiempo de uso de la información.
Las aplicaciones para soporte de decisiones basadas en un data warehousing, pueden hacer más práctica y fácil la explotación de datos para una mayor eficacia del negocio, que no se logra cuando se usan sólo los datos que provienen de las aplicaciones operacionales (que ayudan en la operación de la empresa en sus operaciones cotidianas), en los que la información se obtiene realizando procesos independientes y muchas veces complejos.
Un data warehouse se crea al extraer datos desde una o más bases de datos de aplicaciones operacionales. La data extraída es transformada para eliminar inconsistencias y resumir si es necesario y luego, cargadas en el data warehouse. El proceso de transformar, crear el detalle de tiempo variante, resumir y combinar los extractos de datos, ayudan a crear el ambiente para el acceso a la información Institucional. Este nuevo enfoque ayuda a las personas individuales, en todos los niveles de la empresa, a efectuar su toma de decisiones con más responsabilidad.
La innovación de la Tecnología de Información dentro de un ambiente data warehousing, puede permitir a cualquier organización hacer un uso más óptimo de los datos, como un ingrediente clave para un proceso de toma de decisiones más efectivo. Las organizaciones tienen que aprovechar sus recursos de información para crear la información de la operación del negocio, pero deben considerarse las estrategias tecnológicas necesarias para la implementación de una arquitectura completa de data warehouse.

1. ASPECTOS TEÓRICOS
1.1 INTRODUCCION AL CONCEPTO DATA WAREHOUSING
Data warehousing es el centro de la arquitectura para los sistemas de información en la década de los '90. Soporta el procesamiento informático al proveer una plataforma sólida, a partir de los datos históricos para hacer el análisis. Facilita la integración de sistemas de aplicación no integrados. Organiza y almacena los datos que se necesitan para el procesamiento analítico, informático sobre una amplia perspectiva de tiempo.
Un Data Warehouse o Depósito de Datos es una colección de datos orientado a temas, integrado, no volátil, de tiempo variante, que se usa para el soporte del proceso de toma de decisiones gerenciales.
Se puede caracterizar un data warehouse haciendo un contraste de cómo los datos de un negocio almacenados en un data warehouse, difieren de los datos operacionales usados por las aplicaciones de producción.
Diferentes tipos de información
El ingreso de datos en el data warehouse viene desde el ambiente operacional en casi todos los casos. El data warehouse es siempre un almacén de datos transformados y separados físicamente de la aplicación donde se encontraron los datos en el ambiente operacional.

1.2 SISTEMAS DE INFORMACION

Los sistemas de información se han dividido de acuerdo al siguiente esquema:
Sistemas Estratégicos, orientados a soportar la toma de decisiones, facilitan la labor de la dirección, proporcionándole un soporte básico, en forma de mejor información, para la toma de decisiones. Se caracterizan porque son sistemas sin carga periódica de trabajo, es decir, su utilización no es predecible, al contrario de los casos anteriores, cuya utilización es periódica.
Se destacan entre estos sistemas: los Sistemas de Información Gerencial (MIS), Sistemas de Información Ejecutivos (EIS), Sistemas de Información Georeferencial (GIS), Sistemas de Simulación de Negocios (BIS y que en la práctica son sistemas expertos o de Inteligencia Artificial-AI).
Sistemas Tácticos, diseñados para soportar las actividades de coordinación de actividades y manejo de documentación, definidos para facilitar consultas sobre información almacenada en el sistema, proporcionar informes y, en resumen, facilitar la gestión independiente de la información por parte de los niveles intermedios de la organización.
Se destacan entre ellos: los Sistemas Ofimáticos (OA), Sistemas de Transmisión de Mensajería (E-mail y Fax Server), coordinación y control de tareas (Work Flow) y tratamiento de documentos (Imagen, Trámite y Bases de Datos Documentarios).
Sistemas Técnico-Operativos, que cubren el núcleo de operaciones tradicionales de captura masiva de datos (Data Entry) y servicios básicos de tratamiento de datos, con tareas predefinidas (contabilidad, facturación, almacén, presupuesto, personal y otros sistemas administrativos). Estos sistemas están evolucionando con la irrupción de censores, autómatas, sistemas multimedia, bases de datos relacionales más avanzadas y data warehousing.
Sistemas Interinstitucionales, este último nivel de sistemas de información recién está surgiendo, es consecuencia del desarrollo organizacional orientado a un mercado de carácter global, el cual obliga a pensar e implementar estructuras de comunicación más estrechas entre la organización y el mercado (Empresa Extendida, Organización Inteligente e Integración Organizacional), todo esto a partir de la generalización de las redes informáticas de alcance nacional y global (INTERNET), que se convierten en vehículo de comunicación entre la organización y el mercado, no importa dónde esté la organización (INTRANET), el mercado de la institución (EXTRANET) y el mercado (Red Global).
1.2.1 Sistemas técnico-operacionales
Como indica su nombre, son los sistemas que ayudan a manejar la empresa con sus operaciones cotidianas. Estos son los sistemas que operan sobre el "backbone" (columna vertebral) de cualquier empresa o institución, entre las que se tiene sistemas de ingreso de órdenes, inventario, fabricación, planilla y contabilidad, entre otros.
Debido a su volumen e importancia en la organización, los sistemas operacionales siempre han sido las primeras partes de la empresa a ser computarizados. A través de los años, estos sistemas operacionales se han extendido, revisado, mejorado y mantenido al punto que hoy, ellos son completamente integrados en la organización.
Desde luego, la mayoría de las organizaciones grandes de todo el mundo, actualmente no podrían operar sin sus sistemas operacionales y los datos que estos sistemas mantienen.
1.2.2 Sistemas de Soporte de Decisiones
Por otra parte, hay otras funciones dentro de la empresa que tienen que ver con el planeamiento, previsión y administración de la organización. Estas funciones son también críticas para la supervivencia de la organización, especialmente en nuestro mundo de rápidos cambios.
Las funciones como "planificación de marketing", "planeamiento de ingeniería" y "análisis financiero", requieren, además, de sistemas de información que los soporte. Pero estas funciones son diferentes de las operacionales y los tipos de sistemas y la información requerida son también diferentes. Las funciones basadas en el conocimiento son los sistemas de soporte de decisiones. Estos sistemas están relacionados con el análisis de los datos y la toma de decisiones, frecuentemente, decisiones importantes sobre cómo operará la empresa, ahora y en el futuro. Estos sistemas no sólo tienen un enfoque diferente al de los operacionales, sino que, por lo general, tienen un alcance diferente.
Mientras las necesidades de los datos operacionales se enfocan normalmente hacia una sola área, los datos para el soporte de decisiones, con frecuencia, toma un número de áreas diferentes y necesita cantidades grandes de datos operacionales relacionadas. Son estos sistemas sobre los se basa la tecnología data warehousing.
1.3 CARACTERISTICAS DE UN DATA WAREHOUSE
Entre las principales se tiene:
· Orientado al tema
· Integrado
· De tiempo variante
· No volátil
1.3.1 Orientado a Temas
Una primera característica del data warehouse es que la información se clasifica en base a los aspectos que son de interés para la empresa. Siendo así, los datos tomados están en contraste con los clásicos procesos orientados a las aplicaciones.
El ambiente operacional se diseña alrededor de las aplicaciones y funciones tales como préstamos, ahorros, tarjeta bancaria y depósitos para una institución financiera. Por ejemplo, una aplicación de ingreso de órdenes puede acceder a los datos sobre clientes, productos y cuentas. La base de datos combina estos elementos en una estructura que acomoda las necesidades de la aplicación.
En el ambiente data warehousing se organiza alrededor de sujetos tales como cliente, vendedor, producto y actividad. Por ejemplo, para un fabricante, éstos pueden ser clientes, productos, proveedores y vendedores. Para una universidad pueden ser estudiantes, clases y profesores. Para un hospital pueden ser pacientes, personal médico, medicamentos, etc.
La alineación alrededor de las áreas de los temas afecta el diseño y la implementación de los datos encontrados en el data warehouse. Las principales áreas de los temas influyen en la parte más importante de la estructura clave.
Las aplicaciones están relacionadas con el diseño de la base de datos y del proceso. En data warehousing se enfoca la modelación de datos y el diseño de la base de datos. El diseño del proceso (en su forma clásica) no es separado de este ambiente. Las diferencias entre la orientación de procesos y funciones de las aplicaciones y la orientación a temas, radican en el contenido de la data a nivel detallado. En el data warehouse se excluye la información que no será usada por el proceso de sistemas de soporte de decisiones, mientras que la información de las orientadas a las aplicaciones, contiene datos para satisfacer de inmediato los requerimientos funcionales y de proceso, que pueden ser usados o no por el analista de soporte de decisiones.
Otra diferencia importante está en la interrelación de la información. Los datos operacionales mantienen una relación continua entre dos o más tablas basadas en una regla comercial que está vigente. Las del data warehouse miden un espectro de tiempo y las relaciones encontradas en el data warehouse son muchas. Muchas de las reglas comerciales (y sus correspondientes relaciones de datos) se representan en el data warehouse, entre dos o más tablas.
1.3.2 Integración
El aspecto más importante del ambiente data warehousing es que la información encontrada al interior está siempre integrada. La integración de datos se muestra de muchas maneras: en convenciones de nombres consistentes, en la medida uniforme de variables, en la codificación de estructuras consistentes, en atributos físicos de los datos consistentes, fuentes múltiples y otros.
El contraste de la integración encontrada en el data warehouse con la carencia de integración del ambiente de aplicaciones, se muestran en la Figura N° 2, con diferencias bien marcadas.
A través de los años, los diseñadores de las diferentes aplicaciones han tomado sus propias decisiones sobre cómo se debería construir una aplicación. Los estilos y diseños personalizados se muestran de muchas maneras.
Se diferencian en la codificación, en las estructuras claves, en sus características físicas, en las convenciones de nombramiento y otros. La capacidad colectiva de muchos de los diseñadores de aplicaciones, para crear aplicaciones inconsistentes, es fabulosa. La Figura N° 2 mencionada, muestra algunas de las diferencias más importantes en las formas en que se diseñan las aplicaciones. Codificación. Los diseñadores de aplicaciones codifican el campo GÉNERO en varias formas. Un diseñador representa GÉNERO como una "M" y una "F", otros como un "1" y un "0", otros como una "X" y una "Y" e inclusive, como "masculino" y "femenino".
No importa mucho cómo el GENERO llega al data warehouse. Probablemente "M" y "F" sean tan buenas como cualquier otra representación. Lo importante es que sea de cualquier fuente de donde venga, el GENERO debe llegar al data warehouse en un estado integrado uniforme. Por lo tanto, cuando el GENERO se carga en el data warehouse desde una aplicación, donde ha sido representado en formato "M" y "F", los datos deben convertirse al formato del data warehouse. Medida de atributos. Los diseñadores de aplicaciones miden las unidades de medida de las tuberías en una variedad de formas. Un diseñador almacena los datos de tuberías en centímetros, otros en pulgadas, otros en millones de pies cúbicos por segundo y otros en yardas.
Al dar medidas a los atributos, la transformación traduce las diversas unidades de medida usadas en las diferentes bases de datos para transformarlas en una medida estándar común.
Cualquiera que sea la fuente, cuando la información de la tubería llegue al data warehouse necesitará ser medida de la misma manera.Convenciones de Nombramiento.- El mismo elemento es frecuentemente referido por nombres diferentes en las diversas aplicaciones. El proceso de transformación asegura que se use preferentemente el nombre de usuario.
Fuentes Múltiples.- El mismo elemento puede derivarse desde fuentes múltiples. En este caso, el proceso de transformación debe asegurar que la fuente apropiada sea usada, documentada y movida al depósito.
Tal como se muestra en la figura, los puntos de integración afectan casi todos los aspectos de diseño - las características físicas de los datos, la disyuntiva de tener más de una de fuente de datos, el problema de estándares de denominación inconsistentes, formatos de fecha inconsistentes y otros.
Cualquiera que sea la forma del diseño, el resultado es el mismo - la información necesita ser almacenada en el data warehouse en un modelo globalmente aceptable y singular, aun cuando los sistemas operacionales subyacentes almacenen los datos de manera diferente.
Cuando el analista de sistema de soporte de decisiones observe el data warehouse, su enfoque deberá estar en el uso de los datos que se encuentre en el depósito, antes que preguntarse sobre la confiabilidad o consistencia de los datos.
1.3.3 De Tiempo Variante
Toda la información del data warehouse es requerida en algún momento. Esta característica básica de los datos en un depósito, es muy diferente de la información encontrada en el ambiente operacional. En éstos, la información se requiere al momento de acceder. En otras palabras, en el ambiente operacional, cuando usted accesa a una unidad de información, usted espera que los valores requeridos se obtengan a partir del momento de acceso.
Como la información en el data warehouse es solicitada en cualquier momento (es decir, no "ahora mismo"), los datos encontrados en el depósito se llaman de "tiempo variante".
Los datos históricos son de poco uso en el procesamiento operacional. La información del depósito por el contraste, debe incluir los datos históricos para usarse en la identificación y evaluación de tendencias.
El tiempo variante se muestra de varias maneras: 1° La más simple es que la información representa los datos sobre un horizonte largo de tiempo - desde cinco a diez años. El horizonte de tiempo representado para el ambiente operacional es mucho más corto - desde valores actuales hasta sesenta a noventa días.
Las aplicaciones que tienen un buen rendimiento y están disponibles para el procesamiento de transacciones, deben llevar una cantidad mínima de datos si tienen cualquier grado de flexibilidad. Por ello, las aplicaciones operacionales tienen un corto horizonte de tiempo, debido al diseño de aplicaciones rígidas.
2° La segunda manera en la que se muestra el tiempo variante en el data warehouse está en la estructura clave. Cada estructura clave en el data warehouse contiene, implícita o explícitamente, un elemento de tiempo como día, semana, mes, etc.
El elemento de tiempo está casi siempre al pie de la clave concatenada, encontrada en el data warehouse. En ocasiones, el elemento de tiempo existirá implícitamente, como el caso en que un archivo completo se duplica al final del mes, o al cuarto.
3° La tercera manera en que aparece el tiempo variante es cuando la información del data warehouse, una vez registrada correctamente, no puede ser actualizada. La información del data warehouse es, para todos los propósitos prácticos, una serie larga de "snapshots" (vistas instantáneas).
Por supuesto, si los snapshots de los datos se han tomado incorrectamente, entonces pueden ser cambiados. Asumiendo que los snapshots se han tomado adecuadamente, ellos no son alterados una vez hechos. En algunos casos puede ser no ético, e incluso ilegal, alterar los snapshots en el data warehouse. Los datos operacionales, siendo requeridos a partir del momento de acceso, pueden actualizarse de acuerdo a la necesidad.
La tecnología permite realizar backup y recuperación, transacciones e integridad de los datos y la detección y solución al estancamiento que es más complejo. En el data warehouse no es necesario el procesamiento.
La fuente de casi toda la información del data warehouse es el ambiente operacional. A simple vista, se puede pensar que hay redundancia masiva de datos entre los dos ambientes. Desde luego, la primera impresión de muchas personas se centra en la gran redundancia de datos, entre el ambiente operacional y el ambiente de data warehouse. Dicho razonamiento es superficial y demuestra una carencia de entendimiento con respecto a qué ocurre en el data warehouse. De hecho, hay una mínima redundancia de datos entre ambos ambientes.
Se debe considerar lo siguiente:
Los datos se filtran cuando pasan desde el ambiente operacional al de depósito. Existe mucha data que nunca sale del ambiente operacional. Sólo los datos que realmente se necesitan ingresarán al ambiente de data warehouse. El horizonte de tiempo de los datos es muy diferente de un ambiente al otro. La información en el ambiente operacional es más reciente con respecto a la del data warehouse. Desde la perspectiva de los horizontes de tiempo únicos, hay poca superposición entre los ambientes operacional y de data warehouse. El data warehouse contiene un resumen de la información que no se encuentra en el ambiente operacional.
Los datos experimentan una transformación fundamental cuando pasa al data warehouse. La mayor parte de los datos se alteran significativamente al ser seleccionados y movidos al data warehouse. Dicho de otra manera, la mayoría de los datos se alteran física y radicalmente cuando se mueven al depósito. No es la misma data que reside en el ambiente operacional desde el punto de vista de integración.
En vista de estos factores, la redundancia de datos entre los dos ambientes es una ocurrencia rara, que resulta en menos de 1%.
1.4 ESTRUCTURA DEL DATA WAREHOUSE
Los data warehouses tienen una estructura distinta. Hay niveles diferentes de esquematización y detalle que delimitan el data warehouse. Los diferentes componentes del data warehouse y son:
· Detalle de datos actuales
· Detalle de datos antiguos
· Datos ligeramente resumidos
· Datos completamente resumidos
· Meta data
Detalle de datos actuales.- En gran parte, el interés más importante radica en el detalle de los datos actuales, debido a que:
Refleja las ocurrencias más recientes, las cuales son de gran interés
Es voluminoso, ya que se almacena al más bajo nivel de granularidad.
Casi siempre se almacena en disco, el cual es de fácil acceso, aunque su administración sea costosa y compleja.
Detalle de datos antiguos.- La data antigua es aquella que se almacena sobre alguna forma de almacenamiento masivo. No es frecuentemente accesada y se almacena a un nivel de detalle, consistente con los datos detallados actuales. Mientras no sea prioritario el almacenamiento en un medio de almacenaje alterno, a causa del gran volumen de datos unido al acceso no frecuente de los mismos, es poco usual utilizar el disco como medio de almacenamiento.
Datos ligeramente resumidos.- La data ligeramente resumida es aquella que proviene desde un bajo nivel de detalle encontrado al nivel de detalle actual. Este nivel del data warehouse casi siempre se almacena en disco. Los puntos en los que se basa el diseñador para construirlo son:
Que la unidad de tiempo se encuentre sobre la esquematización hecha.
Qué contenidos (atributos) tendrá la data ligeramente resumida.
Datos completamente resumidos.- El siguiente nivel de datos encontrado en el data warehouse es el de los datos completamente resumidos. Estos datos son compactos y fácilmente accesibles.
A veces se encuentra en el ambiente de data warehouse y en otros, fuera del límite de la tecnología que ampara al data warehouse. (De todos modos, los datos completamente resumidos son parte del data warehouse sin considerar donde se alojan los datos físicamente.)
Nivel de acceso a los datos
El nivel de acceso a los datos de la arquitectura data warehouse está involucrado con el nivel de acceso a la información para conversar en el nivel operacional. En la red mundial de hoy, el lenguaje de datos común que ha surgido es SQL. Originalmente, SQL fue desarrollado por IBM como un lenguaje de consulta, pero en los últimos veinte años ha llegado a ser el estándar para el intercambio de datos.
Uno de los adelantos claves de los últimos años ha sido el desarrollo de una serie de "filtros" de acceso a datos, tales como EDA/SQL para acceder a casi todo los Sistemas de Gestión de Base de Datos (Data Base Management Systems - DBMSs) y sistemas de archivos de datos, relacionales o no. Estos filtros permiten a las herramientas de acceso a la información, acceder también a la data almacenada en sistemas de gestión de base de datos que tienen veinte años de antigüedad.
El nivel de acceso a los datos no solamente conecta DBMSs diferentes y sistemas de archivos sobre el mismo hardware, sino también a los fabricantes y protocolos de red. Una de las claves de una estrategia data warehousing es proveer a los usuarios finales con "acceso a datos universales".
El acceso a los datos universales significa que, teóricamente por lo menos, los usuarios finales sin tener en cuenta la herramienta de acceso a la información o ubicación, deberían ser capaces de acceder a cualquier o todos los datos en la empresa que es necesaria para ellos, para hacer su trabajo.
El nivel de acceso a los datos entonces es responsable de la interfaces entre las herramientas de acceso a la información y las bases de datos operacionales. En algunos casos, esto es todo lo que un usuario final necesita. Sin embargo, en general, las organizaciones desarrollan un plan mucho más sofisticado para el soporte del data warehousing.
Nivel de Directorio de Datos (Metadata)
A fin de proveer el acceso a los datos universales, es absolutamente necesario mantener alguna forma de directorio de datos o repositorio de la información metadata. La metadata es la información alrededor de los datos dentro de la empresa. Las descripciones de registro en un programa COBOL son metadata. También lo son las sentencias DIMENSION en un programa FORTRAN o las sentencias a crear en SQL.
Además de tener un depósito totalmente funcional, es necesario tener una variedad de metadata disponibles, información sobre las vistas de datos de los usuarios finales e información sobre las bases de datos operacionales. Idealmente, los usuarios finales deberían de acceder a los datos desde el data warehouse (o desde las bases de datos operacionales), sin tener que conocer dónde residen los datos o la forma en que se han almacenados.
Nivel de Gestión de Procesos
El nivel de gestión de procesos tiene que ver con la programación de diversas tareas que deben realizarse para construir y mantener el data warehouse y la información del directorio de datos. Este nivel puede depender del alto nivel de control de trabajo para muchos procesos (procedimientos) que deben ocurrir para mantener el data warehouse actualizado. Nivel de Mensaje de la Aplicación
El nivel de mensaje de la aplicación tiene que ver con el transporte de información alrededor de la red de la empresa. El mensaje de aplicación se refiere también como "subproducto", pero puede involucrar sólo protocolos de red. Puede usarse por ejemplo, para aislar aplicaciones operacionales o estratégicas a partir del formato de datos exacto, recolectar transacciones o los mensajes y entregarlos a una ubicación segura en un tiempo seguro.
Nivel Data Warehouse (Físico)
En el data warehouse (núcleo) es donde ocurre la data actual, usada principalmente para usos estratégicos. En algunos casos, uno puede pensar del data warehouse simplemente como una vista lógica o virtual de datos. En muchos ejemplos, el data warehouse puede no involucrar almacenamiento de datos.
En un data warehouse físico, copias, en algunos casos, muchas copias de datos operacionales y/o externos, son almacenados realmente en una forma que es fácil de acceder y es altamente flexible. Cada vez más, los data warehouses son almacenados sobre plataformas cliente/servidor, pero por lo general se almacenan sobre mainframes.

Data mining: ¿Qué es data mining?
Descripción
Generalmente, data mining (a veces llamada minería de datos o descubrimiento del conocimiento) es el proceso de analizar datos de diversas perspectivas y de resumirlos en información útil - la información que se puede utilizar para aumentar el rédito, cortar costos, o ambos. El software que mina los datos es una de un número de herramientas analíticas para analizar datos. Permite que los usuarios analicen datos de diversas dimensiones o ángulos, que los categoricen, y que resuman las relaciones identificadas. Técnicamente, la minería de los datos es el proceso de encontrar correlaciones o patrones entre docenas de campos en bases de datos grandes.

Innovación continua
Aunque la minería de los datos es relativamente un nuevo término, la tecnología no lo es. Las compañías han utilizado las computadoras de gran alcance para tamizar a través de volúmenes de datos del explorador del supermercado y para analizar los informes del estudio de mercados por años. Sin embargo, las innovaciones continuas en energía del tratamiento por ordenador, el almacenamiento en discos, y el software estadístico están aumentando dramáticamente la exactitud del análisis mientras disminuyen el costo.
¿Qué puede hacer la minería de datos?
La minería de los datos es utilizada sobre todo hoy por las compañías con gran conocimiento del consumidor - finanzas, la comunicación, y organizaciones de comercialización. Permite a estas compañías determinar relaciones entre factores “internos” tales como precio, colocación de producto, o las habilidades del personal, y los factores “externos” tales como indicadores económicos, competición, y demografía del cliente. Y, les permite determinar el impacto en ventas, la satisfacción de cliente, y los beneficios corporativos. Finalmente, les permite “taladrar” en la información sumaria para ver detalles de datos transaccionales.
Con la minería de datos, un minorista podría utilizar expedientes del punto-de-venta de las compras del cliente para enviar las promociones apuntadas basadas en la historia de la compra de un individuo. Minando datos demográficos de tarjetas del comentario o de la garantía, el minorista podría desarrollar productos y promociones para abrogar a los segmentos específicos del cliente.
Por ejemplo, “Blockbuster entertainment” mina su base de datos de alquiler video recomendar alquileres a clientes individuales. American Express puede sugerir productos a sus titulares de tarjeta basados en el análisis de sus gastos mensuales.
WalMart está iniciando minería masiva de los datos para transformar sus relaciones con su surtidor. WalMart captura transacciones del punto-de-venta de 2.900 almacenes en 6 países y transmite continuamente estos datos a su almacén masivo de 7.5 Terabytes. WalMart permite que más de 3.500 surtidores, tengan acceso a datos sobre sus productos y realicen análisis de datos. Estos surtidores utilizan estos datos para identificar patrones de compra del cliente en el nivel de la exhibición del almacén. Utilizan esta información para manejar inventario local del almacén y para identificar nuevas oportunidades de comercialización. En 1995, computadoras de WalMart procesaron más 1 millón de preguntas complejas de los datos.
La asociación nacional del baloncesto (NBA) está explorando un uso de minería que pueda utilizar conjuntamente con grabaciones de la imagen de los juegos de baloncesto. El software “buscador avanzado” analiza los movimientos de jugadores para ayudar a los entrenadores inventar jugadas y estrategias. ¡Por ejemplo, un análisis de la hoja del jugada-por-jugada del juego entre la Nueva York Knicks y los Cavaliers de Cleveland revela el 6 de enero de 1995 que cuando Mike Price jugó la posición del protector, Juan Williams procuró cuatro tiros del salto y encestó cada uno! El explorador avanzado no sólo encuentra este patrón, pero explica que es interesante porque diferencia considerablemente del porcentaje promedio de tiro de 49.30% para los Cavaliers durante ese juego.
Usando el reloj universal de NBA, un entrenador puede ver automáticamente los clips de video que demuestran cada uno de los tiros del salto procurados por Williams con Price en el suelo, sin necesitar buscar por horas de video. Esos clips demuestran que una muy acertada jugada de toma-y-rueda en la cual Price dibuja la defensa del Knick y después encuentra a Williams para un tiro abierto de salto.
¿Cómo trabaja la minería de datos?
Mientras que la tecnología de información en gran escala ha estado desarrollando la transacción separada y sistemas analíticos, data mining proporciona el enlace entre los dos. El software que mina los datos analiza relaciones y patrones en los datos almacenados de la transacción basados en preguntas de usuario ampliables. Varios tipos de software analíticos están disponibles: estadístico, de máquina, entre otros. Generalmente, se buscan cualquiera de cuatro tipos de relaciones:
· Clases: Los datos almacenados se utilizan para localizar datos en grupos predeterminados. Por ejemplo, una cadena de restaurantes podría minar datos de compra del cliente para determinar cuando visitan los clientes y lo que ordenan típicamente. Esta información se podía utilizar para aumentar tráfico teniendo especiales diarios.
· Asociaciones: Los datos se pueden minar para identificar asociaciones.
- Patrones de secuencia: Los datos se minan para anticipar patrones del comportamiento. Por ejemplo, un minorista al aire libre podría predecir la probabilidad de que una mochila era comprada basado en la compra de un consumidor de bolsas de dormir y zapatos de excursión.
La minería de datos consiste en cinco elementos importantes:
· El extracto, transformación, y transacción de los datos de carga sobre el sistema de almacén de los datos.
· Almacenar y manejar los datos en un sistema multidimensional de la base de datos.
· Proporcionar el acceso de los datos a los analistas del negocio y a los profesionales de la tecnología de información.
· Analizar los datos por el software de uso.
· Presentar los datos en un formato útil, tal como un gráfico o una tabla.
Diversos niveles del análisis están disponibles:
· Algoritmos genéticos: Las técnicas de la optimización que utilizan procesos tales como combinación genética, la mutación, y la selección natural en un diseño se basan en los conceptos de la evolución natural.
· Árboles de la decisión: Estructuras en forma de árbol que representan sistemas de decisiones. Estas decisiones generan las reglas para la clasificación de un “dataset”. Los métodos específicos del árbol de la decisión incluyen los árboles de la clasificación y de la regresión. Estas son técnicas del árbol de la decisión usadas para la clasificación de un “dataset”. Proporcionan un sistema de las reglas que puedes aplicar a un nuevo dataset (sin clasificar) para predecir qué expedientes tendrán un resultado dado.
· El método vecino más cercano: Una técnica que clasifica cada expediente en un dataset basada en una combinación de las clases de los expedientes k más similares a ella en un dataset histórico (donde k 1). Llamada a veces la técnica vecina k-más cercana.
· Ley inducción: La extracción de leyes “si-entonces” útiles de los datos basados en la significación estadística.
· Visualización de los datos: La interpretación visual de relaciones complejas en datos multidimensionales. Las herramientas de los gráficos se utilizan para ilustrar relaciones de los datos.
¿Qué infraestructura tecnológica es requerida?
Hoy, los usos que minan los datos están disponibles en todos los sistemas de tamaño para el chasis, cliente/servidor, y las plataformas de la PC. La gama de los sistemas de los precios van desde varios miles de dólares para los usos más pequeños hasta $1 millón por Terabytes para el más grande. Aplicaciones para toda una empresa varían generalmente de tamaño a partir de 10 gigabytes hasta más de 11 Terabytes. La NCR tiene la capacidad de entregar los usos que exceden 100 Terabytes. Hay dos conductores tecnológicos críticos:
· Tamaño de la base de datos: Mientras más datos son procesados y mantenidos, más poder requiere el sistema.
· Complejidad de la pregunta: Mientras más complejas las preguntas y mientras mayor es el número de las preguntas que son procesadas, más poder requiere el sistema.
El almacenamiento de las bases de datos relacionadas y la tecnología de la gerencia son adecuados para muchos usos que minan los datos de menos de 50 gigabytes. Sin embargo, esta infraestructura necesita ser realzada perceptiblemente para apoyar usos más grandes. Algunos vendedores han agregado capacidades de indexación de direcciones extensas para mejorar funcionamiento de la pregunta. Otros utilizan nuevas arquitecturas de hardware tales como procesadores masivos paralelos (PMP) para alcanzar mejoría de orden-en-magnitud en tiempo de la pregunta. Por ejemplo, los sistemas de PMP de la NCR relacionan a centenares de procesadores de alta velocidad del Pentium para alcanzar los niveles de funcionamiento que exceden los de superordenadores más grandes.
3.4 HERRAMIENTAS DATA MINING
Data mining es una categoría de herramientas de análisis open-end. En lugar de hacer preguntas, se toma estas herramientas y se pregunta algo "interesante", una tendencia o una agrupación peculiar, por ejemplo. El proceso de data mining extrae los conocimientos guardados o información predictiva desde el data warehouse sin requerir pedidos o preguntas específicas. Las herramientas Mining usan algunas de las técnicas de computación más avanzadas como:
- Redes neurales
- Detección de desviación
- Modelo predictivo y
- Programación genética
Para generar modelos y asociaciones. Mining es un dato-conducido, no una aplicación-conducida.
El Intelligent Miner de IBM para AIX soporta sofisticadas técnicas mining, así como las funciones de preparación de los datos para extraer información desde bases de datos Oracle o Sybase y cargarlos en DB2 para mining. Con su opción Data Mine para el motor Red Brick Warehouse 5.0, Red Brick integra la funcionalidad de un data mining y la arquitectura de almacenamiento.
Otros ejemplos de herramientas data mining comerciales incluyen Darwin de Thinking Machines, herramientas de visualización de datos en MDDB de SAS Institute, SGI MineSet y Focus 6 Serie de Visualización y Análisis de Information Builders.
3.5 SISTEMAS DE GESTION DE BASES DE DATOS
Estos software proporcionan procesamiento en paralelo y/o algo fuera de los aspectos ordinarios, que puedan ser especialmente interesantes para la gente de desarrollo de data warehouse y de sistemas de soporte de decisiones.
3.6 ELECCION DE HERRAMIENTAS
Hay algunas reglas obvias a seguir cuando se eligen herramientas de análisis. Las herramientas se combinan según las necesidades de los usuarios finales, capacidad técnica empresarial y la fuente de datos existente.
1° Si se elige un proveedor de depósito que además ofrece herramientas integradas, probablemente se ahorrará un tiempo de desarrollo significativo al elegir un conjunto de herramientas compatibles. De otro modo, seleccione un conjunto de herramientas que soporte su fuente de datos original. Sin ese soporte, se debería optar por una solución OLAP relacional debido a que provee una arquitectura abierta.2° Después que se ha seleccionado un conjunto de herramientas compatible con su fuente de datos, determine cuánto análisis necesita realmente.
Si usted simplemente necesita saber "cuánto" o "cuántos", será suficiente una herramienta básica de consultas y reportes. Y si requiere un análisis más avanzado que explique la causa y los efectos de las ocurrencias y las tendencias, busque una solución OLAP. Las herramientas data mining sofisticadas requieren expertos en técnicas de análisis de datos y se necesitan para pronósticos avanzados, clasificación y creación del modelo.
3° Como con cualquier tecnología, para el mejor desempeño de su compañía, se puede optar por una solución única o un conjunto de soluciones. Su personal debe comprender los requerimientos de tecnología, desarrollar soluciones que reúnan esos requerimientos y mantener y mejorar efectivamente los sistemas.
Los softwares de negocio inteligentes son sólo herramientas. Todavía se necesita gerentes y ejecutivos que capten los conocimientos derivados y tomen decisiones intuitivamente. En otras palabras, estos softwares requieren todavía inteligencia comercial propia. En la siguiente tabla se definen los parámetros a tener en cuenta para la elección de las herramientas adecuadas.
Elija la Herramienta adecuada
Tipo de Herramienta
Pregunta básica
Modelo de Salida
Usuario típico
Consulta y Reporte
¿Qué sucedió?
Reportes de ventas mensuales;
histórico de inventario
Necesita data histórica puede tener aptitud técnica limitada
Procesamiento analítico
en línea (OLAP)
¿Qué sucedió y
¿Por qué?
Ventas mensuales vs. Cambios
de precio de los competidores
Necesita ir de una visión estática de los datos a "slicing and dicing"
técnicamente astuto
Sistema de Información
Ejecutiva (SIE)
¿Qué necesito
¿Conocer ahora?
Libros electrónicos;
Centros de comandos
Necesita información resumida o de alto nivel puede no ser técnicamente astuto
Data mining
¿Qué es interesante?
¿Qué podría pasar?
Modelos predictivos
Necesita extraer la relación y
tendencias de la data ininteligible
Técnicamente astuto.


Conclusión.
(Reflexión grupal)


Creemos en la necesidad de no comprometer esfuerzos en la utilización de herramientas propietarias, ya que en el presente y sin tomar en cuenta las noticias entrantes, se dispone de la tecnología necesaria para generar, mantener, acceder y utilizar eficientemente un Data Warehouse con herramientas, de arquitectura abierta, disponibles en el mercado (esta creencia es fuertemente compartida con los principales consultores a nivel mundial en la materia).
Por otra parte, se deben contemplar los mayores costos para implementar un sistema en el cual se debe invertir capacitación, desarrollo, Hardware, etc., cuando tal vez se cuenta con medios necesarios y suficientes en las instalaciones actuales.
Sin lugar a dudas, además de contemplar todos los aspectos de este informe, el diseño del Data Warehouse fue, es y seguirá siendo siempre fundamental.
Uno de los principales factores de riesgo con los que se topa una implantación de un Data Warehouse por ejemplo, es la calidad de la información. Es un factor fundamental, ya que si contamos con datos deficientes, las decisiones que se puedan tomar en base a esa información no serán las más acertadas.

Siempre existen pros y contras en todos los proyectos que se emprenden. En el caso de la tecnología, normalmente se analizan y estudian más por la cantidad de recursos que se requieren para realizar un proyecto de esta naturaleza. Al final de cuentas cualquier proyecto que reditúe en mejores beneficios para la empresa será bueno. Vale la pena invertir en tecnología, pero hay que recordar que los recursos no son infinitos, por lo que hay que invertir bien, a conciencia y no dejando nada a la suerte.

No se tiene un enfoque único para construir un data warehouse que se adapte a las necesidades de las empresas, debido a que las necesidades de cada una de ellas son diferentes, al igual que su contexto.

Además, como la tecnología data warehousing va evolucionando, se aprende cada vez más y más sobre el desarrollo de data warehouses, que resulta en que el único enfoque práctico para al almacenamiento de datos es la evolución de uno mismo.

La minería de datos es un nuevo término y formalismo para un proceso que ha sido emprendido por los científicos por generaciones. El aumento masivo en el volumen de datos recogidos para el análisis con el uso de computadoras lo ha convertido en una herramienta esencial. Muchos de los métodos utilizados para el análisis de los datos fueron desarrollados para procesar datos científicos y se utilizan originalmente sin cambiar.
Otro punto, el más grande de todos, el Internet, está llegando a ser cada vez más importante, y mientras que hay información útil, extraer eso del Terabyte que es agregado diariamente es una tarea enorme. Las técnicas de la minería de datos son aplicables aquí más que en cualquier otro dominio. Sin embargo, ejecutarlo toma a tiempo, esfuerzo y, sobretodo, a gente con un alto conocimiento del campo para distinguir las soluciones verdaderas de lo inmanejable.
El desarrollo de las bases de datos y los sistemas de computación han generado gran cantidad de información que sólo puede ser justificada si se utiliza como fuente de información para mejorar el proceso en el que es generada, sin embargo, esto no se realiza de forma suficientemente estructurada, por lo que se producen grandes errores en las estimaciones de coste y plazo en este tipo de proyectos.
La utilización de una metodología estructurada y organizada presenta las siguientes ventajas para la realización de proyectos de Data Mining:
· Facilita la realización de nuevos proyectos de Data Mining con características similares.
· Facilita la planificación y dirección del proyecto.
· Permite realizar un mejor seguimiento del proyecto.
El data mining y el data warehousing también se pueden utilizar en la medicina. La consecuencia de evitar su aplicación es la pérdida de tiempo en un proceso del tratamiento de un paciente. Pero, aún cuando se aplica, esta necesita ser presentada a los responsables de una manera apropiada y útil. Sin esto, el tratamiento individual de pacientes sería muy ineficiente. Este conocimiento siempre necesita ser ajustado a la condiciones y a las preferencias de la salud del paciente.

















0 Comments:

Post a Comment

<< Home