You are currently viewing [:pb]4 Perguntas chave para análise de dados[:es]4 Preguntas clave para el análisis de datos[:]
imagem_destaque_chave_analise_dados

[:pb]4 Perguntas chave para análise de dados[:es]4 Preguntas clave para el análisis de datos[:]

[:pb]Já falamos anteriormente que a análise de dados não serve apenas para definir se o seu produto está bom ou ruim, mas também para alcançar melhorias na qualidade. Para te ajudar ainda mais, preparamos um guia com as 4 perguntas chave para análise de dados no CEP que você não pode ficar sem saber!

  • Descrição
  • Probabilidade
  • Inferência
  • Homogeneidade

Vamos lá?

 

1ª Pergunta chave para análise de dados – Descrição:

No seu conjunto de dados, existem valores aritméticos que podem resumir a sua informação para gerar conhecimento?

Uma das chaves para a análise de dados é trabalhar com informações relevantes. Quando utilizamos médias, percentuais, amplitudes e outras análises descritivas, precisamos que os resultados obtidos sejam compreensíveis e significativos. A análise de dados pode ser traduzida na seguinte operação matemática:

Dados + Aritmética = Estatística

A estatística é o resultado da transformação aritmética das informações que o próprio dado armazena. Ou seja, se os dados são apenas conjuntos de valores sem significado, a estatística resultante destes dados também não será significativa. Também precisamos lembrar que nenhuma operação aritmética poderá criar um significado útil para estes dados.

Portanto, as estatísticas devem ser analisadas considerando o contexto em que os dados estão inseridos.

Exemplo:

Vamos considerar o seguinte conjunto de dados:

  • 5 Bolas pretas
  • 45 Bolas brancas

amostra_50_bolas

Qual análise devemos realizar com estes dados:

  • Cálculo da média?
  • Cálculo de percentual?
  • Cálculo de mediana?

Este levantamento nos faz pensar que antes de sair calculando médias e percentuais de dados, estes valores precisam fazer sentido. Antes de contextualizar o significado das bolas pretas e brancas para a nossa realidade, não é possível definir o que buscamos com este conjunto de dados. Após entender o que buscamos com os dados podemos avançar para definir quais estatísticas precisam ser calculadas para resultar em conhecimento para o analista.

Como já vimos no Terceiro Fundamento dos Gráficos de Controle, é preciso entender o que está sendo medido, como os seus dados são coletados e como agrupá-los para obter informação confiável para a tomada de decisão.

 

2ª Pergunta chave para análise de dados – Probabilidade:

A partir de um conjunto de dados conhecido, o que podemos dizer sobre amostras tiradas deste conjunto?

Agora a chave para a análise de dados é trabalhar com a dedução, ou seja, possuímos um contexto geral no qual conhecemos a sua informação e precisamos extrair resultados específicos que são desconhecidos. Quando utilizamos a lógica dedutiva vamos em busca de respostas particulares que são extraídas a partir de afirmações de um mundo conhecido.

Exemplo:

Vamos considerar uma caixa preenchida com 5000 bolas, dado o número conhecido de bolas pretas e brancas:

  • 1000 Bolas pretas – 20%
  • 4000 Bolas brancas – 80%

caixa_5000_bolas

A partir deste mundo conhecido, obtemos as seguintes respostas:

  • Chance de 1 bola preta em 1 retirada: 20%
  • Chance de 2 bolas pretas em 2 retiradas: 4%
  • A probabilidade de retirar exatamente 5 bolas pretas em uma amostragem aleatória de 50 bolas é de 3%

amostra_50_bolas

Conhecendo o nosso contexto geral – quantidade de bolas pretas e brancas dentro da caixa – conseguimos listar a probabilidade de diferentes eventos. Esta probabilidade traduz uma informação específica que foi baseada em dados gerais já conhecidos.

 

3ª Pergunta chave para análise de dados – Inferência:

A partir de um conjunto de dados desconhecido, e trabalhando com uma amostra conhecida retirada deste conjunto desconhecido, o que podemos dizer sobre o conjunto de dados desconhecido?

A chave para análise de dados utilizando a inferência é a obtenção de informações sobre um contexto geral a partir de uma amostragem conhecida. Agora vamos considerar o inverso da análise da Probabilidade. Através de informações particulares trabalhamos para obter respostas de um mundo desconhecido. Esta inferência indutiva apresenta incertezas, pois estamos utilizando um dado específico para traduzir o geral.

Exemplo:

Vamos considerar uma amostragem conhecida:

  • 5 bolas pretas – 10%
  • 45 bolas brancas – 90%

amostra_50_bolas

O que podemos inferir sobre a população dos dados?

  • A estimativa de bolas pretas é de 5,4% a 20,5% na população, em um intervalo de 90%.

caixa_5000_bolas

Utilizando a nossa amostragem conhecida conseguimos fazer uma inferência na população de bolas dentro da caixa. A média de 90% da população de bolas pretas estará dentro do intervalo de 5,4% a 20,5%. Portanto, com a lógica indutiva não existe apenas uma resposta correta, porém existem várias respostas aceitáveis.

O Gráfico de Controle é outro exemplo de inferência estatística. A partir de uma amostragem conhecida retirada da sua população desconhecida, é possível tirar conclusões do seu processo como um todo. Com esta ferramenta conseguimos filtrar momentos onde causas externas podem estar interferindo sobre o processo.

 

4ª Pergunta chave para análise de dados – Homogeneidade:

A partir de um conjunto de observações, é aceitável assumir que elas vieram de um conjunto de dados, ou elas mostram evidências que são de conjuntos de dados diferentes?

Quando analisamos dados obtemos respostas com base em uma fonte única de dados. Quando os dados são coletados de diferentes fontes os resultados obtidos não são confiáveis para descrever o que aconteceu com todas as diferentes fontes de origem. Dados homogêneos são a base para a análise de dados. 

Exemplo:

Vamos analisar uma amostra com 50 bolas onde 10% delas são pretas.

amostra_50_bolas

Se as 50 bolas são provenientes de três caixas diferentes, na qual cada uma possui uma proporção de bolas pretas e brancas diferentes, qual caixa é caracterizada pela análise amostrada?

caixas universos diferentes

A probabilidade considera o que acontece em uma amostragem a partir de uma fonte conhecida. Se os dados são provenientes de conjuntos de dados diferentes, existem múltiplas fontes de dados com múltiplos modelos de probabilidade.

A inferência estatística assume que você possui uma amostragem conhecida proveniente de uma fonte. Se os dados são coletados de fontes diferentes:

  • Qual fonte de dados você está caracterizando?
  • O que o seu intervalo de confiança representa?

Portanto, antes de avaliar as três questões anteriores é preciso garantir a homogeneidade dos dados. A estatística descritiva, a teoria da probabilidade e a inferência estatística assumem que seus dados são homogêneos para a análise dos dados.

A falta de homogeneidade nos dados é um sinal de que eventos desconhecidos estão acontecendo, e até que suas causas não sejam conhecidas e removidas, não será possível obter respostas confiáveis. Uma maneira eficaz para analisar a homogeneidade dos dados é a utilização de Gráficos de Controle, que irão te alertar quando eventos não esperados estão agindo sobre o seu processo e quando uma tomada de ação é requerida.

 

Como analisar os dados?

Estas 4 perguntas chave para análise de dados vão te guiar no caminho a seguir para adquirir conhecimento a partir dos seus dados. Foco na homogeneidade dos dados, é a primeira pergunta que deve ser respondida quando você vai analisar seus dados. Sem dados homogêneos, não é possível confiar nas estatísticas descritivas, probabilidades e inferências obtidas da análise dos dados.

chave para análise de dados

Após o analista de dados definir que os seus dados são homogêneos, ele poderá passar para as próximas etapas:

  • Inferência estatística – caracterizar o universo
  • Modelos de probabilidade – fazer previsões
  • Coletar novos dados

Porém, se o conjunto de dados não é homogêneo é preciso descobrir o motivo. Acompanhe os seus dados através de um Gráfico de Controle, quando surpresas surgirem nos seus dados, aprenda com elas. Se não houver surpresas, prossiga com a análise de dados. Para você que é analista de dados, não deixe de questionar estas perguntas chave para análise de dados que irão direcionar uma análise significativa e confiável.

 

Fonte: Texto baseado no artigo The Four Questions of Data Analysis do estatístico Donald J. Wheeler.[:es]Ya hemos hablado anteriormente que el análisis de datos no sólo sirve para definir si su producto es bueno o malo, pero también para lograr mejoras en la calidad. Para ayudarle aún más, ¡preparamos una guía con las 4 preguntas clave para el análisis de datos en el SPC que usted no puede quedarse sin saber!

  • Descripción
  • Probabilidad
  • Inferencia
  • Homogeneidad

¿Vamos allá?

 

1ª Pregunta clave para análisis de datos – Descripción:

¿En su conjunto de datos, existen valores aritméticos que pueden resumir su información para generar conocimiento?

Una de las claves para el análisis de datos es trabajar con información relevante. Cuando utilizamos promedios, porcentajes, amplitudes y otros análisis descriptivos, necesitamos que los resultados obtenidos sean comprensibles y significativos. El análisis de datos se puede traducir en la siguiente operación matemática:

Datos + Aritmética = Estadística

La estadística es el resultado de la transformación aritmética de las informaciones que el propio dato almacena. Es decir, si los datos son sólo conjuntos de valores sin significado, la estadística resultante de estos datos tampoco será significativa. También debemos recordar que ninguna operación aritmética puede crear un significado útil para estos datos.

Por lo tanto, las estadísticas deben ser analizadas considerando el contexto en el que se insertan los datos.

Ejemplo:

Vamos a considerar el siguiente conjunto de datos:

  •  5 Bolitas negras
  • 45 Bolitas blancas

 amostra_50_bolas

¿Qué análisis debemos realizar con estos datos?

  • ¿Cálculo del promedio?
  • ¿Cálculo de porcentaje?
  • ¿Cálculo de mediana?

Este levantamiento nos hace pensar que antes de calcular promedios y porcentajes de datos, estos valores necesitan tener sentido. Antes de contextualizar el significado de las bolitas negras y blancas para nuestra realidad, no es posible definir lo que buscamos con este conjunto de datos. Después de entender lo que buscamos con los datos podemos avanzar para definir qué estadísticas necesitan ser calculadas para resultar en conocimiento para el analista.

Como ya vimos en el Tercer Fundamento de las Gráficas de Control, es necesario entender lo que está siendo medido, cómo se recopilan sus datos y cómo agruparlos para obtener información confiable para la toma de decisión.

 

2ª Pregunta clave para análisis de datos – Probabilidad:

A partir de un conjunto de datos conocido, ¿qué podemos decir sobre muestras tomadas de este conjunto?

Ahora la clave para el análisis de datos es trabajar con la deducción, o sea, poseemos un contexto general en el que conocemos su información y necesitamos extraer resultados específicos que son desconocidos. Cuando utilizamos la lógica deductiva vamos en busca de respuestas particulares que se extraen a partir de afirmaciones de un mundo conocido.

Ejemplo:

Vamos a considerar una caja llenada con 5000 bolitas, dado el número conocido de bolitas negras y blancas:

  • 1000 Bolitas negras – 20%
  • 4000 Bolitas blancas – 80%

caixa_5000_bolas

A partir de este mundo conocido, obtenemos las siguientes respuestas:

  • Oportunidad de 1 bolita negra en 1 retirada: 20%
  • Oportunidad de 2 bolitas negras en 2 retiradas: 4%
  • La probabilidad de retirar exactamente 5 bolitas negras en un muestreo aleatorio de 50 bolitas es del 3%

amostra_50_bolas

Conociendo nuestro contexto general – cantidad de bolitas negras y blancas dentro de la caja – conseguimos listar la probabilidad de diferentes eventos. Esta probabilidad traduce una información específica que se basó en datos generales ya conocidos.

 

3ª Pregunta clave para el análisis de datos – Inferencia:

A partir de un conjunto de datos desconocido, y trabajando con una muestra conocida retirada de este conjunto desconocido, ¿qué podemos decir sobre el conjunto de datos desconocido?

La clave para el análisis de datos utilizando la inferencia es la obtención de información sobre un contexto general a partir de un muestreo conocido. Ahora vamos a considerar el inverso del análisis de la Probabilidad. A través de informaciones particulares trabajamos para obtener respuestas de un mundo desconocido. Esta inferencia inductiva presenta incertidumbres, pues estamos utilizando un dato específico para traducir el general.

Ejemplo:

Vamos a considerar un muestreo conocido:

  • 5 bolitas negras – 10%
  • 45 bolitas blancas – 90%

amostra_50_bolas

¿Qué podemos inferir sobre la población de los datos?

  • La estimación de bolitas negras es del 5,4% al 20,5% en la población, en un intervalo del 90%.

caixa_5000_bolas

Utilizando nuestro muestreo conocido conseguimos hacer una inferencia en la población de bolitas dentro de la caja. El promedio del 90% de la población de bolitas negras estará dentro del intervalo del 5,4% al 20,5%. Por lo tanto, con la lógica inductiva no existe sólo una respuesta correcta, pero hay varias respuestas aceptables.

La Gráfica de Control es otro ejemplo de inferencia estadística. A partir de un muestreo conocido de su población desconocida, es posible sacar conclusiones de su proceso como un todo. Con esta herramienta conseguimos filtrar momentos donde causas externas pueden estar interfiriendo sobre el proceso.

 

4ª Pregunta clave para el análisis de datos – Homogeneidad:

¿A partir de un conjunto de observaciones, es aceptable asumir que vinieron de un conjunto de datos, o que muestran evidencias que son de conjuntos de datos diferentes?

Cuando analizamos datos obtenemos respuestas basadas en una única fuente de datos. Cuando los datos se recopilan de diferentes fuentes, los resultados obtenidos no son de confianza para describir lo que ocurrió con todas las fuentes de origen. Los datos homogéneos son la base para el análisis de datos.

Ejemplo:

Vamos a analizar una muestra con 50 bolitas donde el 10% de ellas son negras.

amostra_50_bolas

Si las 50 bolitas proceden de tres cajas diferentes, en la que cada una posee una proporción de bolitas negras y blancas diferentes, ¿qué cuadro se caracteriza por el análisis muestreado?

caixas universos diferentes

 

La probabilidad considera lo que ocurre en un muestreo a partir de una fuente conocida. Si los datos proceden de conjuntos de datos diferentes, existen múltiples fuentes de datos con múltiples modelos de probabilidad.

La inferencia estadística asume que usted posee un muestreo conocido proveniente de una fuente. Si los datos se recopilan de fuentes diferentes:

  • ¿Qué fuente de datos estás caracterizando?
  • ¿Cuál es su intervalo de confianza?

Por lo tanto, antes de evaluar las tres cuestiones anteriores es necesario garantizar la homogeneidad de los datos. La estadística descriptiva, la teoría de la probabilidad y la inferencia estadística asumen que sus datos son homogéneos para el análisis de los datos.

La falta de homogeneidad en los datos es una señal de que los eventos desconocidos se están produciendo, y hasta que sus causas no sean  conocidas y quitadas, no será posible obtener respuestas confiables. Una manera eficaz para analizar la homogeneidad de los datos es la utilización de Gráficas de Control, que te alertará cuando los eventos no esperados están actuando sobre su proceso y cuando una toma de acción es requerida.

 

¿Cómo analizar los datos?

Estas 4 preguntas clave para el análisis de datos te guiarán en el camino a seguir para adquirir conocimiento a partir de sus datos. Enfoque en la homogeneidad de los datos, es la primera pregunta que se debe responder cuando usted va a analizar sus datos. Sin datos homogéneos, no es posible confiar en las estadísticas descriptivas, las probabilidades e inferencias obtenidas del análisis de los datos.

clave para análisis de datos

Después de que el analista de datos establece que sus datos son homogéneos, él puede pasar a los siguientes pasos:

  • Inferencia estadística – caracterizar el universo
  • Modelos de probabilidad – hacer predicciones
  • Recopilar nuevos datos

Sin embargo, si el conjunto de datos no es homogéneo es necesario descubrir el motivo. Acompañe sus datos a través de una Gráfica de Control, cuando surgen sorpresas en sus datos, aprenda con ellas. Si no hay sorpresas, continúe con el análisis de datos. Para usted que es analista de datos, no deje de cuestionar estas preguntas clave para el análisis de datos que van a dirigir un análisis significativo y confiable.

 

Fuente: Texto basado en el artículo The Four Questions of Data Analysis del estadístico Donald J. Wheeler.[:]

Paulo Narciso Filho

[:pb]Engenheiro Mecânico pela UFSC, pós graduado em Informática Industrial, fundou a HarboR em 1996. Ao longo desses anos trabalhou com programação, desenvolvimento e implantação de sistemas (MES e CEP), gerenciamento de projetos e equipes. Hoje dedica-se principalmente ao design das soluções e produtos da HarboR, especialmente os voltados para a Indústria 4.0 Confira o perfil completo no LinkedIn [:es]Ingeniero Mecánico, post graduado en Informática Industrial, fundó la HarboR en 1996. A lo largo de estos años trabajó con programación, desarrollo e implantación de sistemas (MES y CEP), gestión de proyectos y equipos. Hoy se dedica principalmente al diseño de las soluciones y productos de HarboR, especialmente los destinados a la Industria 4.0 Ver el perfil completo no LinkedIn [:]

Este post tem um comentário

  1. Eliane

    Amei o conteúdo!

Deixe um comentário