6 razões pelas quais você deve evitar gráficos de barras


Os erros sistemáticos não são estranhos aos histogramas. O fato é que eles são bastante arbitrários e podem levar a conclusões incorretas sobre os dados. Se você deseja visualizar a variável, é melhor escolher um gráfico diferente.





Esteja você em uma reunião com a alta administração ou com cientistas de dados, uma coisa de que você pode ter certeza é que um gráfico de barras aparecerá em algum momento.





. : . , , ? .





— ​​ !





6 , , , :





  1. .





  2. .





  3. .





  4. .





  5. .





  6. , .





«, : . ?» !





, CDP, .





, ?

1. .

, , (bins). ( ). ? , .





( ), 303 ( UCI : ).





Como o histograma muda quando o número de compartimentos muda.  [Desenho do autor]
. [ ]

( Python R), (). , . .





2. .

, , . , , . , .





, , .





Como o histograma muda quando o valor máximo muda.  [Desenho do autor]
. [ ]

, . , : !





3. .

, , . , , «» .





, 0. , 10 , 26% — .





Mesmos dados, largura de caixa diferente.  É impossível encontrar uma alta concentração de zeros no gráfico à esquerda.  [Desenho do autor]
, . . [ ]

— , Python. , , , «» .





. , , , 0 - .





4. .

, . .





«» (Age). = 49 ( ) = 49,828884325804246 ( , 365,25). — , — .





À esquerda está uma variável contínua.  À direita está uma variável discreta.  No entanto, eles têm a mesma aparência nos gráficos superiores.  [Desenho do autor]
. . . [ ]

, , , , , . ( Python) : .





5. .

. , UCI , , :





  • ( )





  • 50





  • 50





  • 60





  • 60 .





:





Comparação de histogramas.  [Desenho do autor]
. [ ]

, , , , .





6. , .

Excel, R Python, : Excel , R — hist(x), Python — plt.hist().





, . , , ? , , , , . :





| INTERVAL_LEFT | INTERVAL_RIGHT | COUNT         |





|---------------|----------------|---------------|





| 75.0          | 87.0           | 31            |





| 87.0          | 99.0           | 52            |





| 99.0          | 111.0          | 76            |





| ...           | ...            | ...           |





SQL- , . , Google Big Query :





WITH
STATS AS (
  SELECT 
    COUNT(*) AS N,
    APPROX_QUANTILES(VARIABLE_NAME, 4) AS QUARTILES
  FROM
    TABLE_NAME
),
BIN_WIDTH AS (
  SELECT
    -- freedman-diaconis formula for calculating the bin width
    (QUARTILES[OFFSET(4)] — QUARTILES[OFFSET(0)]) / ROUND((QUARTILES[OFFSET(4)] — QUARTILES[OFFSET(0)]) / (2 * (QUARTILES[OFFSET(3)] — QUARTILES[OFFSET(1)]) / POW(N, 1/3)) + .5) AS FD
  FROM 
    STATS
),
HIST AS (
  SELECT 
    FLOOR((TABLE_NAME.VARIABLE_NAME — STATS.QUARTILES[OFFSET(0)]) / BIN_WIDTH.FD) AS INTERVAL_ID,
    COUNT(*) AS COUNT
  FROM 
    TABLE_NAME,
    STATS,
    BIN_WIDTH
  GROUP BY 
    1
)
SELECT 
  STATS.QUARTILES[OFFSET(0)] + BIN_WIDTH.FD * HIST.INTERVAL_ID AS INTERVAL_LEFT,
  STATS.QUARTILES[OFFSET(0)] + BIN_WIDTH.FD * (HIST.INTERVAL_ID + 1) AS INTERVAL_RIGHT,
  HIST.COUNT
FROM 
  HIST, 
  STATS, 
  BIN_WIDTH
      
      



, ?





: .

6 , , : « ?» : , « » (Cumulative Distribution Plot - CDP). , , , .





— . , CDP :





  • x: ( );





  • y: .





— .





Gráfico da distribuição cumulativa da freqüência cardíaca máxima.  [Desenho do autor]
. [ ]

x = 140 y = 90 (30%). : 140 . , 140 ( 90 , 30% ). , 30% 140 .





, , « » ? «»? . , ( , ). , CDP , , .





CDP . , , « 140 160?» « 180?». CDP, . .





CDP , . , :





1. . , CDP.





2. . CDP, .





3. . - , , , .





4. . (.. ), , .





5. . , , . , y 0 100%, . , , :





Comparação de distribuições em CDP.  [Desenho do autor]
CDP. [ ]

6. , . , , , SQL:





SELECT 
  COUNT(*) AS N,
  APPROX_QUANTILES(VARIABLE_NAME, 100) AS PERCENTILES
FROM
  TABLE_NAME
      
      



Excel, R, Python

Excel . 101 , 0 1. , : =PERCENTILE(DATA, FRAC), DATA - , , FRAC - : 0,00, 0,01, 0,02, 0,03,…, 0,98, 0,99, 1. , x.





R :





plot(ecdf(data))
      
      



Python:





from statsmodels.distributions.empirical_distribution import ECDF
import matplotlib.pyplot as plt
ecdf = ECDF(data)
plt.plot(ecdf.x, ecdf.y)
      
      



! , .





. , Linkedin.






- "Machine Learning. Basic". , .





- "Machine Learning. Basic"





- - " "








All Articles