👩‍🎓 👨‍👨‍👧 🦂 Como o New York Times testa as manchetes dos artigos 🔎 🧓🏻 ❗️

O New York Times não é motivo para risos. Como eles afirmam para seus anunciantes, o The New York Times é a fonte de notícias número um para jovens líderes do pensamento ricos.

No entanto, esta publicação raramente atrai atenção, ao contrário, digamos, da Fox News. E há boas razões para isso! A Fox News é um teatro de absurdos com palhaços, e eles merecem todas as críticas que recebem.

Mas estou curioso sobre o New York Times. Eles representam o mundo ao seu redor sob uma certa luz, e sua visão (pelo menos em meus círculos), embora alguém possa concordar ou discordar dela, é percebida como algo aceito por padrão.

Eu queria dar uma olhada mais de perto nessa visão. Portanto, nas próximas semanas, publicarei uma série de artigos no The New York Times, analisando dados coletados da página inicial de seu site usando web scraping, bem como da API oficial . O primeiro artigo enfocará única e exclusivamente os testes A / B: como o New York Times testa as manchetes dos artigos e como elas mudam com o tempo.

Teste A / B e New York Times

Olha, bem, estamos em 2021, prefiro ficar chocado se descobrir que o New York Times não está testando as manchetes de forma alguma. Sim, eles próprios falam sobre isso em texto simples :

“Além disso, o Times pratica o que é chamado de teste A / B de versões digitais de manchetes de conteúdo na página inicial: por cerca de meia hora, uma manchete é exibida para metade dos leitores, e outra manchete alternativa para a outra metade. No final da prova, The Times deixa a manchete que mais atrai leitores. ”

Mas eu ainda tinha dúvidas:

Quantos artigos passam por testes A / B?
Quantos títulos estão sendo iterados para cada um?
Há algum sentido nisso?
Quão diferentes são as manchetes?

Metodologia

Escrevi um script que faz o seguinte:

Raspagem da página inicial do site do New York Times.
Extrai todos os cabeçalhos do conjunto de dados.
Vincula-os aos metadados do artigo fornecidos na API oficial do Times
Empurra tudo para a mesa

O script é executado a cada cinco minutos. Comecei minha observação em 13 de fevereiro, portanto, abaixo estão as conclusões com base nos dados que foram coletados ao longo de três semanas.

resultados

Em total concordância com sua declaração, o New York Times conduz testes A / B das manchetes dos artigos. Em algum lugar 29% dos materiais têm vários títulos. O número máximo de títulos anotados para um artigo é atualmente oito .

Em muitos casos, as alterações se resumem a pequenas correções: muitas vezes acontece no site do New York Times que um erro de pontuação ou ortografia é corrigido após a publicação. E também acontece que os redatores parecem não conseguir decidir se escrevem uma desculpa com maiúscula ou minúscula?

Em outros casos, o New York Times muda sua manchete à medida que novas informações se tornam disponíveis. Aqui está toda uma história emocionante composta por uma cadeia de títulos:

A SpaceX lançará outro protótipo de foguete para Marte em modo de teste (10%)

SpaceX suspendeu o teste de um foguete protótipo para voar para Marte (1%)

SpaceX fará outra tentativa de lançar um foguete protótipo para Marte (13%)

O protótipo do foguete da SpaceX foi a Marte, pousou e explodiu (14%)

O protótipo do foguete da SpaceX desta vez conseguiu pousar em Marte antes da explosão (24%)

O protótipo do foguete da SpaceX desta vez consegue pousar em Marte antes da explosão (10%)

O protótipo de foguete da SpaceX explodiu após pousar em Marte (27%)

Mas, na maior parte, a alteração do título é claramente o resultado de testes A / B realizados para coletar mais cliques. Por exemplo, aqui está um artigo sobre Biden e sua política de gerenciamento - seu título mudou radicalmente.

Fala calma e programa em grande escala (7%)

Biden é contra Trump e funciona (93%)

O único objetivo que essas substituições podem perseguir é aumentar o engajamento. E funciona! Este artigo foi publicado apenas algumas horas depois que o título foi alterado (e isso confirma minha hipótese de que os liberais adoram ler algo sobre Trump).

Mas nem todos os testes A / B são bem-sucedidos. Aqui está um exemplo de um teste A / B que falhou claramente - você pode ter que forçar seus olhos para ver um minúsculo ponto azul em um fundo vermelho.

Você viu quantos israelenses acabaram de visitar os Emirados Árabes Unidos? (cem%)

Josafat nervoso! Você viu quantos israelenses acabaram de visitar os Emirados Árabes Unidos? (0%)

Espero que esse fracasso não tenha desanimado o estranho editor que pensou em Josafat, o saltador. O que falta no New York Times são referências ao desenho animado Bugs Bunny .

Mas, em geral, há um padrão nas mudanças: com o tempo, as manchetes tendem a soar mais dramáticas. Veja, por exemplo, um artigo sobre Cuomo e o escândalo em torno de sua vida sexual:

Cuomo sob ataque por seu plano de investigar alegações de assédio (6%)

Acossado por ataques, Cuomo muda de plano para investigar alegações de assédio (25%)

Acossado por acusações de assédio, Cuomo se desculpa (69%)

Após a primeira substituição, verifica-se que Cuomo não está apenas sendo atacado, mas literalmente sob cerco, e após a segunda, ele muda abruptamente de uma simples revisão de planos para um pedido de desculpas. Além disso, a tática funcionou: nos gráficos dá para ver como, à medida que o título é ajustado, o artigo sobe cada vez mais na avaliação do telespectador.

No artigo sobre o discurso de Trump na conferência conservadora, tudo acaba sendo ainda mais incendiário:

Trump faz apelo aos conservadores e planeja liderar o Partido Republicano (3%)

Trump revela planos para liderar o partido republicano em conferência conservadora (7%)

Trump se autoproclama líder republicano em discurso em conferência conservadora (2%)

Trump sugere terceiro mandato na conferência conservadora e promete trazer os republicanos à unidade (4%)

Trump promete trazer os republicanos à unidade, em seguida, culpa aqueles que apoiaram o impeachment (6%)

Trump revela baixas republicanas em uma conferência conservadora, um tiro de advertência para todo o partido (79%)

Tudo começa com Trump falando aos conservadores e se declarando o líder do Partido Republicano, mas o último título se resume às listas de vítimas e tiros de advertência. E - quem duvidaria - por causa de todo esse pathos, o artigo decola e cai no número dos "mais lidos".

Bem, o último exemplo é um artigo sensacional baseado em uma entrevista que Meghan Markle deu a Oprah:

, – , (3%)

, – , (1%)

, (80%)

« »: , (16%)

Não tive nem preguiça de assistir a esta entrevista de duas horas e posso dizer que os dois primeiros títulos refletem seu conteúdo muitas vezes melhor. Sim, Meghan admite ter pensamentos suicidas, mas este é um interlúdio de cinco minutos em uma entrevista que disse muitas outras coisas. Por exemplo, nenhuma manchete menciona o impacto do racismo no estado mental de Meghan - e este tópico recebeu muito mais tempo do que pensamentos suicidas.

Existe um efeito?

Os artigos que mencionei acima receberam uma tonelada de atenção adicional graças aos testes A / B. Mas e os outros materiais?

Fiz alguns cálculos e descobri que, para artigos que passam pelo procedimento de teste, a probabilidade de serem "quentes" aumenta em 80%. Além disso, sem surpresa, o número total de manchetes testados se correlaciona com o aumento do engajamento .

Isenção de responsabilidade: há uma correlação entre o número de manchetes e o envolvimento, mas é difícil determinar qual é a causa e qual é o efeito. Em minha opinião, é lógico supor que quanto mais variações nos títulos forem testadas, maior será a probabilidade de as pessoas lerem, curtirem ou compartilharem nas redes sociais. Por outro lado, é possível que o New York Times esteja gastando mais tempo polindo artigos que já despertaram o interesse público. Embora, no quadro de observações privadas, devo dizer que muitos dos artigos que li passaram por uma série de manchetes antes mesmo de tomarem a dianteira.

Então, o que aprendi?

O New York Times realiza testes A / B de manchetes para aumentar o envolvimento do leitor

.

No geral, o teste não é amplamente aplicado.

Na verdade, estou um pouco surpreso que os testes cobrem um número tão pequeno de títulos. Para a maioria dos artigos, o teste não é aplicado de forma alguma e, onde é aplicado, como regra, apenas dois títulos são usados.

Eu vagamente presumi que os editores do New York Times exigiam que os funcionários enviassem todos os artigos com, bem, ali, seis títulos, e algum sistema automatizado executaria todos esses seis na primeira hora. Mas obviamente não é o caso, embora os dados sugiram que testes A / B mais agressivos resultariam em mais engajamento.

Uma explicação possível: 62% dos lucros do New York Times vêm de assinaturas e apenas 27% de publicidade (e esse número está caindo a cada ano). Isso significa que as visualizações não são tão importantes quanto as assinaturas - e se houver um clickbait contínuo na página inicial, isso pode assustar os assinantes em potencial.

E, no entanto, o resultado são manchetes que atingem as emoções.

O New York Times, é claro, não se rebaixa ao nível do BuzzFeed, mas, no entanto, deve-se ter em mente que sua visão das coisas também não pode ser chamada de neutra. Como mostram os exemplos acima, após o teste A / B, os títulos dão aos eventos uma cor muito mais dramática do que realmente dão. Quem lê constantemente este recurso pode ter a impressão de que o mundo é mais assustador e imprevisível do que realmente é.

Adicional

No próximo artigo, explorarei a página inicial do site do New York Times, a saber:

Por quanto tempo os artigos ficam pendurados lá
Quais dos artigos estão atrasados aí, e quais saem rapidamente
Que tipo de conteúdo aparece com mais frequência na página inicial e qual é o menos provável
Como o tempo gasto na página inicial se correlaciona com o envolvimento geral
E outras coisas interessantes.

Dados

Se minha instância gratuita do EC2 ainda estiver ativa, você mesmo poderá rastrear os dados do cabeçalho em tempo real. Lembre-se de duas coisas: os dados são apresentados a partir de 13 de fevereiro de 2021 e chegam com um pequeno atraso, pois o cache é atualizado a cada trinta minutos.

Como o New York Times testa as manchetes dos artigos