Descobrimos o que as pessoas copiam do Stack Overflow e com que frequência

Eles dizem que há alguma verdade em cada piada. Se falarmos sobre a piada de nosso primeiro de abril, então, nela, essa participação tendeu para todos os cem por cento. Queríamos brincar com o clássico meme Stack Overflow e desviar um pouco de um de nossos princípios fundamentais. As fontes de inspiração são os recursos que estragaram o sangue dos fundadores da empresa, que abrem respostas a perguntas de programação apenas para usuários pagos. Como o mundo mudaria se, de repente, disponibilizássemos a capacidade de copiar texto do Stack Overflow apenas por dinheiro?



Bem, apenas uma piada e isso é o suficiente. Esperamos que todos riram e ninguém se assustou muito. Mas espere, ainda terminamos. Ao configurar o sistema para responder a cada entrada de Command + C, percebemos que tínhamos a chance de obter mais informações sobre o que as pessoas estão fazendo no site. Capturamos com sucesso todas as cópias no Stack Overflow por duas semanas, e aqui está o que saiu disso.



Você não está sozinho



Uma em cada quatro pessoas que abrem uma página de pergunta no Stack Overflow copia algo dela nos primeiros cinco minutos após visitar o site. No total, contamos 40.623.987 cópias de 7.305.042 postagens entre 26 de março e 9 de abril. As pessoas copiam texto de respostas cerca de dez vezes mais do que de perguntas e cerca de trinta e cinco vezes mais do que de comentários. Blocos de código são copiados dez vezes mais frequentemente do que o texto que os acompanha, e copiados de páginas de perguntas sem respostas aceitas são surpreendentemente mais ativos do que onde estão.



Conseqüentemente, se você já se sentiu envergonhado por copiar um código pronto em vez de escrevê-lo do zero - deixe sua consciência ficar calma! Por que reinventar a roda se alguém já resolveu todas as dificuldades para você? Chamamos isso de reutilização - o que antes foi aprendido, criado e comprovado por outra pessoa, agora servirá para você. E não há nada de errado com isso: desta forma, você pode aprender mais rápido, fazer o código funcionar mais rapidamente e se preocupar menos com isso. Todo o nosso site é construído em torno do conceito de reutilização do conhecimento - a comunidade Stack Overflow é forte principalmente por sua abordagem altruísta de mentoria.



É totalmente permitido subir nos ombros de gigantes e pegar emprestadas as lições que eles aprenderam antes de você para criar algo novo e valioso. Dito isso, vale a pena seguir algumas práticas comprovadas ao copiar para evitar bugs ou falhas de segurança inadvertidamente, portanto, certifique-se de fazer tudo certo antes de pegar um pedaço e colar. Bem, é claro, não devemos esquecer que alguns fragmentos de código só podem ser usados ​​com licenças. Caso contrário, apoiamos totalmente qualquer pessoa que queira se beneficiar do trabalho criado pela comunidade.



Como alguém que rasgou o código do Stack Overflow por anos sem uma pontada de consciência, não fiquei surpreso quando os eventos de cópia começaram a chover na casa dos milhões. Outra coisa me surpreendeu: quantas respostas a diferentes perguntas essa informação nos deu. Quantas pessoas realmente copiam conteúdo do Stack Overflow? Copiando apenas o código ou outra coisa? Você está copiando mais ativamente as perguntas com respostas aceitas? Para orientar nossa análise, minha equipe e eu fizemos uma lista de perguntas que nos interessaram. Tudo começou com uma simples brincadeira, e se transformou em um estudo sério que lançou luz sobre muitas coisas e deu impulso a inúmeras discussões sobre o desenvolvimento e aprimoramento da plataforma no futuro.



Dados



Usando uma ferramenta de rastreamento da web caseira, criamos eventos personalizados para registrar cada vez que um usuário copia algo do site. Graças a esses eventos, pudemos rastrear uma variedade de características: tags, tipo de conteúdo (pergunta, resposta ou comentário, bloco de código ou texto simples), reputação da pessoa que copia, classificação da postagem, região, status da postagem - aceito ou não . Em geral, salvamos quase tudo, exceto o próprio texto, que foi copiado.



Coletamos os dados durante duas semanas inteiras, de vinte e seis de março a nove de abril. Todos os cálculos abaixo estão relacionados ao comportamento do usuário neste período.



Os resultados de nível superior confirmaram o que parecia uma piada há muito tempo: no Stack Overflow, todos fazem o que copiam. Também rapidamente nos convencemos de que copiar como um tipo de comportamento obedece aos mesmos padrões que já foram identificados para o tráfego do site. As pessoas copiam mais ativamente durante a semana, durante o horário de trabalho. As regiões onde nosso site tem a maior popularidade geram mais cópias: Ásia - 33%, Europa - 30% e América do Norte - 26%. E, finalmente, 86% dos usuários de cópia são usuários anônimos (ou seja, eles têm reputação zero). Quando começamos a nos aprofundar em mais detalhes sobre quem está copiando e o que exatamente, ficou mais interessante.



A alta reputação se compara a cópias fortes?



Para começar, queríamos verificar: os usuários com grande reputação serão os mais ativos na cópia?







Pode-se ver no gráfico que a maior parte das cópias é feita por usuários sem reputação - ou seja, anônimos, porque qualquer pessoa que criar uma conta imediatamente ganha mais um. Talvez alguns desses eventos ocorram entre usuários que não efetuaram login em suas contas existentes. Isso, infelizmente, não pode ser verificado de forma alguma.



Como a maioria de nossos usuários tem uma reputação baixa, vamos tentar remover a divisão por grupos para normalizar os dados. Agora vamos voltar nossa atenção não para o número total de cópias, mas para o número de cópias por usuário, para ver como a média difere dependendo da reputação.







Se você examinar esta visualização, o seguinte padrão pode ser rastreado: conforme a reputação cresce, o número de cópias por usuário começa a diminuir. A correlação está presente, mas não muito pronunciada, portanto, não posso dizer com certeza absoluta se os usuários com boa ou má reputação estão copiando de forma mais ativa de forma inequívoca. Os desenvolvedores que ainda estão desenvolvendo habilidades geralmente têm baixa reputação e tendem a procurar recursos que possam acelerar o processo de aprendizagem. À medida que acumulam conhecimento, eles constroem sua reputação e começam a trabalhar em tarefas que exigem soluções bem calibradas - nem sempre encontradas no Stack Overflow.



As respostas aceitas são copiadas com mais frequência?



A linha de pensamento aqui é construída assim: uma vez que a resposta foi aceita, significa que provavelmente é a melhor e, se for assim, deve ser copiada com energia redobrada. Porém, se olharmos as estatísticas, veremos que em 52,4% dos casos, as respostas não aceitas são copiadas. No entanto, se falamos de valores médios, então para uma única postagem com uma resposta aceita, há sete cópias, e com uma inaceitável - apenas cinco. Acontece que as postagens não aceitas dão mais cópias, mas as aceitas desenvolvem mais ativamente o mesmo processo de reaproveitamento do conhecimento.







É de notar que também existem algumas questões que, em princípio, não têm respostas aceites. Veja, por exemplo, esta resposta: 4.984 usuários únicos votaram nele e 7.943 cópias durante nossa pesquisa. Mas o questionador não o aceitou. E ele também não aceitou nenhum outro - talvez isso esteja de alguma forma relacionado ao fato de ele não ter aparecido no site desde 2010. Mas muitas outras respostas úteis estão na mesma posição.



As postagens de alta classificação são copiadas de forma mais ativa?



Então, as respostas aceitas não têm vantagem na cópia, mas uma classificação alta definitivamente deve ter um efeito, certo? Vamos checar.







Como podemos ver, na categoria de respostas em grupos de um a mil votos, tudo corre bem. Mas, no caso de perguntas, a maior parte da cópia ocorre em postagens com classificação de um a cinco. Suspeito que seja porque as pessoas os copiam para repostagem até que finalmente obtenham uma resposta.



Como na situação com os usuários, a maior parte das postagens no site tem uma avaliação bastante baixa. Para normalização, vamos ver quantas cópias são feitas por postagem.







Aqui você pode ver claramente que o número de cópias aumenta com a avaliação. E isso é lógico: a comunidade está mais disposta a pegar o que já alcançou um bom desempenho.



Alguém copia postagens com uma classificação ruim?



Mas e aqueles pontos azuis, que representam postagens com classificação negativa? Por que copiar algo que ninguém aprova? Bem, não vamos tirar conclusões precipitadas.



Dê uma olhada nesta resposta . De todas as respostas com avaliação negativa, ele coletou o número máximo de cópias - 288 com avaliação de -2. Se você ler o texto, perceberá que ele expressa de forma mais concisa o mesmo que diz a resposta mais popular, com uma avaliação de 29 e 493 exemplares no total. Mesmo que a resposta com avaliação negativa não tenha saído à frente em termos de número de cópias, o princípio do "niasilil" aqui claramente jogou a seu favor.



De quais tags são copiados com mais frequência?



Era essa pergunta que eu mais queria obter uma resposta. Infelizmente, devido à escala do estudo e à quantidade de recursos disponíveis, não foi possível analisar as tags aninhadas. Por exemplo, a tag html não inclui postagens que possuem uma combinação de tags | html | css |.



Na maioria das vezes, o conteúdo era copiado das tags mais populares e ativas do site, o que não era surpreendente. Apenas uma coisa chamou minha atenção: python aparece em quatro grupos de tags entre os dez primeiros de uma vez. Três deles estão diretamente relacionados à análise de dados: | python | pandas |, | python | pandas | dataframe | e | python | matplotlib |. Eu mesmo não sou indiferente a este tópico, então estou muito feliz que tantas pessoas estejam dominando essas ferramentas.







As 10 principais tags, agora com cópias por postagem



Além das marcas com a maior contagem total de cópias, eu queria calcular as marcas com a maior proporção de cópia para postagem. Eu defini um limite mínimo de dez postagens e, como você pode ver, descobri que quanto mais detalhes nas tags, mais cópias elas coletam por postagem.







Quais postagens foram mais copiadas?



Bem, agora vamos passar para o que, eu acho, desperta a curiosidade de muitos. Qual postagem obteve mais cópias?



Resposta do bloco de código



Tenho o prazer de anunciar que o vencedor foi a resposta para Como iterar sobre as linhas em um DataFrame no Pandas , que tem 3.497 votos e 11.829 cópias. Foi publicado em 2013 e ainda continua a socorrer milhares de pessoas todas as semanas.



Resposta em Texto Simples



Quando se trata de conteúdo sem código, aí vem um post no TypeError: this.getOptions não é uma função [fechada] com 218 votos e 1.570 cópias. Não há como verificar, mas suponho que eles estejam copiando o snippet `sass-loader @ 10.1.1`.







Questão do bloco de código Nossa questão principal é como criar um botão HTML que atua como um link? - 2.147 votos e 3.665 exemplares.



Pergunta em texto simples



Finalmente, a pergunta sem código mais popular foi que as atualizações foram rejeitadas porque a dica de seu ramo atual está por trás de sua contraparte remota - 322 votos e 261 cópias. Existem dificuldades com isso, porque o texto contém muitos comandos git que não são formatados como blocos de código - talvez eles sejam copiados ativamente. Mas como o próprio texto, que foi copiado, não o salvamos, ninguém jamais saberá.



Comentários (1)



É importante lembrar que o Stack Overflow não se resume a perguntas e respostas. Às vezes, um comentário sensato é suficiente. Aqui estão alguns dos que foram copiados de forma especialmente ativa!







O primeiro é o líder absoluto entre os comentários do site, e o segundo é um azarão: obteve apenas cinco votos, mas ocupa o sexto lugar em termos de número de cópias.



All Articles