El contenido duplicado es el contenido que aparece en internet en más de una URL o lugar. Es un problema que ocurre cuando hay páginas de idéntico contenido en internet, es difícil para los motores de búsqueda decidir que versión es la más relevante para una búsqueda determinada.
Para aumentar la calidad del contenido en internet los motores de búsqueda hacen exhaustivas comprobaciones de las páginas indexadas para comprobar las semejanzas, además de elegir la versión que es más probable que sea la original o con un contenido de más calidad, aunque es posible en algunos casos, que la copia sea de mayor calidad que el original y se tome como original la copia.
Generalmente el contenido duplicado no es un engaño sino descuidos en las rutas de acceso que apuntan a una misma página, contenido similar entre páginas, descuidos al dejar la versión de preproducción en el servidor y no evitar su acceso usando Robots.txt, etc.
Sin embargo, en algunos casos se duplica el contenido deliberadamente para conseguir más tráfico y esto es molesto para la experiencia de navegación del usuario.
En las últimas modificaciones de google nos han dotado de herramientas para poder denunciar estos casos y limpiar así de contenido duplicado nuestras búsquedas.
Se pueden usar algunas técnicas para evitar este problema aunque la mejor sin duda es evitar directamente ese contenido duplicado revisando las URLs y el contenido.
Los principales problemas del contenido duplicado son:
- Los motores de búsqueda no saben cuál es la versión que tienen que incluir en sus índices.
- Los motores de búsqueda no saben si tienen que distribuir (la confianza, la autoridad, el texto ancla, el PR, etc.) a una sola página, o mantenerlo separado en distintas versiones.
- Los motores de búsqueda no saben cuál es la versión para clasificar a los resultados de consulta cuando existe contenido, por esto el sitio puede sufrir bajadas de rankings y perdidas de tráfico.
Ejemplos de contenido duplicado:
1. Parámetros de la URL. Parámetros de la URL, tales como el seguimiento de clics y un código de análisis puede causar problemas de contenido duplicado.
En resumen si una página de su sitio es accedida desde más de una URL, eso es contenido duplicado.
2. Páginas para Imprimir. Las páginas específicas para imprimir pueden dar lugar a contenido duplicado si no están bien configuradas.
http://www.mipagina.com/averia/caja-de-cambios/volkswagen-golf
http://www.miagina.com/print/averia/caja-de-cambios/volkswagen-golf
3. IDs de Sesión. La ID de sesión es un fabricante de contenido duplicado. Esto ocurre cada vez que un usuario visita el sitio web, se le asigna un identificador de sesión diferente que se almacena en la URL.
http://www.mipagina.com/piezas/frenos?SESSID=25452
Prácticas Recomendadas SEO
Url Canónica: Google no recomienda bloquear el acceso de los rastreadores al contenido duplicado de tu sitio web, utilizando robots.txt u otros métodos. Si los motores de búsqueda no pueden rastrear las páginas con contenido duplicado, no podrán detectar automáticamente que las URL dirigen al mismo contenido, por lo que las tratará de forma efectiva como páginas independientes y únicas. Una solución más eficaz sería permitir que los motores de búsqueda rastreen esas URL, pero se deberían marcar como duplicadas mediante el elemento de enlace rel=”canonical”, la herramienta de organización de parámetros o los redireccionamientos 301.
<head>
<link rel=”canonical” href=”http://www.seoalia.es/blog/” />
</head>
Meta Robots
<head>
<meta name=”robots” content=”noindex, follow” />
</head>
Estas metaetiquetas pueden controlar el comportamiento del rastreo y la indexación del motor de búsqueda. La metaetiqueta robots se aplica a todos los motores de búsqueda, mientras que “googlebot” es específica de Google. Los valores predeterminados son “index, follow” (igual que “all”) y no es necesario especificarlos. Google entiende los siguientes valores (si especifica varios valores, sepárelos con una coma):
- noindex: impide que la página se indexe.
- nofollow: impide que Googlebot siga enlaces de esta página.
- nosnippet: impide que un fragmento se muestre en los resultados de búsqueda.
- noodp: impide que se utilice la descripción alternativa de ODP/DMOZ.
- noarchive: impide que Google muestre el enlace En caché de una página.
- unavailable_after:[date]: le permite especificar la hora y la fecha exactas en que desea detener el rastreo y la indexación de la página.
- noimageindex: le permite especificar que no desea que la página aparezca como la página de referencia de una imagen que se muestra en los resultados de la búsqueda de Google.
Recuerde que ahora puede especificar esta información en la cabecera de las páginas mediante la directiva de cabecera HTTP “X-Robots-Tag”. Esto resulta especialmente útil si desea perfeccionar el rastreo y la indexación de archivos que no son HTML, como gráficos u otros tipos de documentos.
Redireccionamientos 301: se debe utilizar redireccionamientos 301 (“RedirectPermanent”) en el archivo .htaccess para redireccionar a los usuarios como a los robots y a otras arañas. En Apache, es se hace mediante el archivo .htaccess, y en IIS, con la consola administrativa.
Dominios de nivel superior: Es más fácil para notificar a los buscadores en las páginas con varios idiomas, el idioma preferido de la siguiente forma:
http://www.mipagina.en
Que con las siguientes:
http://www.mipagina.com/en o http://en.mipagina.com
Prestar atención a los pequeños detalles: intentar que los enlaces internos tengan coherencia. Por ejemplo,
http://www.mipagina.com/pagina/
http://www.mipagina.com/pagina
http://www.mipagina.com/pagina/indice.htm
Utilizar las Herramientas para webmasters de Google para informar de cómo prefieres que indexen tu sitio: es posible informar a Google del dominio preferido, si quieres que tu dominio sea http://www.mipagina.com o http://mipagina.com, aun así también es recomendable crear un redireccionamiento permanente desde el dominio no preferido al preferido.
Reduce la repetición de expresiones: es muy común los textos en la parte inferior de la página o pie de página, que contienen derechos de autor y demás información, esa información esta repetida por cada página del sitio y aumenta el porcentaje a la hora de evaluar el sitio, es posible que dos páginas distintas con poco texto sean sospechosas de ser contenido duplicado, además es posible utilizar las herramientas para webmasters para informar a Google como se desea tratar los parámetros de la URL.
Evitar páginas sin contenido o incompletas: No es recomendable ni da buena impresión a los usuarios encontrar páginas vacías y si es imprescindible es recomendable utilizar NOINDEX para evitar su indexación.
Reducir el contenido parecido: si por el formato de la página existen muchas páginas similares seria bueno plantearse agruparlas en una sola.
<link href=”http://www.mipagina.com/versión-canónica/” rel=”canonical” />
Esta etiqueta le dice Bing y Google que la página en cuestión debe ser tratada como si se tratara de una copia de www.mipagina.com/versión-canónica/ URL y que todos los enlaces y las métricas de contenido a los motores se aplican a la URL proporcionada.
Cuidado con la capitalización de las palabras: Las URLs de este tipo generan contenido duplicado,
http://www.mipagina.com/a/trabajos/lista/q-consultor-seo
http://www.mipagina.com/a/trabajos/lista/q-Consultor-seo
http://www.mipagina.com/a/trabajos/lista/q-consultor-Seo
Los motores de búsqueda las verán como tres URLs distintas simplemente por tener las diferencias entre las mayúsculas, tratándolas como contenido duplicado. En estos casos es importante, primero evitar estas diferencias y en segundo lugar utilizar rel=”canonical” para que traten las tres URLs como una misma.