Servicio de alojamiento web, radio por internet, diseño web, asesoría en Open Source

Hosting web de calidad, soporte técnico y monitoreo 24×7, raid, panel de control
RSS icon Home icon
  • Problemas inesperados con sorbs

    Posted on November 30th, 2010 eperez 2 comments

    hola, en la madrugada de hoy, el sistema de listas negras de SORBS catalogó incorrectamente a una de nuestras redes como parte de un proveedor de internet que no conocemos (acamac.net) y por tanto nos incluyó en una lista llamada de dialup (DUHL):

    Problem host/IP: 67.204.0.0/15
    DNS Record: dsl-67-204-0-0.acanac.net.

    Estos datos no son ciertos, pues este rango no pertenece a acamac y estamos viéndonos afectados pues los mails que salen de este rango de redes nuestras (67.205.107.160 – 67.205.107.191 y silimares) están siendo catalogados como redes de dialup que no se supone que tendrían que enviar mails.

    Lamentablemente es un hecho que no hemos provocado, hemos sido incorrectamente catalogados en esta red y ya hemos presentado el reclamo a sorbs, mientras tanto tenemos que esperar a que arreglen el problema cosa que indican que puede tardar varias horas. Ya les hemos demostrado que no pertenecemos a esta red y que deben eliminarnos, ahora sólo resta esperar a que nos eliminen en un futuro cercano.

    Desde ya, mil disculpas por esta situación en la que involuntariamente nos hemos visto involucrados.

    NuestroServer:
    • Print
    • del.icio.us
    • Facebook
    • Google Bookmarks
    • Identi.ca
    • Twitter
  • Interrupción de energía no programada

    Posted on November 4th, 2010 eperez No comments

    La noche de hoy ocurrió en todo el datacentro de canadá una interrupción de la energía eléctrica no programada, después de varios minutos esto fue solucionado. Varios de nuestros servidores fueron afectados por esta interrupción y al momentos todos se encuentran funcionando normalmente.

    NuestroServer:
    • Print
    • del.icio.us
    • Facebook
    • Google Bookmarks
    • Identi.ca
    • Twitter
  • Errores en disco de servidor de virtualización

    Posted on October 11th, 2010 eperez 3 comments

    hola, hoy realizando pruebas en el servidor de virtualización detectamos que un disco (el último del raid 1-0) está fallando. Esto provoca una demora en la escritura del sistema y estamos ordenando un cambio inmediato que debe ser realizado esta noche.

    NuestroServer:
    • Print
    • del.icio.us
    • Facebook
    • Google Bookmarks
    • Identi.ca
    • Twitter
  • Problemas en autenticación en servidor compartido

    Posted on October 6th, 2010 eperez No comments

    Hoy recibimos varias quejas de que los usuarios estaban reportándose como desconocidos así como que se solicitaba usuario y clave continuamente para trabajar. Después de revisar, notamos que algunas tablas (fundamentalmente la de usuarios) estaba marcada como crasheada, por lo que procedimos a repararla. En estos momentos debe estar normalizada la situación.

    Sólo ocurrió en un pequeño servidor, no fue una situación general.

    NuestroServer:
    • Print
    • del.icio.us
    • Facebook
    • Google Bookmarks
    • Identi.ca
    • Twitter
  • Actualización a problemas con servidor de virtualización

    Posted on October 6th, 2010 eperez No comments

    El día de ayer los problemas de acceso a disco de este servidor persistían. Estos problemas provocaban situaciones evidentes a los usuarios que tenían sus servidores aquí alojados como eran:

    1. Imposibilidad de forma aleatoria de acceder a su sitio web o bases de datos
    2. Imposibilidad de forma alteatoria para recibir o enviar correos.

    Esto se debía precisamente proque el acceso a disco fallaba de forma aleatoria. No se perdían datos sino que por momentos no se podía realizar tareas con los servidores.

    En este servidor se alojan sitios web de bastante tráfico así como una cantidad pequeña, alrededor de 100 a 200 sitios web en modo de alojamiento compartido.

    A todas las personas afectadas se les comunicó del problema o cuando llamaban se le explicó que estábamos trabajando en corregir la situación con la tarjeta controladora de RAID.

    El servidor tiene una tarjeta controladora Adaptec 5405 para manejar un RAID-10 compuesto por cuatro discos de 1TB cada uno. Es una cantidad bastante grande de información.

    Qué pasos tomamos y cómo llegamos a solucionarlo?

    1. Se pensó en primera instancia que era un disco dañado en el arreglo, cuando un RAID se degrada, y en un RAID-10 es muy evidente esto, se pierde desempeño en la lectura y escritura. Se verificaron los discos y realmente no había problema alguno con los actuales discos. Esta es la causa más evidente de esta situación, pero en este caso no lo era.
    2. Verificando en los logs notamos que había un error que decía: “kernel: aacraid: Host adapter reset request. SCSI hang ?“. Buscando en internet se indicaba que esto se debía a un problema en el firmware de la controladora de RAID, algunos lo asociaban con el hecho de que ocurría con un servidor que tenía más de 4GB de RAM, en fin, se sugería mantener actualizado el BIOS. En vez de actualizar el BIOS se optó por una situación que pudiera solucionar dos problemas en uno: Se optó por cambiar la tarjeta controladora por otra de forma tal que viniera con un nuevo BIOS pero además al ser un nuevo hardware se salía de la duda de que fuera problema físico de la controladora de disco.
    3. Producto del paso anterior, al ponerse una nueva controladora, esta procedió a sincronizar los discos que componían al arreglo. Este proceso de sincronía duró una gran parte del día Lunes.
    4. Al finalizar la sincronía de los discos, el error persistió, lo que claramente indicaba que no era problema en el hardware de la controladora de disco. Así que procedimos a tomar los siguientes pasos
    5. Mientras planificábamos el siguiente paso, procedimos a sacar unas 3 máquinas virtuales hacia otro servidor de virtualización. Este procedimiento no se hizo antes pues mover una máquina virtual es un tema más complejo que decirlo. Sin embargo se realizó para tratar de ver si se disminuía el castigo a los discos. Esta solución aunque ayudó a esas 3 máquinas (pues salieron del hardware problemático) no contribuyó a mejorar el funcionamiento del servidor.
    6. Se planificó que en el peor de los escenarios, si no funcionaban las siguientes medidas, nos tocaría migrar todas las máquinas hacia otro hardware, que es un tema complejo como indicábamos anteriormente.
    7. Se procedió a mover la controladora hacia otro slot pci pues efectivamente hay veces en que en dependencia de un slot pci, pueden haber conflictos entre diferentes hardware. Aprovechando este momento, también se procedió a cambiar la RAM del servidor por si era problema de RAM. Todo este movimiento y cambio quedó demostrado horas después que no había sido de utilidad, igual el problema permanecía.
    8. Mientras planificábamos las siguientes acciones encontramos que a veces apagando el acpi, el sistema puede volverse más resistente a estos problemas. Así que procedimos a apagar el acpi del servidor.
    9. Encontramos en el sitio de adaptec y en otros sitios que había una situación en el kernel de linux que podia provocar este problema y era que el kernel de Linux había bajado el tiempo de recuperación cuando ocurría un problema en el RAID lo había bajado a 30 segundos. Pero el controlador de ADAPTEC tiene un tiempo de recuperación de 35 segundos. Como pasan 30 segs y linux no ve recuperación (pues el RAID se demora 35segs), vuelve a fallar y así se caía en un lazo bien complejo. Sugieren en el sitio que se suba el tiempo de espera de linux a 45segundos o un valor más alto. Le pusimos en 45 segundos y el error no solamente dejó de salir sino que mejoró evidentemente el acceso a disco de los sitios virtuales. Este punto lo realizamos alrededor de las 2 ó 3PM de ayer. Y realmente el servidor ya comenzó a trabajar mejor.
    10. Sin embargo notábamos que el waiting time de los discos seguía siendo alto. El waiting time es como promedio cuánto demoran los datos en ser escritos a disco. En estos servidores normalmente tienen un waiting time alrededor de 10-15milisegundos. Bueno en realidad depende mucho del momento en que se intente la escritura. Sin embargo el waiting time estaba sobre los 70-80msegs (y anteriormente era más!) que definitivamente no era un valor ni medianamente cercano al promedio. Esto indicaba que aunque se había mitigado, se mantenían problemas de acceso a discos.
    11. Procedimos entonces a planificar el siguiente paso que era cambiar la tarjeta madre, la motherboard, este es un paso un poco lento pues implica apagar el servidor, desarmar prácticamente toda la máquina para sacar la motherboard y volver a rearmar todo. Este proceso se planificó por la noche que es cuando menos afecta a los usuarios y se llevó a cabo a partir de las 9pm hora de Ecuador aproximadamente. Tomó un tiempo pues al finalizar de rearmar la nueva motherboard, el sistema no detectó las tarjetas de red o las detectó incorrectamente y tomó un tiempo el devolver la conectividad de red al servidor.

    Al momento, varias horas después de haber sido realizado el anterior cambio, notamos un waiting time por debajo del promedio normal, no notamos mensajes de demoras en accesos a disco ni mensajes de problemas con la controladora. Notamos además que la carga del sistema está absolutamente baja (comparada con los valores antes de los cambios es increíblemente baja). Seguiremos monitoreando el sistema y les avisamos si hay algún inconveniente adicional a futuro aunque todos esperamos que no lo haya.

    Es de notar que un problema en el hardware muchas veces no son evidentes ni fáciles de corregir. Estos cambios se hicieron siguiendo una lógica progresiva para detectar precisamente cuál cambio iba a ayudar a eliminar el problema. Se comenzó evidentemente por los problemas más comunes que ocurren al RAID y llegamos a los más infrecuentes (cambiar una motherboard no es un cambio típico realmente). Estos cambios se realizaron además pausadamente pues no aparecían inmediatamente después de realizado el anterior cambio, sino que el problema volvía a reaparecer de 40 a 60 minutos después de encendido el sistema y lógicamente después había que planificar el siguiente paso. Incluso ya los últimos pasos demoraron más porque sincronizar un RAID no es inmediato o rápido y al final el problema ya demoraba más en reaparecer que no al inicio.

    La parte feliz es que no se perdieron datos en ningún momento al igual que estuvimos totalmente alertas y pegados al sistema buscando y generando soluciones al problema. Esto es importante de destacar.

    Este servidor curiosamente, estuvo durante aproximadamente un año sin ningún tipo de inconveniente, incluso ya no tenemos que reinciarle para que tome un nuevo kernel, por tanto no es un servidor que acostumbramos a apagar o reiniciar y para nosotros fue una situación bastante preocupante el tener que apagar este equipo unas cuantas veces durante estos días.

    NuestroServer:
    • Print
    • del.icio.us
    • Facebook
    • Google Bookmarks
    • Identi.ca
    • Twitter
  • ¿Qué hicimos durante la rebelión policial?

    Posted on October 4th, 2010 eperez No comments

    Este artículo publiqué en mi blog personal:


    http://www.ernestoperez.com/2010/10/¿que-hicimos-durante-la-rebelion-policial/

    NuestroServer:
    • Print
    • del.icio.us
    • Facebook
    • Google Bookmarks
    • Identi.ca
    • Twitter
  • Problemas en servidor de virtualización

    Posted on October 4th, 2010 eperez No comments

    Hola, anoche se nos presentó un problema en uno de los servidores de virtualización que consistía en errores que surgían en la controladora del RAID 1+0 de este servidor.

    Realizamos el cambio de la tarjeta controladora por una más actualizada pero este cambio implica que se tengan que resincronizar los datos nuevamente, esta sincronía hace que el acceso a disco sea un poco lento hasta que ella termine. Este proceso puede durar varias horas.

    Durante este tiempo nos mantendremos monitoreando el estado del servidor pero advertimos a los usuarios que estén en este servidor que presentarán algunas demoras producto del acceso a disco.

    NuestroServer:
    • Print
    • del.icio.us
    • Facebook
    • Google Bookmarks
    • Identi.ca
    • Twitter
  • Precio de dominios TLD

    Posted on September 7th, 2010 eperez No comments

    Estimados clientes, desafortunadamente ICANN ha decidido desde Julio de este año subir los precios a los dominios TLD (el más conocido es el .com) en un valor entre el 7 y el 10%.

    Nosotros durante algunos meses hemos tratado de mantener el mismo valor anterior para los dominios pero actualmente nos cuesta más un dominio que el valor por el que le vendíamos. Es por esto que a partir de el día de hoy hemos subido los precios de registro, renovación y transferencia de los dominios TLD a 9.99usd/año.

    Es un aumento de aproximadamente 1USD comparado con el anterior valor. No es un número altamente representativo para nuestros clientes que compran al detalle pero para nosotros que manejamos un volumen de aproximadamente 3mil dominios registrados sí nos representa un valor importante.

    NuestroServer:
    • Print
    • del.icio.us
    • Facebook
    • Google Bookmarks
    • Identi.ca
    • Twitter
  • Ya tenemos IPv6 en nuestros servidores virtuales!

    Posted on September 2nd, 2010 admin No comments

    Hola,
    A partir de esta semana y sin costo adicional para nuestros usuarios, les informamos que ya tenemos IPv6 en nuestros servidores dedicados virtuales. Es decir, nuestros VPS ya vienen con IPv6 además del ya tradicional IPv4

    Para qué te sirve? Pues es super importante para ir preparando la migración de las redes ipv4 a ipv6. Siempre es bueno!

    Te invitamos a que visites nuestros planes de servidores virtuales

    NuestroServer:
    • Print
    • del.icio.us
    • Facebook
    • Google Bookmarks
    • Identi.ca
    • Twitter
  • Problemas puntuales con algunos dominios .ec

    Posted on September 1st, 2010 admin No comments

    el día de hoy desde media mañana hemos recibido algunos reportes de ciertos usuarios de que su dominio se reporta como que no existe, o su record como que no existe.
    Nosotros estamos seguros que es un problema con el NIC del Ecuador que ha dado una respuesta tipo record no encontrado o ha dado alguna otra respuesta pero sobre todo con un tiempo de vida muy alto.
    El problema es aleatorio, puntual.. y no es general, sólo algunos DNS de caché han guardado esa mala respuesta y se niegan a entregar mails o a mostrar los sitios web.. pero otros servidores sí ven bien…

    Por más que se llama a nic.ec ellos insisten que no les pasa nada.. aunque realmente ya tenemos confirmacion de varios proveedores del país sobre el problema con varios sitios .ec alojados sus dns en lugares totalmente diferentes.

    Aún cuando nic.ec reconozca lo que hizo (que me lo imagino pero es muy largo de responder) este problema solo se solucionará cuando el tiempo de vida de esa respuesta incorrecta haya expirado. Ahora.. esperemos que este tiempo de vida sea corto!

    NuestroServer:
    • Print
    • del.icio.us
    • Facebook
    • Google Bookmarks
    • Identi.ca
    • Twitter