Recomendados de la semana XV
Después de un par de semanas sin recomendados, con una carga abismal de trabajo, y aunque aún queda mucho por hacer… llegan los enlaces recomendados de la semana, algunos de ellos tienen que ver con Cloud Computing… quienes conozcan mi área de investigación sabrán por qué :P, llega un punto en el que no se deja de trabajar ni en los momentos de ocio 😛
- Un gran impedimento para la penetración del paradigma Cloud Computing en el mundo empresarial es el manejo de datos en la nube, el nivel de confianza y dependencia hacia el proveedor. SalesForce que ha sabido ganarse la confianza de muchas empresas, lanza Database un SMBD en la nube. Provee autenticación y acceso a los datos a través de estándares abiertos. El hecho de que sea SalesForce quien lo ofrece es una de las razones que llevan a Antonio Ortiz a plantearlo como posible rival para Oracle.
- Google lanza el programa piloto de Chrome OS, para la gente que vive en la web, ofreciendo un netbook a cada participante. Lástima que para poder participar sea necesario tener un domicilio en los Estados Unidos…
- Me he sentido identificado con algunas… 32 Síntomas que indican que estás afectado por el desarrollo. (via error500).
- Más sobre las novedades presentadas en el evento de Googe, sobre Chrome OS, en Genbeta.
- Priority Inbox de Gmail es una funcionalidad interesante, aunque a veces no funciona como debería y el usuario no se entera el por qué. Ahora Google ha mejorado el algoritmo de priority Inbox y explica por qué se ha marcado el mensaje como importante.
- Una interesante reflexión sobre reputación y Google en Genbeta.
- GrooveShark es uno de mis servicios favoritos, sin embargo nunca es malo tener alternativas. Musicuo, es una buena alternativa, desarrollada en html5(aunque con un componente de flash para audio en los navegadores que lo soporten). (via Genbeta)
Esto es todo por el momento, para terminar, una charla animada que dará algo en qué pensar, SMILE OR DIE:
Recomendados de la semana XIV
Llegan los recomendados de la semana, mientras puedo sacar tiempo para terminar alguno de los post que tengo en borrador(entre otros… el de Mahout, una reflexión y algunos delirios) 😛
- A veces queremos ejecutar una aplicación sin necesidad de instalarla y manteniendo la configuración, para eso llega Spoon que nos ofrece la Virtualización de aplicaciones desde la nube. Aún le falta ser multiplataforma, pero prometen que lo será. Via Genbeta. (También vale la pena darle un vistazo a Spoon Server)
- Enrique Dans comparte un genial corto, CineEspañol, algo de humor sobre el mundo del cine en España.
- Nadie puede negar que el equipo de Google Chrome sabe algunas cosas sobre la Web y los navegadores. Por eso vale la pena darle al menos una ojeada a 20 Things I learned about browsers and the web. Las ilustraciones y animaciones en html5 son un plus.
- La capacidad de cambiar de opinión no exclusiva ni inherente al ser humano. Eduardo Punset habla de la capacidad de cambiar de opinión y de simular una situación como indicadores de inteligencia en Acostumbramos a vivir por encima de nuestros medios.
- Cuando pensamos en un PetaByte, probablemente no estamos consientes de la magnitud que representa, la infografía How much is a petabyte nos da una idea. (vía microsiervos)
Eso es todo por el momento, para terminar una genial caricatura de Montt, a más de uno le recordará algo.
Recomendados de la semana XIII
Los recomendados de esta semana vienen cargados de diferentes temas: SEO, aplicaciones….
- Las prácticas de “Mal SEO” se han vuelto muy comunes, en parte por la aparente pasividad de los motores de búsqueda, ¿Qué sea una práctica generalizada es una justificación?
- La nueva funcionalidad de Google, vista previa de los resultados, debe estar dándole algunos dolores de cabeza a más de un SEO, ¿cuantas veces evitará que un usuario visite una página?
- Nuevos lanzamientos en el universo Linux en la últimas semanas, Red Hat Enterprise Linux 6, Fedora 14 y Linux Mint 10.
- Personalmente me gustaba Google Wave, sin embargo no tuvo la acogida esperada y a finales de éste año dejará de funcionar. Ahora le han añadido la posibilidad de exportar waves individuales, útil para rescatar esas sesiones de trabajo sobre este servicio.
- No tienes tiempo para escribir un libro… pero te la pasas en Facebook… Compradicción nos presenta EgoBook.
Para terminar, ahora que se acerca Navidad (y muchas personas la celebran desde octubre…) una genial caricatura de Montt:
Recomendados de la semana XII
Mientras termino la revisión de Mahout, un post rápido con los recomendados de la semana 😛
- Un cambio importante se avecina a Ubuntu, el cambio del servidor X por Wayland, espero que hayan tenido en cuenta todos los escenarios de uso de X.
- Twitter ha probado diferentes formas de desplegar publicidad, primero en las búsquedas y trending topics, luego en las recomendaciones de usuarios y ahora en el timeline de los usuarios. Con este movimiento deberán ser cuidadosos, para no afectar la experiencia de los usuarios.
- Ubuntu Software Center es una herramienta para descubrir, instalar y des-instalar aplicaciones. Los más habituados a la consola probablemente no lo usemos con mucha frecuencia, personalmente solo lo uso para descubrir aplicaciones y es por eso que me parece una buena idea agregarle calificaciones y comentarios.
- Seth Godin nos habla de la diferencia entre ser como un niño y ser infantil.
- Una nueva experiencia de consumo de información es lo que ofrece Qwiki. Hay algunos demos, como la consulta sobre Emma Watson, teniendo en cuenta que se generan automáticamente se ve muy interesante. Podemos registrarnos para tener acceso a la versión Alfa.
- ¿Una red P2P offline? Eso es Dead Drop, lo presenta Denken Über.
Eso es todo por el momento, para ilustrar la entrada una tira de XKCD que muy probablemente les recordará algo 😛
Una mirada rápida a JabRef
JabRef es una de mis herramientas favoritas para gestión de referencias, llevo un par de años usándola y aún me sorprende con funcionalidades que me facilitan la vida. El motivo de este post es documentar el uso de algunas de éstas funcionalidades, algunas de uso muy común y otras para usos específicos.
- Para empezar maneja el formato BibTex, que separa el formato del contenido y que no depende de la aplicación, es manejado por muchas herramientas en especial por las que manejan LATEX, como Lyx.
- Tiene varias formas para ingresar una nueva referencia, las que más uso son:
- BibTex->New entry (CTRL+N o el icono + en la barra de herramientas), despliega un menú donde seleccionamos el tipo de entrada (articulo, tesis, libro, etc.) y a continuación nos presenta los campos a ingresar.
- BibTex->New entry from plain text. despliega el menú de tipo de entrada y a continuación nos presenta un área donde podemos pegar texto plano y etiquetar partes de éste como cada uno de los campos de la referencia. También tenemos una pestaña para pegar directamente la referencia en Bibtex.
- Permite importar referencias desde otros formatos. File->import into current database o File-> Import into new database. Entre los formatos soportados se encuentran BibTeXML, JSTOR y MSBib(Formato de bibliografía de MS Office 2007).
- Permite exportar las referencias, no solo a formatos de bibliografía de otras aplicaciones sino también a formatos que facilitan la visualización. File->Export y se selecciona el formato de salida, mi favorito para visualización es HTML Table (with Abstract & BibTex).
- Permite encontrar duplicados. Tools->Scan Database->Find duplicates
- Permite hacer búsquedas y filtros.
- Permite el manejo de grupos. Lo descubrí hace poco, solo debemos habilitar la interfaz de grupos (CTRL->SHIFT->G)
- Permite hacer búsquedas directamente a JSTOR, IEEEXplore, ACM Portal, entre otras Bases de datos. Menú Web Search.
Éstas son las opciones que más utilizo pero JabRef tiene muchas más herramientas, además de ser extensible usando plugins.
Por último, un dato útil, para importar la bibliografía a MS Word 2007 primero exportamos la bibliografía en formato Office 2007 y luego, en Word, en la pestaña Referencias hacemos clic en Administrar Fuentes, en la ventana que nos despliega vemos “Fuentes disponibles en”, vamos a Examinar y buscamos el xml que generamos al exportar, ahora podemos usar las referencias en nuestro documento.
Actualización 2012-03-11: Hoy tuve el problema complementario, exportar la bibliografía de un documento de Word 2007 a Bibtex, la solución fue mucho más simple de lo que esperaba gracias a el add-in Refmanager.
Recomendados de la semana XI
Llegan los recomendados de la semana, con algunos eventos, lanzamientos, herramientas y artículos:
- En algunas situaciones en las que unos simples objetos nos serían de gran utilidad, para eso están los productos de Qué lata. (vía compradicción)
- En ocasiones nos enfrentamos a problemas técnicos aparentemente inexplicables, Manuel Pereira nos da algunos consejos para solucionarlos. (vía microsiervos)
- Una de las características del Kindle es el navegado web integrado. En LifeHacker nos presentan Kinstant una página de inicio amigable para el kindle, con links a las versiones móviles de varios sitios web.
- Google ha creado DemoSlam, un sitio dedicado a acercar las habilidades y novedades tecnológicas al público general. (vía Genbeta).
- Críticas acerca de la privacidad en Facebook existen muchas, pero ésta crítica va en sentido contrario a la mayoría, sugiriendo que debe pasar más, y no menos, información del usuario. (Vía @edans).
- Para los amantes del arte, la Feria Internacional de Arte de Bogotá (ArtBo) es un evento que no se pueden perder. Estará en Corferias hasta el 25 de Octubre.
- Una de las novedades más importantes de Apple es el anuncio de una tienda de aplicaciones para Mac OS X. Un concepto que se parece un poco al de los repositorios en linux, aunque desde una sola fuente y con bastantes restricciones de entrada para los desarrolladores.
Eso es todo por ésta ocasión, terminemos con un anuncio de Google, vía la Cocina creativa.
Mordiendo Hadoop: Desarrollo de aplicaciones MapReduce
En los post anteriores instalamos Hadoop en un nodo, tanto en modo standalone como pseudo-distribuido, y en un cluster de dos nodos, ahora revisaremos la creación de una aplicación MapReduce.
Para estas pruebas configuraremos un ambiente de desarrollo usando una instalación en modo pseudo-distribuida, eclipse y el plugin de Hadoop para éste IDE. También se puede usar la maquina virtual de entrenamiento proveída por Cloudera, que incluye una instalación de Hadoop, ejemplos, eclipse, entre otras herramientas. Para ejecutar ésta máquina virtual se puede usar VMWare Player. Una vez descargada la imagen de la maquina virtual se descomprime, se abre el archivo .vmx con VMPlayer.
Configuración del entorno de desarrollo
Para nuestro ambiente de desarrollo iniciamos con una máquina con Hadoop configurado en modo pseudo-distribuido, descargamos e instalamos eclipse, y procedemos con la instalación del plugin de Hadoop:
- Establecer las variables de entorno JAVA_HOME y HADOOP_HOME, con la ruta a la carpeta raiz de Java y Hadoop respectivamente.
- Copiar el plugin de hadoop a la carpeta de plugins de eclipse.
cp $HADOOP_HOME/contrib/eclipse-plugin/hadoop-0.20.2-eclipse-plugin.jar PATH_TO/eclipse/plugins/
- Iniciamos Eclipse.
- Abrimos la perspectiva Map/Reduce. Window->Open Perspective->Others->Map/Reduce
- Entramos en la vista MapReduce Locations.
- Clic derecho sobre la lista MapReduce Locations, seleccionar New Hadoop location.
- Le damos un nombre a la nueva ubicación, y configuramos el host y puerto tanto del MapReduce master(JobTracker) cómo del dfs.master (NameNode).
- Ahora en el explorador de proyectos podremos ver los archivos de nuestro sistema de archivos distribuido en DFS Locations.
Ahora tenemos listo nuestro ambiente de desarrollo, a continuación crearemos una aplicación MapReduce.
Crear una nueva aplicación
El plugin de Hadoop nos crea un nuevo tipo de proyecto en eclipse y tres tipos de archivo Mapper, Reducer y MapReduce Driver. Para crear nuestra nueva aplicación crearemos un proyecto MapReduce:
Recomendados de la semana X
Los recomendados de esta semana, llena de nuevos lanzamientos, anuncios y herramientas:
- Amazon anuncia el lanzamiento de Amazon Singles, publicaciones que no tienen la longitud estándar para encajar en las reglas de las editoriales convencionales. La idea es liberar a los contenidos de restricciones artificiales, sirviendo como escaparate para escritores sin pasar por una editorial.
- Después de un tiempo sin muchas noticias sobre Chrome OS, aunque el desarrollo ha sido muy activo, tenemos el lanzamiento de la Release Candidate.
- Parece que Microsoft ha acertado con Windows Phone 7, al menos eso indican las primeras pruebas y comentarios.
- Un ataque frontal a OpenOffice por parte de Microsoft, puede significar que lo reconoce como una amenaza.
- En maestros del web, algunas herramientas, en línea, para la creación de vídeos. Vía @stephaniefalla.
Para terminar los dejo con una excelente tira de xkcd, que me recuerda mucho las conversaciones con el servicio técnico….
Mordiendo Hadoop: Instalación en Cluster
En un post anterior realizamos la instalación de hadoop en un nodo, tanto en modo standalone como pseudo-distribuido. Ahora realizaremos la instalación en dos nodos.
Un par de cosas a tener en cuenta:
- De acuerdo a la documentación, típicamente se tiene un nodo como NameNode y otro como JobTracker. Los demás nodos serán configurados como DataNode y TaskTracker.
- Aunque no es obligatorio, es recomendable que los nodos tengan el mismo HADOOP_HOME, directorio raíz de la distribución.
Lo primero por hacer es descargar Hadoop, descomprimirlo en lo que será nuestro HADOOP_HOME, y configurar el JAVA_HOME dentro de conf/hadoop-env.sh.
wget http://apache.mirrors.tds.net//hadoop/core/stable/hadoop-0.20.2.tar.gz tar -xvf hadoop-0.20.2.tar.gz vim hadoop-0.20.2/conf/hadoop-env.sh
Para distribuir un poco la carga configuraremos el NameNode en una máquina y el JobTracker en otra. También configuraremos los dos nodos como TaskTracker y DataNode.
Para ello debemos modificar el archivo de configuración conf/core-site.xml con la url del que será el NameNode.
<configuration> <property> <name>fs.default.name</name> <value>hdfs://namenode:9000</value> </property> </configuration>
Para especificarle a Hadoop en donde almacenar los bloques de datos del DFS se puede usar la propiedad dfs.data.dir y como valor la ruta del directorio, en el archivo conf/hdfs-site.xml. En éste archivo es necesario configurar la replicación de los bloques, el valor predeterminado es 3, en éste caso solo tenemos dos nodos así que utilizaremos un valor de dfs.replication de 2.
<property> <name>dfs.name.dir</name> <value>/data/hadoopnd</value> </property>
Debemos especificar la ubicación del JobTracker, lo hacemos en el archivo de configuración mapred-site.xml. En este archivo también configuramos donde se almacenarán los archivos temporales.
<configuration> <property> <name>mapred.job.tracker</name> <value>157.253.236.228:54311</value> </property> <property> <name>mapred.local.dir</name> <value>/data/hadoopmr</value> </property> </configuration>
Debemos asegurarnos que podemos iniciar sesión ssh sin contraseña en las dos máquinas, para ello seguimos los pasos indicados para la instalación en un solo nodo y, además, agregar las llaves públicas ssh de las máquinas master en el archivo .ssh/authorized_keys máquinas slave:
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys $ ssh-copy-id -i .ssh/id_dsa.pub {ip_slave}
Los siguientes archivos solo se deben editar en los master(en este caso en los dos nodos, pero al agregar un nuevo nodo solo se modifican en los NameNode y JobTracker).
En el archivo conf/masters se listan los nodos master, tanto NodeName como JobTracker, en el archivo conf/slaves todos los nodos DataNode y TaskTracker, uno por línea.
Formateamos el sistema de archivos distribuido, ejecutando en el NameNode:
./hadoop-0.20.2/bin/hadoop namenode -format
Arrancamos los demonios de hdfs, ejecutando
bin/start-dfs.sh
Podemos los procesos ejecutados en cáda maquina usando el comando jps.
A continuación iniciamos los demonios de Mapreduce, ejecutando en el JobTracker:
bin/start-mapred.sh
Para detener los demonios del sistema de archivos y de mapreduce, respectivamente, ejecutamos:
bin/stop-dfs.sh bin/stop-mapred.sh
Ahora deberíamos poder correr el ejemplo que utilizamos en la instalación anterior:
$ bin/hadoop fs -put conf input $ bin/hadoop jar hadoop-*-examples.jar grep input/conf output 'dfs[a-z.]+'
Sin embargo se pueden presentar algunos problemas en el dfs, por un bug que aún se encuentra abierto. En http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Multi-Node_Cluster) podemos ver otro tutorial(en ingles) de la instalación del cluster, con una configuración un poco diferente, y las alternativas para resolver los problemas que se pueden presentar.
En un próximo artículo revisaremos el desarrollo de una aplicación MapReduce para Hadoop.