Meaning Tool

jueves, 24 de septiembre de 2009
Popego es un prometedor startup Argentino encabezado por Santiago Siri, que si mis cálculos no fallan es además el hermano del talentoso humorista Liniers. La idea básica del sitio web es que utilizando técnicas de aprendizaje automático puede reconocer los intereses de sus usuarios (consultando por ejemplo tu Flickr, tu blog o tu Twitter) y recomendar contenidos nuevos de la web que se relacionen con dichos intereses. La idea sin duda es interesante, y con la creciente proliferación de contenidos creados por usuarios en la red, la organización y filtrado de los mismos se vuelve muy trabajosa.

Conocí Popego cuando un compañero de la facultad, Pablo Ridríguez Zivic (que en su momento era ayudante en mi cursada de Algoritmos 2), entró a trabajar ahí. Popego fue sponsor de la PyCon y tuve la oportunidad de charlar con Francisco, uno de sus empleados en el stand que habían armado.

La novedad

Francisco estaba presentando Meaning Tool, una herramienta derivada de la investigación y desarrollo realizados para Popego y que ahora estará disponible para su uso mediante una API por otros desarrolladores y sitios web. Meaning Tool es (por el momento) una herramienta de clasificación automática de contenido, que se diferencia básicamente de todo lo que yo conocía en que es amigable y puede ser utilizada por cualquiera.

La idea de Meaning Tool es que uno construye un listado de categorías y entrena al sistema con contenidos categorizados para que éste aprenda a reconocer qué temas son tratados por un determinado contenido. Por ejemplo, esta herramienta podría servir para que los posts de mi blog se etiqueten automáticamente en las distintas categorías sin que tenga que hacerlo yo manualmente. Si bien me ahorraría un poco de trabajo, la verdadera magia del sistema está en que puede aplicarse sobre cantidades masivas de contenido (a diferencia de los miserables 2 posts por año de este blog), y las posibilidades son inmensas.

Sin ir muy lejos, el negocio de publicidad de Google comenzó porque tenían a disposición las herramientas de procesamiento semántico que le permitían (y le permiten) colocar avisos publicitarios relacionados con el contenido de las páginas web en qué aparecían. Así, no te encontrás con que mi blog te muestra un aviso sobre licuadoras, sino temas relacionados con el contenido que yo escribo, lo que aumenta muchísimo el impacto de la publicidad. Cosas como esta ahora se democratizan gracias a Meaning Tool, que las pone al alcance de muchos más desarrolladores.

5 comentarios:

dreamtheater dijo...

hola... probé meaningtool con una web simple, http://www.abuelapan.com/menu_quincena.htm , que es un menú de comidas vegetarianas. El sistema encontró que un 42% habla de comidas y un 58% de tecnología.

No es muy confiable? o esto depende del tiempo y ese factor "aprendizaje"?

GomoX dijo...

Si vos decidís usar Meaning Tool para tu sistema, tenés que entrenarlo con contenidos ya categorizados. O sea, definís primero las categorías y después alimentás al sistema con un texto sobre comida y le decís "esto es sobre comida". Esa es la idea básica de todos estos sistemas de aprendizaje automático. Mientras mejor entrenado esté, mejores son los resultados.

La demo que tienen en la página web usa una versión que calculo que estará entrenada por ellos con vaya a saber qué categorías, y debe tener un fuerte sesgo relacionado con web y tecnología, por eso los resultados que viste. Y es un producto que acaba de salir así que debe tener varias historias.

La verdad que con la página que mostrás no tengo idea como hizo para deducir que era sobre tecnología, a menos que tenga en cuenta los tags HTML :P

dreamtheater dijo...

encontró como "completo" como seg. inf. e "integral como consultor IT.

GomoX dijo...

Ja! Bueno, le deberían haber puesto un cartelito de "beta".

Ignacio Olaciregui dijo...

Hola,

Me llamo Ignacio y trabajo en meaningool.

Al parecer la pagina que uso dreamtheater para probar la categorizacion en meaningtool (http://www.abuelapan.com/menu_quincena.htm) es muy poco estandar y el proceso que extrae el contenido relevante de la pagina no tuvo el suficiente texto como para categorizar adecuadamente.

Estamos efectivamente en beta, y mejorando estas cosas, pero de todas formas si quieren hacer la prueba de copiar el texto de la pagina a mano e ingresarlo en la demo que esta en http://www.meaningtool.com van a ver mejores resultados que los obtenidos ingresando la url.

Saludos.

Publicar un comentario