sábado, 13 de junio de 2009

PROCESOS EN EL SOFTWARE LIBRE

Uno de los grandes problemas de la ingenería del software ha sido y es que no ha sabido adaptarse consecuentemente a su propia definición. Esto es algo que se puede considerar como una especie de traición a sí misma, a sus propios fundamentos. El enfoque sistemático y cuantificable ha tenido siempre como barreras las propias de las formas en las que el software se ha publicado y distribuido. El formato binario del software, la opacidad en los modelos de negocios, los secretos y barreras comerciales, entre otros aspectos, han imposibilitado que equipos independientes puedan, en demasiadas ocasiones, verificar de manera sistemática los resultados obtenidos. Las "verdades" enunciadas son con frecuencia experiencias puntuales que han sido generalizadas y dadas por válidas ante la falta de alternativas. En definitiva: la propia forma de desarrollar, distribuir y comerciarlizar software ha sido la que ha llevado a la ingeniería del software a la crisis.

Y es aquí donde el software libre puede dar nuevos aires a la ingeniería del software. Desde hace más de una década, el software libre ha venido experimentando un gran auge en cuanto a uso, aceptación y, por supuesto, desarrollo. Una idea de este crecimiento nos la puede dar el hecho de que se haya calculado que el número de líneas de código de software libre se duplica cada 18 meses. La implantación de Internet junto con las características de las licencias que

"invitan" a todo el mundo a formar parte del equipo de desarrollo, han propiciado que a día de hoy no sólo podamos contar con el código fuente (un gran avance ya de por sí frente al software propietario a la hora de ser abordado de manera sistemática), sino de los archivos de las listas de correo donde viene plasmada la comunicación del proyecto, los repositorios de versiones gracias a los cuales podemos ver la evolución, etc. De todas estas fuentes se puede extraer una gran cantidad de datos de gran valor, en la mayoría de casos incluso de forma automática.

Se puede concluir, por tanto, que la apertura tanto del código como de la información asociada al proceso de desarrollo que ofrece el software libre es clave para poder ser analizado, estudiado y discutido de manera totalmente contrastable y abierta. La ingeniería del software sólo puede salir ganando.

PROCESOS EN EL SOFTWARE LIBRE

Extracción de datos (Primera fase)

El primer paso engloba agrupar, ordenar y analizar convenientemente el código fuente y los flujos de información existentes en los proyectos de software libre. La finalidad principal es conseguir que todo esto se haga lo más automáticamente posible. En realidad, se pretende recabar todo tipo de información para poder ser analizada y estudiada detenidamente con posterioridad.

Como se ve, se trata de un proceso iterativo, ya que los resultados de los primeros análisis nos dirán por dónde seguir buscando y cuáles deben ser los siguientes pasos lógicos dentro del estudio del software libre.

A continuación, se muestran las diferentes fuentes que se pueden analizar, así como las diversas herramientas que existen para obtener resultados a partir de esas fuentes.

1. Código Fuente

El código fuente es, con diferencia, el mayor continente de información en cuanto al desarrollo de proyectos de software libre se refiere. De él se pueden extraer no sólo parámetros globales como el tamaño, el número de ficheros, sino que puede ser investigado con la finalidad de encontrar parámetros de participación (número de desarrolladores), de programación (lenguaje de programación, además de la posibildad de utilizar diferentes métricas de programación), de líneas de código (tanto lógicas como físicas), número de comentarios, etc. etc. Una de las primeras aproximaciones existentes a día de hoy es el cálculo del número de líneas físicas de proyectos de software libre y el uso del modelo COCOMO (clásico) para obtener resultados en cuanto al tiempo, al coste y a los recursos humanos necesarios para su desarrollo.

Evidentemente, este primer análisis se encuentra en una fase bastante primitiva, pero la correlación con otras fuentes permitirá mejorar (y/o adaptar) los resultados en el futuro.

1.1. CODD

CODD es una herramienta diseñada por Vipul Ved Prakash y Rishab Aiyer Ghosh que analiza el código fuente de los paquetes de software libre y asigna cuotas de autoría (en bytes) a los que han participado en el desarrollo. También ha sido diseñada e implementada para extraer y resolver dependencias entre paquetes como se verá a continuación.

CODD consta de una serie de procesos que han de ejecutarse de manera consecutiva y que guardan sus resultados en ficheros denominados codds (en minúsculas). Para cada paquete de software libre se generará un codd, que contendrá información sobre el mismo, ya sea extraida del propio paquete o de la correlación con codds de otros paquetes.

Al final del proceso, cada codd debería contener la siguiente información:

- nombre del paquete, generalmente más versión (p.ej. evolution-0.13)

- créditos de autoría (y bytes de contribución)

- archivos de código

- archivos de documentación

- interfaces

- código compartido

- implementaciones externas o no resueltas

- implementaciones resueltas

- metainformación

1.2. SLOCcount

SLOCcount, una herramienta creada por David A. Wheeler, cuenta el número de líneas físicas ofreciendo como resultado básicamente el lenguaje de programación utilizado. Además, utiliza el modelo COCOMO clásico para, a partir de una serie parámetros y algoritmos preconfigurados, obtener el coste, los plazos y los recursos humanos necesarios para haber realizado una (única) entrega del software.

El algoritmo que utiliza SLOCcount consta de una serie de fases: en un primer paso SLOCCount busca ficheros de código por su extensión dentro del árbol de archivos del proyecto. Cuando encuentra un archivo con código, utiliza una serie de métricas para determinar si de verdad lo que contiene el archivo es código y está en el lenguaje de programación que se determina de su extensión. En caso de ser así, contará las líneas de código que no sean comentarios ni espacios en blanco (líneas físicas) e incrementará el contador para dicho lenguaje en su número.

Los datos que devuelve SLOCcount son los siguientes:

Nombre del proyecto

Número de líneas del proyecto

Número de líneas en un lenguaje de programación

Tiempo estimado de esfuerzo de desarrollo (COCOMO básico)

Estimación de tiempo de desarrollo (COCOMO básico)

Número estimado de desarrolladores (COCOMO básico)

Estimación del coste de desarrollo (COCOMO básico)

Siendo estrictos, las estimaciones realizadas a partir de COCOMO básico no deberían corresponder a la fase de extracción de datos, sino a una posterior de análisis.

En la actualidad, SLOCCount devuelve los resultados en texto plano, aunque existe la posibilidad de que los devuelva entre tabuladores para que puedan ser introducidos en una base de datos. Existe una herramienta, de nombre sloc2html, que permite transformar los resultados a vistosas páginas HTML.

2. Intercambio de información directa entre desarrolladores

El intercambio más importante de información no incluido en el código corre a cargo de listas de correo electrónico, canales IRC y documentación. En el caso de las listas de correo-e, los mensajes son almacenados en archivos que deben ser analizados. En cuanto a la documentación y al IRC todavía no está muy claro lo que buscamos y sobre todo, cómo hacerlo de forma automática.

2.1. MailListStats

MailListStats toma los archivos de texto que generan GNU Mailman, majordomo u otros gestores de listas de correo-e. Este tipo de archivos suelen estar accesibles mediante HTTP. MailListStats se descarga el archivo con los mensajes durante un cierto espacio temporal (generalmente un mes) de la lista y toma de las cabeceras de los mensajes tanto el autor como la fecha de envío.

Datos que se pueden extraer de las estadísticas de las listas de correo-e:

Nombre (y dirección) del autor

Fecha

Nombre de la lista (de forma que podamos adjudicar las estadísticas a un proyecto o metaproyecto)

En un futuro se pretende añadir la capacidad de seguir el hilo de la discusión o incluso alguna forma de cuantificar la longitud del mensaje, aunque para ello habrá que buscar métodos para eliminar las líneas que corresponden a un mensaje original al que se está respondiendo o a las firmas PGP.

2.2. Estadísticas del IRC (perlbot + IRC stats)

Más allá del número de personas que se congregan en un canal, no parece muy claro qué otros parámetros interesantes se pueden extraer de las estadísticas del IRC. Sin embargo, también es verdad que la existencia de muchos bots que las generan semiautomáticamente hace que no haya que molestarse mucho en su implementación.

3. Herramientas de desarrollo distribuido

El desarrollo de software libre se basa en gran parte en unas herramientas que permiten sincronizarse con el trabajo de los diferentes desarrolladores del proyecto, de manera que la distribución geográfica no suponga un problema. Los sistemas de control de versiones y los gestores de erratas (también usados ocasionalmente para tareas de planificación) se han convertido en herramientas imprescindibles para proyectos de software libre grandes, y no tan grandes. Estos sistemas suelen registrar las interacciones con los desarrolladores y, por tanto, una vez que se consiguen estos registros puede monitorizarse de manera bastante sencilla todo el proceso de desarrollo.

3.1. Sistema de control de versiones: cvstat2

El desarrollo distribuido (y a veces simultáneo) en proyectos de software libre se organiza mediante el uso de un sistema de control de versiones. El más utilizado en la actualidad por los proyectos de software libre es el CVS. Un análisis de los cambios que se van realizando al repositorio que estos sistemas mantienen, nos dará mucha información acerca de la participación de desarrolladores, además de la posibilidad de ver si existen ciclos de desarrollos. El estudio de los resultados obtenidos por esta vía se puede extender de manera notable si los datos obtenidos los podemos correlar con las inspecciones de código y la actividad en las listas de correo, así como con datos socio-laborales de los desarrolladores.

Cvstat2 es una extensión del cvstat de J.Mallet que ha sido concebido para poder funcionar de manera distribuida. El objetivo es que junto con la aplicación de extracción de datos, se distribuya un interfaz web simple e intuitiva a través de la cual se pueda ver la evolución del proyecto en el CVS. De esta manera, cualquier equipo de desarrollo podrá descargarse, instalarse y configurarse el software y medir sus interacciones con el repositorio CVS. Además, estos datos serán exportados, de manera que se descarga el procesamiento de un repostorio central de datos en formato intermedio.

El objetivo de la distribución hace que el software que se tenga que generar sea lo más fácil de conseguir e instalar. En un principio, la idea es que una vez instalado mediante procesos automáticos, sea la propia aplicación la que se encargue de actualizar sus datos y exportarlos, de manera que la manipulación humana sólo se tenga que dar en los pasos de instalación y configuración.

Por otro lado, la distribución de esta herramienta puede ser una buena forma de promocionar la investigación que se va a realizar, ya que todo el mundo puede contar con cvstat2 para su propio proyecto y, si exporta sus datos, se sentirá parte de una gran comunidad que aporta para la investigación del fenómeno del software libre.

Datos que podemos obtener vía cvstat2:

- fecha del commit (acción por la cual un desarrollador sincroniza su versión local con la

- existente en el repositorio)

- fichero modificado

- desarrollador

- número de versión (CVS)

- número de líneas añadidas

- número de líneas borradas

3.2. Sistema de control de erratas: BugZilla, estadísticas de errores críticos

En muchos proyectos grandes de software libre, la existencia de errores críticos propicia que la publicación de una versión estable se retrase. Debian y GNOME son dos ejemplos de ello, aunque seguro que hay muchos más. La incidencia de errores críticos es muy importante a la hora de realizar la publicación definitiva en grandes proyectos de software libre. Un ejemplo de radiante actualidad nos lo ha dado la segunda versión de la plataforma GNOME. Su publicación definitiva se ha retrasado varias semanas, porque tenía varios errores críticos que no se había conseguido corregir.

Datos que se pueden extraer:

- fecha de apertura de una errata

- catalogación de una errata

- número de las interacciones

- fecha de las interacciones

- autor de las interacciones

- fecha de cierre de una errata

En la actualidad no existe ninguna herramienta que extraiga los datos que se acaban de mencionar. El sistema de control de erratas, BugZilla, cuenta por ahora con la funcionalidad para extraer estadísticas del número de erratas abiertas, cerradas y existentes, pero esos datos son insuficientes para nuestros propósitos. De todas formas, como BugZilla utiliza una base de datos para almacenar los datos, no cabría desechar la idea de pedir una copia (o acceso directo) para que pudiera ser analizada completamente.

En el último caso, se podría crear un parser que tomara de manera automática los datos estadísticos de las páginas web con los informes de errata, aunque esto plantea siempre el problema de que un cambio en el HTML de Bugzilla signifique que debemos adaptar el programa que parsea esos datos.

4.- Formato intermedio e independiente

En un principio, se intentará que todas las herramientas utilizadas devuelvan los resultados en un formato intermedio e independiente que permita aglutinar los resultados de las diferentes herramientas de manera sencilla. El formato elegido debe ser muy flexible, ya que puede que en un futuro próximo se le añadan más. A día de hoy, lo mejor sería utilizar un formato XML, ya que cumple todos los requisitos comentados con anterioridad y además permite la compatibilidad hacia atrás. También hay que tener en cuenta que los conversores de XML a cualquier otro tipo de formato que se desee no serán muy difícil de implementar.

4.1. Herramientas de conversión a XML

Como hemos partido de aplicaciones de extracción de datos ya existentes que utilizan sus propias formas de almacenamiento de datos, puede ser necesario la creación de herramientas que conviertan los datos del formato original al formato intermedio e independente en XML.

Un ejemplo de esto podría ser CODD que, como hemos visto con anterioridad, utiliza un formato propio de ficheros. Para llevar a cabo la conversión hará falta una aplicación que bien podría llamarse codd2xml. En el caso de SLOCcount, también será necesario una especie de sloc2xml.

Análisis, procesado y visualización de los datos (Segunda fase)

Hemos visto que la primera fase trata la extracción de datos de diferentes fuentes para almacenarlos posteriormente en un formato intermedio que sea independiente de las fuentes y de las herramientas. Esta primera fase, aunque todavía incompleta, se encuentra mucho más madura que la fase que se va a presentar ahora. Parece bastante claro cuáles son las fuentes que se quieren investigar y sólo faltan algunos huecos en las implementaciones para que se dé por acabada.

Una vez que tenemos los datos, se abre ante nosotros un mundo lleno de posibilidades. El volumen de datos del que disponemos y la prácticamente carencia de análisis hace que se puedan vislumbrar en un futuro próximo gran cantidad de estudios en lo que se refiere al análisis, procesado e interpretación de los resultados.

En los siguientes apartados se presentarán diferentes propuestas que van encaminadas a tratar los datos que tenemos y hacerlos más comprensibles. Se mostrarán varias formas de tomar los datos y analizarlos, aunque seguro que en los próximos tiempos se crearán más.

5.1. Interfaz web

La interfaz web persigue la finalidad de captar la atención hacia el proyecto de dos maneras diferentes: la primera, más obvia, es mostrar los resultados del mismo a todo aquél que lo desee. La segunda es proporcionar los métodos necesarios a los desarrolladores que lo deseen para poder participar en el proyecto. La idea es generar una serie de aplicaciones que pueda ejecutar en su proyecto. Esto puede proporcionarle por una parte cierta realimentación sobre las contribuciones al proyecto, así como estadísticas que satisfagan su curiosidad. Por otra, podrá tener la posibilidad de exportar estos datos, de manera que se integren en el proyecto global. Por ahora existe una arquitectura para crear diferentes interfaces web implementada en PHP y que utiliza una base de datos relacional como almacén de datos.

6.2. Herramientas de análisis de clústers

Uno de los principios a la hora de investigar elementos desconocidos es intentar agruparlos por sus características de manera que podamos realizar una categorización. En nuestro caso el gran volumen de datos permite obtener núcleos reducidos que pueden ser estudiados de manera más sencilla. Existe una amplia teoría matemática de clusters, que el autor de este documento desconoce por el momento, pero que se podría aplicar para la resolución del problema.

No hay comentarios:

Publicar un comentario