Cuando los datos dicen “stop”

Crédito: Foto por Tim Gouw en Unsplash, https://unsplash.com/@punttim

Cuando los datos dicen “ stop ”

3 de diciembre de 2019 | Historia original de la Universidad de Northwestern

Un equipo de investigación liderado por Luis Amaral de la escuela de Ingeniería de la Universidad de Northwestern desarrolló un método algorítmico para el análisis de datos que reconoce automáticamente palabras no informativas -conocidas como palabras stop - en grandes colecciones de textos. Los hallazgos significan un gran ahorro de tiempo durante el procesamiento del lenguaje natural, así como reducción de la huella energética.

“ Uno de los desafíos en el aprendizaje maquinal y en inteligencia artificial es que no se sabe cuales son los datos útiles y cuáles no para un algoritmo ”, dijo Amaral, Profesor de Ingeniería Química y Biológica de Erastus Otis Haven, en el Escuela de Ingeniería McCormick. “ Utilizando la teoría de la información, creamos un marco que revela qué palabras no son informativas para la tarea en cuestión ”.

El problema con las palabras stop

Una de las técnicas más comunes que los científicos de datos utilizan en el procesamiento del lenguaje natural, es el modelo de bolsa de palabras, que analiza las palabras de un texto determinado sin tener en cuenta el orden en que aparecen. Para agilizar el proceso, los investigadores filtran las palabras stop , o sea aquellas que no agregan contexto al análisis de datos. Muchas listas de palabras stop son seleccionadas manualmente por los investigadores, lo que torna el procedimiento lento tanto para desarrollar, como para mantener, así como difícil de generalizar a distintos idiomas y disciplinas.

“Imagínese que analiza millones de entradas de blog y desea saber qué tema aborda cada publicación”, dijo Amaral, quien codirige el Instituto Northwestern sobre Sistemas Complejos. “ Normalmente se filtran palabras comunes como 'el' y 'tú', que no proporcionan ningún fondo sobre
el tema ”.

Sin embargo, la mayoría de las palabras que no son útiles para esa tarea específica dependen del idioma y del área temática particular del blog . “ Para una colección de blogs sobre electrónica, por ejemplo, hay muchas palabras que no permitirían que un algoritmo determine si una entrada de blog trata de computación cuántica o de semiconductores ”, agregó.

Un marco teórico de la información

El equipo de investigación utilizó la teoría de la información para desarrollar un modelo que identifica de manera más precisa y eficiente las palabras stop . El centro del modelo es una métrica de “entropía condicional” que cuantifica la certeza de que una palabra determinada sea informativa. Cuanto más informativa sea, menor será su entropía condicional. Al comparar los valores observados y esperados de la entropía condicional, los investigadores pueden medir el contenido de información de palabras específicas.

Para probar el modelo, los investigadores compararon su rendimiento con los enfoques comunes de modelado de temas, que deducen las palabras más relacionadas con un tema determinado comparándolas con otro texto del conjunto de datos. Este marco produjo una mayor precisión y reproducibilidad en todos los textos estudiados, al mismo tiempo que era más aplicable a otros idiomas de una manera sencilla. Además, el sistema logró un rendimiento óptimo utilizando significativamente menos datos.

“ Usando nuestro enfoque, pudimos filtrar el 80% o más de los datos y aumentar realmente el rendimiento de los algoritmos existentes para la clasificación de temas de cuerpo del texto ”, dijo Amaral. “ Además, al filtrar gran parte de los datos, se reduce drásticamente la cantidad de recursos computacionales necesarios ”.
Más allá del ahorro de tiempo, el sistema de filtrado podría conducir a un ahorro de energía a largo plazo, combatiendo el impacto negativo que la informática a gran escala tiene en el cambio climático .

El artículo que describe el trabajo fue publicado el 2 de diciembre en la revista Nature Machine Intelligence . Amaral es coautor en el journal, junto con Martin Gerlach, becario postdoctoral en el laboratorio de Amaral.
Si bien el análisis de los investigadores se limitó a los enfoques de bolsa de palabras, Amaral confía en que su sistema podría ampliarse para tener en cuenta características estructurales adicionales del lenguaje, incluidas frases y párrafos .
Además, dado que la teoría de la información proporciona un marco general para el análisis de cualquier secuencia de símbolos, el sistema de los investigadores podría ser aplicable, además del análisis de texto, a métodos de preprocesamiento para análisis de audio, imágenes, e incluso genes.

“Hemos comenzado a aplicar este enfoque al análisis de datos de experimentos que miden moléculas de ARN específicas de genes en células individuales como una forma de identificar automáticamente diferentes tipos de células ”, dijo Gerlach. “ Filtrar genes no informativos -pensados como ‘genes stop’- es particularmente prometedor para aumentar la precisión. Esas mediciones son mucho más difíciles comparada con la aplicada a los textos y la heurística actual no está tan bien desarrollada ”..

Este artículo ha sido republicado a partir de los siguientes materiales y editado para adecuar su longitud y contenido. Para obtener más información, ver la fuente citada.

Referencia: Gerlach, M., Shi, H., & Amaral, L. A. N. (2019). A universal information theoretic approach to the identification of stop words. Nature Machine Intelligence , 1–7. https://doi.org/10.1038/s42256-019-0112-6