estás leyendo...
Other topics, Papers recientes

ArXiv inteligente

Título: Intelligent Arxiv: Sort daily papers by learning users topics preference 
Autores: Ezequiel Alvarez, Federico Lamagna, Cesar Miquel and Manuel Szewc
Institución del primer autor: International Center for Advanced Studies (ICAS) and CONICET, UNSAM, Argentina 
arXiv: arXiv:2002.02460 [cs.LG]

Las opiniones expresadas en este documento son responsabilidad exclusiva del autor y no representan necesariamente la posición oficial de astrobitos.org.

Una idea científica en la cabeza de una o varias personas y luego quizá, ¿un cálculo con lápiz y papel?, ¿una observación astronómica?, ¿un experimento en un laboratorio?, ¿analizar datos?, ¿realizar una simulación?, ¿diseñar un nuevo código o algoritmo?, o ¿una demostración matemática? Sin importar el desarrollo de la idea, en la mayoría de las ocasiones, la moneda en la academia es un artículo científico. Un documento en donde se detallan las contribuciones realizadas por las personas que realizaron la investigación.

En el mundo hay cerca de 33,100 revistas científicas que publican alrededor de 3.000.000 de artículos por año, en inglés [1]. De hecho, algunas personas publican más 70 artículos por año [2], i.e., ¡más de uno por semana!. Sin embargo, dada la estructura de la academia hoy en día, resulta muy complicado saber cuántos de esos artículos proporcionan información (en el sentido estricto de un aporte como tal). De hecho, la gran mayoría ni siquiera son leídos aún cuando son referenciados en otra publicación [3]. 

¿Se pública mucho o muy poco? Yo pienso que esa ni siquiera es la pregunta y siempre habrán varios puntos de vista. Por ejemplo, en un comentario reciente de Jason Wright publicado en Physics Today [4], él respalda la idea de que una alta aceptación de artículos en revistas académicas, es buena para la ciencia. Sin embargo, este astrobito no es sobre esa discusión. Este astrobito es sobre la iniciativa IArxiv.org, propuesta recientemente por investigadores argentinos para hacer más fácil estar al día con el campo propio de investigación y ayudar a identificar trabajos relevantes dentro de las diferentes líneas de interés de las personas.

Sin embargo, antes de escribir sobre iArxiv, comenzaré introducir brevemente arXiv.org. El arXiv es un servicio gratuito de distribución y archivo abierto para artículos académicos en los campos de la física, matemática, ciencias de la computación, biología cuantitativa, finanzas cuantitativas, estadística, ingeniería eléctrica y de sistemas, y economía. El arXiv fue fundado por Paul Ginsparg en 1991 y es operado por la Universidad de Cornell. Solamente usuarios registrados pueden enviar artículos para ser anunciados en el arXiv. Estos envíos están sujetos a un proceso de moderación que clasifica el material en el área temática. Sin embargo, el material no es revisado por pares y en ese sentido el contenido de los envíos al arXiv es responsabilidad exclusiva del remitente y se presenta “tal cual” sin ninguna garantía.

La sección sobre la que usualmente escribimos astrobitos es astro-ph, i.e., la sección de astrofísica del arXiv. En la misma por ejemplo, aparecieron 14.080 contribuciones solamente en el 2018, i.e., alrededor de 1.100 documentos por mes. Por supuesto, no todos los documentos presentados día a día en el arXiv son de interés para cada persona. Sin embargo, dado que la clasificación resulta bastante general, i.e., astrofísica, cada persona interesada debe en principio ojear cada título y resumen para decidir si debe leerlo o no. 

¿iArxiv al rescate? Los investigadores han creado el sitio web IArxiv.org, donde los usuarios pueden leer los lanzamientos diarios del arXiv escogidos y ordenados por un algoritmo que aprende de las preferencias de cada usuario, permitiendo así una clasificación más precisa para cada día o ventana de observación. La versión actual de IArxiv se ejecuta en las categorías del arXiv astro-ph, gr-qc, hep-ph y hep-th. 

La propuesta, cuyos detalles están disponibles en el arXiv [sic], implementa técnicas del aprendizaje automático no supervisado sobre el corpus lingüístico del artículo, i.e., el conjunto estructurado de los ejemplos de uso de la lengua. Por ejemplo, para el español los corpus son administrados por la Real Academia Española desde el siglo XII. En términos escuetos, resultan ser el conjunto de textos de un mismo origen, con el fin de reunir en una misma base de datos el uso de un término de la lengua en un momento dado. Para el caso de los artículos, más o menos, el objetivo es inferir temas abstractos de un corpus dado de documentos sin etiquetar, al considerar que estos temas abstractos son los generadores del corpus y, por lo tanto, se asume que codifican toda la información necesaria sobre el corpus. En mi mente, es como si se creara el idioma que hablan mis intereses o investigación. 

El algoritmo implementado en el iArxiv define y extrae los temas subyacentes del corpus, obtiene un vector de peso (en términos escuetos los parámetros del modelo) de los temas para cada trabajo en el corpus y posteriormente un vector de peso de los temas para los nuevos artículos. Cada usuario que se registra en su plataforma, alimentará constantemente el algoritmo con sus documentos preferidos. Así, cada día el algoritmo revisará los nuevos artículos anunciados en el arXiv y clasificará los documentos según la preferencia del usuario en los temas subyacentes. De esta manera, en principio todo lo mostrado será relevante para el usuario. Yo creé mi cuenta, que no requiere más que un correo electrónico, seleccioné artículos de mi preferencia y voalá, desde entonces sus sugerencias han sido, en mi opinión, bastante acertadas. 

La mayoría de las contribuciones del arXiv no han pasado necesariamente por un proceso de revisión formal y además, así estén publicados en un revista, no necesariamente están correctos o son la última palabra. Por eso siempre tenemos que leer con cuidado y atención todo lo que llega a nuestro alcance. Como toda herramienta tecnológica o instrumental, su buen uso depende de los usuarios.

Referencias:
[1]. Johnson, R., Watkinson, A., & Mabe, M. (2018). The STM report. An overview of scientific and scholarly publishing. 5th edition October.
[2]. Price, M. (2018). Some scientists publish more than 70 papers a year. Here’s how—and why—they do it. Science. https://doi.org/10.1126/science.aav4004
[3]. Simkin, M. V., & Roychowdhury, V. P. (2002). Read before you cite!. arXiv preprint cond-mat/0212043.
[4]. Wright, J. (2020). Commentary: High journal acceptance rates are good for science. PhT, 73(2), 10-11.

Comentarios

Aún no hay comentarios.

Deja un comentario

Tu dirección de correo electrónico no será publicada.