Data Mining en evaluaciones de biodiversidad

López, Luis; Martínez, Pablo; Cacho Mendoza, Ariel Alejandro; Soria, Marcelo A.; Santa María, Cristóbal

Buscar material

Busque entre los 171448 recursos disponibles en el repositorio

Subir material

Suba sus trabajos a SEDICI, para mejorar notoriamente su visibilidad e impacto

Red de Universidades con Carreras en Informática (RedUNCI)
→
Eventos
→
WICC
→
WICC 2014

Mostrar el registro sencillo del ítem

dc.date.accessioned	2014-10-28T13:04:05Z
dc.date.available	2014-10-28T13:04:05Z
dc.date.issued	2014-05
dc.identifier.uri	http://sedici.unlp.edu.ar/handle/10915/41971
dc.description.abstract	Las modernas técnicas de secuenciación de ADN transforman su estructura química en secuencias informáticas de símbolos cada una de las cuales puede ser vista como una instancia de una base de datos. Es posible entonces aplicar técnicas para clasificar casos y predecir patrones de comportamiento de forma similar a como se lo hace sobre otros dominios como las finanzas, el marketing o el texto, aunque la complejidad del dominio microbiológico pueda llevar a una tarea un poco más ardua. En tal sentido la aplicación de data mining en los estudios genómicos es un hecho consolidado en la investigación biológica pues en ella también se trata de clasificar y descubrir patrones sobre grandes bases de datos con el auxilio de técnicas combinadas de aprendizaje automático, estadística y visualización lo que en suma no es más que la definición ontológica de la minería de datos. El trabajo aquí presentado se refiere a secuencias de ADN correspondientes a distintos microorganismos extraídas de muestras de suelo con el objetivo de evaluar los patrones de riqueza y diversidad de la comunidad microbiológica que lo integra. En particular cada secuencia de ADN correspondiente al gen 16S rRNA que integra la muestra se identificará con un organismo distinto. La tecnología de secuenciación actual es capaz de obtener miles de estas cadenas de símbolos correspondientes a los cuatro componentes básicos del ADN: Aadenina, T-timina, C-citocina y Gguanina. Cada parte de un gen será entonces una secuencia de unos cientos de estos símbolos colocados en algún orden. Tal como se hace por ejemplo en text mining, se puede definir una distancia conveniente entre secuencias y con ella producir un clustering que agrupe las secuencias según su similitud. Así, eligiendo un umbral de disimilaridad adecuado, cada agrupamiento estará integrado por secuencias correspondientes a individuos de la misma especie, Estos clusters se denominan Unidades Taxonómicas Operacionales y a partir de su distribución de abundancia en la muestra, se pretende establecer el patrón de riqueza de la comunidad, lo que significa establecer el número de especies que hay en la misma. Esta tarea se topa con un serio problema estadístico pues en microbiología más del 70% de las especies pueden ser estadísticamente raras a la vez que un 10% es muy abundante. De tal forma las muestras no contienen individuos de muchas especies presentes y a su vez presentan muchos individuos de las especies dominantes. Es decir; toda muestra resulta pequeña para una inferencia estadística simple de la riqueza poblacional. El algoritmo de recuento de especies ARE, ya presentado en otros trabajos (1) y (2), mejora las estimaciones no paramétricas habituales y las hace compatibles con las apreciaciones ecológicas. En términos más generales el algoritmo resuelve en forma eficiente el problema de inferir desde una muestra de casos el número de clases de casos que hay en una población que contiene una alta proporción de clases raras. Este problema se reconoce también, por ejemplo, en el análisis de texto donde cada palabra distinta es una clase y hay palabras muy poco frecuentes (3). Hay que remarcar que el número inferido para la riqueza como cantidad de especies distintas, o si se quiere palabras distintas, constituye una guía imprescindible para afinar el clustering que se realice sobre nuevas muestras de la población para determinar una clasificación estable y aplicable luego para predicción. En este trabajo se planteó el objetivo de desarrollar un programa escrito en Lenguaje C o C++ que permitiera reemplazar al programa del algoritmo ARE escrito en lenguaje R con el fin de mejorar los tiempos de ejecución Se estudian además las posibilidades de paralelización en la ejecución de los algoritmos.	es
dc.format.extent	158-162	es
dc.language	es	es
dc.subject	Data mining	es
dc.subject	ADN	es
dc.subject	técnicas de secuenciación	es
dc.subject	PATTERN RECOGNITION	es
dc.subject	bases de datos	es
dc.subject	instancias	es
dc.subject	patrones de comportamiento	es
dc.title	Data Mining en evaluaciones de biodiversidad	es
dc.type	Objeto de conferencia	es
sedici.creator.person	López, Luis	es
sedici.creator.person	Martínez, Pablo	es
sedici.creator.person	Cacho Mendoza, Ariel Alejandro	es
sedici.creator.person	Soria, Marcelo A.	es
sedici.creator.person	Santa María, Cristóbal	es
sedici.description.note	Eje: Bases de Datos y Minería de Datos	es
sedici.subject.materias	Ciencias Informáticas	es
sedici.description.fulltext	true	es
mods.originInfo.place	Red de Universidades con Carreras en Informática (RedUNCI)	es
sedici.subtype	Objeto de conferencia	es
sedici.rights.license	Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
sedici.rights.uri	http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
sedici.date.exposure	2014-05
sedici.relation.event	XVI Workshop de Investigadores en Ciencias de la Computación	es
sedici.description.peerReview	peer-review	es

Descargar archivos

Documento completo
Descargar archivo (225.6Kb) - PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)

WICC → WICC 2014

Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)

Excepto donde se diga explícitamente, este item se publica bajo la siguiente licencia Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)

Iniciar sesión