El uso del Big Data en la Ciencia

April 15, 2020/0 Comments/in Bootcamp de programación/by ingo

De este modo, producimos flujos de información de gran magnitud que difícilmente pueden ser entendidos y procesados con los métodos tradicionales dadas sus limitaciones logísticas. A su vez, el acceso y procesamiento de dicha información sirve como una nueva manera de extraer ganancias y de aumentar la “vigilancia” de poblaciones a través la creciente interconexión de bases de datos y técnicas de análisis. Los retos que se desprenden del consumo y creación de información a través de la red incluyen necesidades de captura, manejo y procesamiento de grandes volúmenes de datos.

Este tipo de aprendizaje se ha usado en la clasificación de imágenes, por ejemplo, en el estudio de cálculos renales usando un conjunto de datos con imágenes de cálculos en color e infrarrojo23. Sin embargo, se acepta que se trata del “estudio científico de la creación, validación y transformación de datos para crear significado”, es decir, la ciencia que permite extraer valor y conocimiento de los datos. Por tanto, los Big Data están intrínsicamente relacionados con la “ciencia de datos” debido a que son su materia prima17,18. De esta forma se puede afirmar que la “datificación” en el ámbito de la salud es una tradición muy antigua en cambio, la digitalización ha llegado de la mano con la incorporación de las TI en la atención de salud. Éstas han permitido, entre otros, la generación del Registro Electrónico de datos de Salud (RES o en inglés EHR) o Ficha Clínica Electrónica (FCE), los cuales compilan las historias clínicas de una persona5 y que pueden ser consultados por personal de salud6. A juicio de
Peiró y Guallar (2013), el periodismo de
datos está básicamente en relación con el periodismo de investigación, el periodismo
de precisión, la documentación, la infografía, el fact checking y
el open data y el big data.

¿Qué es Big Data?

Independientemente de la denominación, una sociedad en la que aumenta la información y en la que crece la necesidad de transparencia se postula como el marco ideal para que los periodistas utilicen y expliquen los datos, aunque sean complejos, por técnicas como la visualización. En el momento actual, en muchos países se está expandiendo el término periodismo de datos, que sugiere una forma especializada de recogida y análisis de datos en la línea del trabajo realizado por analistas o investigadores, en donde el componente informático es una parte central de la elaboración, en ocasiones automatizada, de la producción de noticias. David Gómez-Ullate es investigador distinguido en la Universidad de Cádiz y profesor titular de Matemática Aplicada en la Universidad Complutense de Madrid, actualmente en excedencia.

Los coronavirus (CoV) pertenecen a la subfamilia Orthocoronavirinae de la familia Coronaviridae en el orden Nidovirales, y esta subfamilia incluye α-coronavirus, β-coronavirus, γ-coronavirus y delta-coronavirus (Banerjee et al., 2019).
También se observa una clara controversia sobre el valor periodístico real que tienen los datos, frente al valor que supone filtrar la información, interpretarla; a lo que se suma el recelo que genera la capacidad de manipulación de los datos por parte de las autoridades políticas.
El crecimiento de los datos, como la explosión de las redes móviles, la computación en la nube y las nuevas tecnologías son descritas en [12].
Los trabajos se concentran, en su gran mayoría, en asociar Big Data a grandes volúmenes de datos o a la distribución de procesamiento.

En esta era digital, los términos Big Data y Data Science se han vuelto omnipresentes, pero a menudo se utilizan indistintamente, lo que puede llevar a confusión. Si bien ambas disciplinas están intrínsecamente relacionadas y curso de ciencia de datos comparten similitudes, representan aspectos diferentes de la gestión y el análisis de datos en el mundo moderno. Duplicándose cada año, transformándolo todo a su paso y dando lugar a términos como big data vs data science.

Cómo crear capital ecológico a partir de edificios ineficientes

La parte central, la “plataforma de minería de Big Data” (nivel I), que se enfoca en el acceso a los datos de bajo nivel y computación. Los desafíos en el intercambio de información y la privacidad, los dominios de aplicación de Big Data y el conocimiento forman el nivel II, que se concentra en la semántica de alto nivel, las aplicaciones de dominio de conocimiento y los problemas de privacidad del usuario. En [16] los autores proponen un teorema llamado “HACE” (Heterogeneous, Autonomous, Complex y Evolving), con el cual buscan describir las características de la revolución de Big Data. En primer lugar, abordamos los desafíos metodológicos que plantean los grandes volúmenes de datos a las ciencias del comportamiento, con especial énfasis en la distinción entre métodos convencionales como encuestas de opinión y el análisis de big data. Luego, revisamos tres agendas de investigación en torno a los cuales se ha desarrollado la investigación empírica respecto a la relación entre política y redes sociales (social media).

En todo lo que rodea a la sanidad hay muchas fuentes de datos que dan lugar a una cantidad tremenda de información. En el sector de la salud se generan desde datos estructurados (aquellos que se pueden almacenar, consultar y manipular de manera automática, como serían https://psicocode.com/miscelanea/curso-ciencia-datos-tripleten/ los nombres de los pacientes, sus valores analíticos, etc.) hasta datos desestructurados (como las anotaciones médicas, las radiografías, los informes médicos…). Añadamos a esto la gran cantidad de información sobre nuestra salud que generan hoy en día los wearables.

Artificial Intelligence

Los cómputos se hacen en términos de una función de mapeo y otra de reducción y el cálculo se hace de forma paralelizada. Los autores muestran Map Reduce como un modelo que facilita el trabajo con sistemas paralelos y distribuidos, ya que oculta detalles de paralelización, tolerancia a fallos, optimización y balance de carga. Es necesario optimizar los recursos de red cuando se trabaja con Map Reduce, por ello es bueno leer los datos desde discos locales y reducir la cantidad de datos enviados a través de la red. También la ejecución redundante disminuye el impacto de las máquinas lentas, pérdida de datos y fallos de máquina. Nos ayuda a comprender el contenido de una base de datos, filtrarlo, limpiarlo y eliminar todo aquello que no aporta a lo que buscamos. Para ello se utiliza estadística, algoritmos… Nos ayuda a obtener información relevante a partir de los datos.

Esta última revolución sin duda modificó el rol de los equipos médicos, impactó la forma en que se educan y entrenan los profesionales de la salud, generó nuevas necesidades, y mejoró significativamente la calidad de vida de la población. Del mismo modo, hoy nos encontramos en una etapa en la que es necesario responder a nuevas necesidades de cómo realizar investigación y cómo educar a los profesionales médicos del futuro. El marco conceptual presentado nos permite poner casos prácticos en perspectiva, y analizar de manera crítica algunos de los usos de Big Data y la Ciencia de Datos que han mostrado ser efectivos en aplicaciones clínicas. Los Data Scientists dependen de los sistemas de Big Data para acceder y procesar los datos, mientras que los profesionales de Big Data dependen de las habilidades de Data Science para extraer conocimiento y valor de esos datos. Esta simbiosis entre ambas disciplinas es esencial para aprovechar al máximo el potencial de los datos en el mundo empresarial, la investigación y otras áreas.

0 replies

Want to join the discussion?
Feel free to contribute!

El uso del Big Data en la Ciencia

¿Qué es Big Data?

Cómo crear capital ecológico a partir de edificios ineficientes

Artificial Intelligence

Leave a Reply

Leave a Reply Cancel reply

Enfold Seattle

Enfold Dallas

Enfold Detroit

Enfold L.A.